Fork me on GitHub

Python and Pandas - манипуляция с данными

Полезные ссылки

to_excel

Агрегирование данных и групповые операции

Хэдли Уикхэм (Hadley Wickhaш), автор многих популярных пакетов на языке программирования R, предложил для групповых операций термин разделенuе­ применение-объединение.

  1. На первом этапе данные, хранящиеся в объекте pandas, будь то Series, DataFrame или что-то еще, разделяются на группы по одному или нескольким указанными вами ключам. Разделение производится вдоль одной оси объекта. Например, DataFrame можно группировать по строкам (axis = O) или по столбцам (axis = l).
  2. Затем к каж­дой группе применяется некоторая функция, которая порождает новое значение.
  3. результаты применения всех функций объединяются в результирующий объект. Форма результирующего объекта обычно зависит от того, что именно про­делывается с данными.

Ключи группировки могут задаваться по-разному и необязательно должны быть одного типа:

  • список или массив значений той же длины, что ось, по которой произво­дится группировка;
  • значение, определяющее имя столбца объекта DataFrame;
  • словарь или объект Series, определяющий соответствие между значениями на оси группировки и именами групп;
  • функция, которой передается индекс оси или отдельные метки из этого ин­декса.

Работа с файлами xlsx

  • pyexcel-xlsx - Let you focus on data, instead of xlsx format

  • https://pythonhosted.org/pyexcel-xlsx/

  • https://github.com/pyexcel/pyexcel-xlsx

social