Полезные ссылки
- Учимся фильтровать строки DataFrame (pandas) .str.contains()
- Введение в анализ данных с помощью Pandas (хабрахабр)
- DataFrame
- http://www.gregreda.com/2013/10/26/working-with-pandas-dataframes/
- https://stackoverflow.com/questions/21197774/assign-pandas-dataframe-column-dtypes#36184396
- Data Types and Formats
- шпаргалка по pandas
- Введение в Pandas
- Merge, join, concatenate
- Большая шпаргалка по Pandas - подробно и доступно
- Index, Select and Filter dataframe in pandas python
- Введение в pandas: анализ данных на Python
Агрегирование данных и групповые операции
Хэдли Уикхэм (Hadley Wickhaш), автор многих популярных пакетов на языке программирования R, предложил для групповых операций термин разделенuе применение-объединение.
- На первом этапе данные, хранящиеся в объекте pandas, будь то Series, DataFrame или что-то еще, разделяются на группы по одному или нескольким указанными вами ключам. Разделение производится вдоль одной оси объекта. Например, DataFrame можно группировать по строкам (axis = O) или по столбцам (axis = l).
- Затем к каждой группе применяется некоторая функция, которая порождает новое значение.
- результаты применения всех функций объединяются в результирующий объект. Форма результирующего объекта обычно зависит от того, что именно проделывается с данными.
Ключи группировки могут задаваться по-разному и необязательно должны быть одного типа:
- список или массив значений той же длины, что ось, по которой производится группировка;
- значение, определяющее имя столбца объекта DataFrame;
- словарь или объект Series, определяющий соответствие между значениями на оси группировки и именами групп;
- функция, которой передается индекс оси или отдельные метки из этого индекса.
Работа с файлами xlsx
-
pyexcel-xlsx - Let you focus on data, instead of xlsx format
-
https://pythonhosted.org/pyexcel-xlsx/
- https://github.com/pyexcel/pyexcel-xlsx