Понимание функции Pandas groupby()
В этой статье мы поймем работу функции Pandas groupby() на различных примерах.
Что такое функция groupby()?
Модуль Python Pandas широко используется для улучшения предварительной обработки данных и используется для визуализации данных.
Модуль Pandas имеет различные встроенные функции для более эффективной работы с данными. Функция dataframe.groupby() function используется для разделения и выделения некоторой части данных из всего набора данных на основе определенных предопределенных условий или параметров.
dataframe.groupby('column-name')
Используя приведенный выше синтаксис, мы можем разделить набор данных и выбрать все данные, принадлежащие переданному столбцу, в качестве аргумента функции.
import pandas data = pandas.read_csv("C:/marketing_tr.csv") data_grp = data.groupby('marital') data_grp.first()
В приведенном выше примере мы использовали функцию groupby() для разделения и отдельного создания нового фрейма данных со всеми данными, принадлежащими столбцу marital, соответственно.
groupby() с несколькими столбцами
Разделение данных по нескольким значениям столбца можно выполнить с помощью функции Pandas dataframe.groupby() function . Таким образом, мы можем передать несколько тегов столбцов в качестве аргументов для разделения и разделения значений данных вместе со значениями только этих столбцов.
dataframe.groupby(['column1', 'column2', . 'columnN'])
import pandas data = pandas.read_csv("C:/marketing_tr.csv")4 data_grp = data.groupby(['marital','schooling']) data_grp.first()
Для просмотра групп
Помимо разделения данных в соответствии с определенным значением столбца, мы можем даже просмотреть детали каждой группы, сформированной из категорий столбца, используя функцию dataframe.groupby().groups .
Вот снимок образца набора данных, используемого в этом примере:
dataframe.groupby('column').groups
import pandas data = pandas.read_csv("C:/marketing_tr.csv") data_grp = data.groupby('marital').groups data_grp
Как видно выше, мы разделили данные и сформировали новый фрейм данных значений из столбца — «семейный».
Кроме того, мы использовали функцию groupby(). Groups для отображения всех категорий значений, присутствующих в этом конкретном столбце.
Кроме того, он также представляет положение этих категорий в исходном наборе данных вместе с типом данных и количеством имеющихся значений.
Выбор группы
Как мы видели до сих пор, мы можем просматривать различные категории обзора уникальных значений, представленных в столбце с его деталями.
Используя dataframe.get_group(‘column-value’) , мы можем отображать значения, принадлежащие определенной категории / значению данных столбца, сгруппированного функцией groupby().
dataframe.get_group('column-value')
import pandas data = pandas.read_csv("C:/marketing_tr.csv") data_grp = data.groupby('marital') df = data_grp.get_group('divorced') df.head()
В приведенном выше примере мы отобразили данные, принадлежащие значению столбца «divorced» столбца «marital».