- Top 10 функций для анализа данных в Pandas
- 1. read_csv()
- 2. head(), tail()
- 3. info()
- 4. describe()
- 5. dtypes
- 6. astype()
- 7. sample
- 8. drop_duplicates()
- 9. Isna()
- 10. loc[:]
- pandas.DataFrame.head#
- pandas.DataFrame.head#
- Как использовать функцию Pandas head() (с примерами)
- Пример 1: просмотр первых 5 строк DataFrame
- Пример 2: просмотр первых n строк DataFrame
- Пример 3: просмотр первых n строк определенного столбца
- Пример 4. Просмотр первых n строк нескольких столбцов
- Дополнительные ресурсы
Top 10 функций для анализа данных в Pandas
Библиотека Pandas предоставляет доступ ко множеству функций, которые могут понадобиться при анализе данных при помощи Python, однако сегодня мы поговорим о 10 функциях, которые должен знать каждый уважающий себя аналитик, использующий Pandas.
Перед работой с функциями Pandas не забываем импортировать эту библиотеку:
1. read_csv()
Функция read_csv() позволяет получить данные из файла формата csv, не используя каких либо сторонних библиотек. Все, что вам нужно сделать – это указать путь до файл. Важно отметить также и то, что данные можно получать как с локального диска, так и из сети Интернет(!). Ниже пример загрузки csv файла c Google диска:
url=’https://drive.google.com/file/d/1KXfupiJKql5Lc-D73KiiS_jEd_CNIW44/view?usp=sharing’
url2=’https://drive.google.com/uc?id=’ + url.split(‘/’)[-2]df = pd.read_csv(url2)
Полученные данные автоматически преобразуются в Dataframe с которым мы и будем работать в дальнейшем.
2. head(), tail()
Функция head() позволяет просмотреть первые пять строк в Dataframe. Вы также можете указать в скобках то количество строк, которые вы хотели бы отобразить с начала Dataframe. Функция tail() работает аналогично, но только вместо первых строк, она показывает последние:
3. info()
Функция info() предоставляет суммарную информацию о вашем Dataframe. Вы получите информацию о количестве строк, наименовании столбцов, количестве непустых строк в них, типе данных в каждом столбце, а также столько памяти занимает Dataframe:
4. describe()
Функция describe() для каждого числового столбца, в случае нашего примера это столбец Rating, выводит основные описательные статистические данные, такие как минимум, максимум, распределение по долям:
5. dtypes
При работе с данными в столбцах, нам необходимо понимать какой формат у этих данных и если Pandas при создании Dataframe неправильно присвоил тип данных столбцу, мы могли бы его в дальнейшем исправить. Функция dtypes() отображает тип данных (обратите внимание, что круглые скобки этой функции при работе в Dataframe не нужны):
6. astype()
Функция astype() позволяет изменить тип данных у столбца в случае, если тип данных некорректный. Для примера воспользуемся примером из одного из предыдущих уроков:
city_data = ‘Город’:[‘Москва’, ‘Казань’, ‘Владивосток’, ‘Санкт-Петербург’, ‘Калининград’],
‘Дата основания’:[‘1147’, ‘1005’, ‘1860’, ‘1703’, ‘1255’],
‘Площадь’:[‘2511’, ‘516’, ‘331’, ‘1439’, ‘223’],
‘Население’:[‘11,9’, ‘1,2’, ‘0,6’, ‘4,9’, ‘0,4’],
‘Погода’:[‘8’, ‘8’, ’17’, ‘9’, ’12’] >
city_df = pd.DataFrame(city_data)
city_df.dtypes
Как вы видите, у столбца Погода тип данных object, хотя в нем вся информация цифровая, давайте переведем его в формат int64:
После преобразования данные в столбце «Погода» стали восприниматься Pandas как int64 и соответственно с ними теперь можно проводить математические операции.
7. sample
Функция sample(n=…) отображает n случайных строк из Dataframe. Великолепная функция, если вам надо ориентировочно понять, что именно содержится в вашем Dataframe. Параметр n отвечает за то, сколько строк необходимо показать:
8. drop_duplicates()
Функция drop_duplicates() удаляет дубликаты в наших данных (параметр inplace=True означает, что мы изменяем исходный Dataframe):
9. Isna()
Функция Isna() возвращает информацию о том, есть ли в вашем Dataframe столбцы с пропущенными данными:
В нашем примере в столбцах Rating, Type, Content Rating, Current Ver, Android Ver есть строки, в которых отсутствуют какие-либо данные.
10. loc[:]
Функция loc позволяет получить данные из выбранных строк и столбцов. В качестве строк необходимо указать номера строк, которые необходимо отразить, а в качестве столбцов – их наименования. К примеру, со второй по четвертую строку получим наименования приложений и их рейтинг:
Хитрость: Используя данную функцию, можно получить данные из конкретной ячейки, указав ее строку и столбец.
Спасибо, за то, что прочитали статью. В ней я хотел рассказать о 10 нужных функциях Pandas при анализе данных, которые должен знать каждый.
В качестве бонуса, как обычно, я прикладываю ноутбук с примерами из этой статьи.
pandas.DataFrame.head#
This function returns the first n rows for the object based on position. It is useful for quickly testing if your object has the right type of data in it.
For negative values of n , this function returns all rows except the last |n| rows, equivalent to df[:n] .
If n is larger than the number of rows, this function returns all rows.
Parameters n int, default 5
Returns same type as caller
The first n rows of the caller object.
>>> df = pd.DataFrame('animal': ['alligator', 'bee', 'falcon', 'lion', . 'monkey', 'parrot', 'shark', 'whale', 'zebra']>) >>> df animal 0 alligator 1 bee 2 falcon 3 lion 4 monkey 5 parrot 6 shark 7 whale 8 zebra
Viewing the first 5 lines
>>> df.head() animal 0 alligator 1 bee 2 falcon 3 lion 4 monkey
Viewing the first n lines (three in this case)
>>> df.head(3) animal 0 alligator 1 bee 2 falcon
>>> df.head(-3) animal 0 alligator 1 bee 2 falcon 3 lion 4 monkey 5 parrot
pandas.DataFrame.head#
This function returns the first n rows for the object based on position. It is useful for quickly testing if your object has the right type of data in it.
For negative values of n , this function returns all rows except the last |n| rows, equivalent to df[:n] .
If n is larger than the number of rows, this function returns all rows.
Parameters : n int, default 5
Returns : same type as caller
The first n rows of the caller object.
>>> df = pd.DataFrame('animal': ['alligator', 'bee', 'falcon', 'lion', . 'monkey', 'parrot', 'shark', 'whale', 'zebra']>) >>> df animal 0 alligator 1 bee 2 falcon 3 lion 4 monkey 5 parrot 6 shark 7 whale 8 zebra
Viewing the first 5 lines
>>> df.head() animal 0 alligator 1 bee 2 falcon 3 lion 4 monkey
Viewing the first n lines (three in this case)
>>> df.head(3) animal 0 alligator 1 bee 2 falcon
>>> df.head(-3) animal 0 alligator 1 bee 2 falcon 3 lion 4 monkey 5 parrot
Как использовать функцию Pandas head() (с примерами)
Вы можете использовать функцию head() для просмотра первых n строк кадра данных pandas.
Эта функция использует следующий базовый синтаксис:
В следующих примерах показано, как использовать этот синтаксис на практике со следующими пандами DataFrame:
import pandas as pd #create DataFrame df = pd.DataFrame() #view DataFrame df points assists rebounds 0 25 5 11 1 12 7 8 2 15 7 10 3 14 9 6 4 19 12 6 5 23 9 5 6 25 9 9 7 29 4 12
Пример 1: просмотр первых 5 строк DataFrame
По умолчанию функция head() отображает первые пять строк DataFrame:
#view first five rows of DataFrame df.head () points assists rebounds 0 25 5 11 1 12 7 8 2 15 7 10 3 14 9 6 4 19 12 6
Пример 2: просмотр первых n строк DataFrame
Мы можем использовать аргумент n для просмотра первых n строк кадра данных pandas:
#view first three rows of DataFrame df.head (n= 3 ) points assists rebounds 0 25 5 11 1 12 7 8 2 15 7 10
Пример 3: просмотр первых n строк определенного столбца
В следующем коде показано, как просмотреть первые пять строк определенного столбца в DataFrame:
#view first five rows of values in 'points' column df['points'].head() 0 25 1 12 2 15 3 14 4 19 Name: points, dtype: int64
Пример 4. Просмотр первых n строк нескольких столбцов
В следующем коде показано, как просмотреть первые пять строк нескольких определенных столбцов в DataFrame:
#view first five rows of values in 'points' and 'assists' columns df[['points', 'assists']].head() points assists 0 25 5 1 12 7 2 15 7 3 14 9 4 19 12
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные функции в pandas: