Предобработка данных python pandas

Содержание

Шаблон новичка на пути PANDAS в искусстве анализа данных
Шапка
Подготовка к работе
Ознакомление с данными
Предобработка

Шаблон новичка на пути PANDAS в искусстве анализа данных

Доброго времени суток! Меня зовут Алексей. Сейчас я обучаюсь на аналитика данных в «Яндекс Практикум». Дело для меня непривычное, совершенно не связанное с моей предыдущей деятельностью (пока что работаю врачом, иногда пишу рассказы и повести), так что порой некоторые темы даются с большим трудом.

Начинающий аналитик данных с первых дней учёбы сталкивается с необходимостью освоить одну из наиболее важных в его будущей работе библиотек python — pandas. По себе знаю: порой здесь возникает такая путаница в голове, что первые простые задания вызывают ступор. Пройдя множество учебных заданий и успешно сдав несколько проектов, хочу поделиться с такими же новичками, как я сам, парой советов, которые, надеюсь, смогут упростить учебный процесс и первые шаги в новой профессии.

И мой главный совет: «сделайте себе шаблон«!

Не важно, в чём вы пишете код: «Google colaboratory», «Jupiter notebook» или в какой-то иной среде. Не важно, сколько вы пока знаете: если осваиваете профессию с нуля, вносите в шаблон всё, что уже умеете — позже всегда можно удалить лишнее. Шаблон поможет вам быстро сориентироваться в любой новой задаче, напомнит о необходимых манипуляциях.

Постарайтесь найти баланс между общими правилами оформления работы, которые от вас требуют (преподаватели, ревью, заказчики), логикой программирования и вашими личными предпочтениями в ведении документации.

Лично я большую часть учебных проектов выполнил в «Google colaboratory» (далее по тексту просто «колаб»), где предпочитаю следующую структуру шаблона.

Шапка

Название шапки напишем в отдельной текстовой ячейке с ### — там мы создаём раздел, который в колаб можно свернуть, спрятав ячейки текста и кода. Плюс: если кто-то будет просматривать вашу работу в «Jupiter notebook», текст сформирует заголовок и пункт оглавления, что будет удобно и вам, и просматривающим вашу работу.

Ниже вставьте хотя бы одну пустую ячейку под описание, вводной части или какого-то предварительного пояснения.

Подготовка к работе

Новый раздел. Также стоит название раздела записать в пустой ячейки, начав с ### .

В этом разделе стоит загрузить библиотеки и добавить некоторые предварительные настройки.

Отдельно по колаб. Если вы, как и я, предпочитаете работу в колаб, в первую очередь необходимо подключить возможность использовать доступный вам виртуальный диск «Google drive». Чтобы избежать конфликта при ревью в другой среде, заключите код в конструкцию «try — except». Если вы планируете скачивать из вашей работы какие-либо файлы, добавьте в этот же блок функцию колаб для загрузки файлов.

from google.colab import drive

from google.colab import files

print(‘Подключение к google-drive не выполнено. Вы просматриваете проект в другой среде. Код запущен далее.’)

Здесь же можно добавить скрытие предупреждений, которые колаб щедро раздаёт при работе:

# colab часто выдаёт предупреждения — скроем их

Далее поставим ячейку кода загрузки библиотек. Конечно, для анализа данных основной вашей библиотекой будет pandas (запишите её сразу со стандартным псевдонимом pd):

В зависимости от целей вашей работы на этом этапе может возникнуть необходимость загрузки и других библиотек. При изготовлении шаблона оставьте себе максимальное количество полезных библиотек, добавьте комментарии, какие библиотеки и для чего вам необходимы. К примеру, мой шаблон в этом разделе пестрит обилием следующих библиотек:

# для работы с показателями времени

from datetime import datetime

# для «красоты» (графики и оформление)

import matplotlib.pyplot as plt

from pandas.plotting import register_matplotlib_converters

# конвертеры, которые позволяют использовать типы pandas в matplotlib

import plotly.express as px

from plotly import graph_objects as go

# для математических и статистических операций

from scipy import stats as st

# библиотеки для работы с дашбордами

from sqlalchemy import create_engine

# для создания двойного пути к базе данных — об этом чуть позже

Далее заранее организуйте для себя наиболее удобный и приемлемый в рамках вашей работы вид выводимых пандами данных. Для этого добавьте код редактирования опций. Подробнее об опциях можно почитать в официальной документации по ссылке.

Лично я предпочитаю такие скромные вводные:

# количество строк в таблице не больше 5, чтобы не писать head() за каждым фреймом

# при необходимости раскрыть из комментария полный вывод данных в колонке

# оставим всего три знака после запятой у чисел с плавающей точкой

Даже, если вы ещё только учитесь, очень рано вам понадобится использовать графики. Вам, вашим преподавателям или заказчикам будет комфортно просматривать графики и диаграммы, если они будут выполнены в общей стилистике. Редактируя параметры matplotlib.pyplot можно заранее задать размер шрифта заголовков и осей, цветовую гамму и стиль. Подробнее о параметрах можно почитать в официальной документации по ссылке.

Вот пример параметров моего основного шаблона:

large = 16; med = 12; small = 10

# на мой взгляд лучше всего подходит палитра deep

# она не пёстрая, относительно контрастная

# однако в реальном заказе я предпочёл бы принятые у заказчика цвета для подобной работы

Ознакомление с данными

Когда всё готово для работы, можно приступить к загрузке данных и ознакомлению.

Как я уже говорил, я прохожу обучение в “Яндекс Практикум”. При работе над учебными проектами студентам даётся выбор: работать данными в “Jupiter notebook” на платформе или скачать файл и работать локально в удобной для обучающегося среде. Если работать локально, то перед отправкой на ревью потребуется исправить часть кода с загрузкой данных, чтобы они подгружались из того же ресурса, что и у преподавателя… Или вы можете задать двойной путь к файлу данных: один ваш локальный, второй — ссылка преподавателя. Для этого воспользуемся техникой создания двойного пути с помощью библиотеки os:

df = pd.read_csv(pth1, delimiter=’\t’)

df = pd.read_csv(pth2, delimiter=’\t’)

print(‘Проверьте правильность пути к датасету’)

Этот приём пригодится вам также при ситуации, когда один и тот же код вы используете на разных машинах, средах и так далее (к примеру, часть работы делаете на стареньком домашнем компьютере без интернета, часть — непосредственно на рабочем месте, может быть, даже в гостях у любимой бабушки). При работе с несколькими файлами данных прописывайте им соответствующие пути (1 файл — pth1, pth2; 2 файл — pth3, pth4 и т.д.) с последующей конструкцией if-else.

Когда данные загружены, можно посмотреть сформированные датафреймы. Если вы, как и я, указали в опциях (‘max_rows’, 5), то ставить head() уже не потребуется — датафрейм автоматически выведет только 5 строк (две первых, пустую — обозначает прочие строки, две последних). Если вам нужно больше строк, используйте head() или отредактируйте опции и перезапустите код. Для большого числа строк можно добавить функцию подсветки строк при наведении курсора мыши:

# добавим подсветку строки при наведении — просто для красоты

Далее, если необходимо, пройдите по датафрейму стандартными функциями оценки. Некоторые педагоги “Практикума” требуют применения максимального числа функций на этапе ознакомления с данными. Возможно, в вашей учёбе или работе вам потребуется проделать аналогичную работу. Так что не поленитесь добавить себе в шаблон:

-оценку общих данных о датафреме

-поиск пропущенных значений

-поиск абсолютных дубликатов

Предобработка

Предобработка данных зависит от качества первоначальных данных и стоящих перед вами задач. Тем не менее, стоит внести себе в шаблон хотя бы в качестве напоминания того, что вы можете сделать с датафреймом прежде, чем приступите к анализу.

Приведите имена колонок в стилистически правильные или удобные вам, если это необходимо. К примеру, таким способом:

df.columns = [‘имена колонок через запятую’]

Обработайте дубликаты. В зависимости от данных и поставленных задач, с абсолютными дубликатами возможны разные варианты работы. Если задача допускает удаление дубликатов, то сделайте это здесь всего одной строкой, не забыв при этом обновить индекс фрейма:

Если ваш датафрейм содержит колонку исключительно уникальных значений (к примеру, id пользователей), а поставленная задача требует максимального разнообразия данных, вы также можете провести очистку датафрейма от дубликатов без учёта колонки уникальных значений:

df = df.drop_duplicates(subset=[‘колонки, по которым идёт очистка’], keep=False)

Используйте этот метод аккуратно: без учёта уникальных значений вы можете потерять очень много данных, хотя и добьетесь максимального разнообразия.

Вот пожалуй и всё, что стоит по минимуму иметь в пригодным для учёбы и работы шаблоне. Всё остальное вы можете внести сами по вашим желаниям и необходимости.

Источник