- Saved searches
- Use saved searches to filter your results more quickly
- nickolas-black/Analytics-Python
- Name already in use
- Sign In Required
- Launching GitHub Desktop
- Launching GitHub Desktop
- Launching Xcode
- Launching Visual Studio Code
- Latest commit
- Git stats
- Files
- README.md
- Saved searches
- Use saved searches to filter your results more quickly
- kornilovaap/Python_for_DataAnalyst
- Name already in use
- Sign In Required
- Launching GitHub Desktop
- Launching GitHub Desktop
- Launching Xcode
- Launching Visual Studio Code
- Latest commit
- Git stats
- Files
- README.md
- About
- Как провести анализ данных в Python
- Основные библиотеки
- Начало работы
- Загрузка данных
- Предобработка данных
- Анализ данных
- Выводы
Saved searches
Use saved searches to filter your results more quickly
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
nickolas-black/Analytics-Python
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Name already in use
A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Sign In Required
Please sign in to use Codespaces.
Launching GitHub Desktop
If nothing happens, download GitHub Desktop and try again.
Launching GitHub Desktop
If nothing happens, download GitHub Desktop and try again.
Launching Xcode
If nothing happens, download Xcode and try again.
Launching Visual Studio Code
Your codespace will open once ready.
There was a problem preparing your codespace, please try again.
Latest commit
Git stats
Files
Failed to load latest commit information.
README.md
1 | Введение в Python, базовые конструкции, циклы
- Список (list)
- Кортеж (tuple)
- Словарь (dict)
- Множество (set, frozenset)
- Стек (stack) и очередь (queue)
4 | Научные вычисления с NumPy
- Типы данных
- Индексация
- Арифметические операции
- Преобразование типов
- Операции с массивами
- Многомерные массивы
- Многомерная арифметика
Базовые статистические функции:
- np.sum, np.mean…
- Семплирование из распределений
- Матричные операции
- Линейная алгебра np.linalg
5 | Научные вычисления с NumPy и SciPy
- Векторные операции
- Тензорные операции Специальные структуры:
- Разреженные матрицы
- Матрицы Тоеплица scipy.linalg.toeplitz
- QR разложение
- LU разложение
- SVD разложение
6 | Обработка данных с Pandas I
- Структуры pd.Series и pd.DataFrame
- Базовая функциональность
- Чтение данных из файлов разных типов
- Подвыборки
- Индексация, типы индексов
- Мультииндексация
- Конкатенация, Join нескольких таблиц
- Сводные таблицы
7 | Обработка данных с Pandas II
- Datetime индекс
- GroupBy
- Оконные функции
- Resampling
- Встроенные статистические функции
8 | Визуализация данных с Matplotlib
- Название осей
- Масштаб
- Масштабирование осей
- Варианты отрисовки
- Цветовая гамма
Оси: несколько графиков как один объект
- Общие оси
- Масштабирование, полярные координаты
- Отрисовка категориальных данных
- Диаграммы, гистограммы
- Контурные графики
- Heatmap
- Отрисовка изображений, шкалы
- Афинные преобразования изображений
9 | Визуализация данных с Seaborn
- Отрисовка статистических взаимосвязей
- Отрисовка категориальных данных
- Визуализация распределений
- Контроль основных параметров графиков
10 | Пайплайн описательного анализа данных с Python
- Загрузка, чтение данных
- Контроль пропущенных значений, варианты заполнения
- Кодирование разных типов категориальных данных
- Описательные статистики
- Визуализация парных взаимосвязей
- Визуализация распределений переменных
- Heatmap матрицы подобия
Saved searches
Use saved searches to filter your results more quickly
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
Python для системных и бизнес-аналитиков •
kornilovaap/Python_for_DataAnalyst
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Name already in use
A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Sign In Required
Please sign in to use Codespaces.
Launching GitHub Desktop
If nothing happens, download GitHub Desktop and try again.
Launching GitHub Desktop
If nothing happens, download GitHub Desktop and try again.
Launching Xcode
If nothing happens, download Xcode and try again.
Launching Visual Studio Code
Your codespace will open once ready.
There was a problem preparing your codespace, please try again.
Latest commit
Git stats
Files
Failed to load latest commit information.
README.md
Python для анализа данных: Pandas, Matplotlib, Seaborn, Scipy, Numpy + немного машинного обучения.
Самостоятельное изучение по курсу Python для аналитиков от geekbrains.ru
ℹ️
папка tasks — моё решение домашних заданий
папка lessons — выполнение заданий из видео-лекций
всего 8 уроков по 2 часа
ℹ️
- Загрузка данных в Python
- Статистика датасета
- Фильтрация и сортировка данных
- Объединение нескольких датасетов
- Агрегирование данных
- Использование методов groupby, pivot_table, crosstab для группировки данных и построения сводных таблиц
- Метрика конверсии в работе аналитика
- Разведочный анализ данных
- Библиотеки Matplotlib и Seaborn
- Карта визуализаций
- Проверка значимости AB-тестов
- Решение задач оптимизации
- Аппроксимация функций
- Библиотека Scikit-learn
- Подготовка данных для последующего моделирования
- Построение предиктивных моделей в Python
- Использование ключевых метрик качества моделей
- Факторы в модели и ограничения на их использование
- Kaggle и техники опытных кагглеров для повышения точности предсказательных моделей
- Разбор реализации основных техник генерации новых полезных фич
- Ключевые методы для отбора важных фич
About
Python для системных и бизнес-аналитиков •
Как провести анализ данных в Python
Освойте анализ данных в Python с этим простым руководством: от основных библиотек до предобработки и визуализации данных!
Анализ данных в Python — это процесс изучения и обработки данных с помощью языка программирования Python для получения информации, обнаружения закономерностей или предсказания будущего поведения. В этом руководстве мы рассмотрим основные библиотеки и методы, необходимые для выполнения анализа данных в Python.
Основные библиотеки
Для анализа данных в Python существуют следующие ключевые библиотеки:
- NumPy — это библиотека для работы с массивами и матрицами. Она предоставляет множество функций для математических и статистических операций.
- Pandas — библиотека для работы с табличными данными (такими как Excel или SQL таблицы). Она предоставляет инструменты для очистки, агрегации и визуализации данных.
- Matplotlib и Seaborn — это библиотеки для построения графиков и визуализации данных.
Начало работы
Для начала установим необходимые библиотеки:
pip install numpy pandas matplotlib seaborn
Теперь импортируем их в наш Python-скрипт:
import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns
Загрузка данных
Для анализа данных нам необходимо загрузить данные в формате CSV, Excel или SQL. В этом примере мы будем использовать данные о пассажирах Титаника в формате CSV:
data = pd.read_csv("titanic.csv")
Посмотрим на первые несколько строк данных:
Предобработка данных
Перед анализом данных полезно провести предобработку, чтобы удалить пропущенные значения, исправить ошибки и преобразовать данные в удобный для анализа формат. Например, мы можем заполнить пропущенные значения возраста средним возрастом пассажиров:
data['Age'].fillna(data['Age'].mean(), inplace=True)
Также можно создать новый столбец с информацией о том, был ли пассажир один или с семьей:
data['Family'] = data['SibSp'] + data['Parch']
Анализ данных
Теперь, когда наши данные предобработаны, мы можем провести анализ данных. Например, можно исследовать связь между классом каюты и вероятностью выживания:
sns.barplot(x='Pclass', y='Survived', data=data) plt.show()
Также можно изучить распределение возрастов среди выживших и погибших пассажиров:
sns.histplot(data=data, x='Age', hue='Survived', kde=True) plt.show()
Выводы
В этом руководстве мы рассмотрели основные методы и библиотеки для анализа данных в Python. Надеемся, что это поможет вам в вашей работе со сложными наборами данных! 😊
Не забудьте обратить внимание на онлайн-школу, которая учит специалистов в сфере «Аналитика данных». Вставьте в текст спец.тег
Удачи вам в изучении анализа данных!