- Анализ данных в Python
- Цель освоения дисциплины
- Планируемые результаты обучения
- Содержание учебной дисциплины
- Анализ данных в Python
- Анализ данных на Python
- Цель освоения дисциплины
- Планируемые результаты обучения
- Содержание учебной дисциплины
- Элементы контроля
- Промежуточная аттестация
- Список литературы
- Рекомендуемая основная литература
- Анализ данных в Python
- Цель освоения дисциплины
- Планируемые результаты обучения
- Содержание учебной дисциплины
Анализ данных в Python
Сегодня стремительно растет количество и виды данных, к которым могут обращаться социальные науки. У современного исследователя есть в потребность в гибких, мощных и легко масштабируемых инструментах для сбора и анализа информации. Язык программирования Python и его библиотеки являются стандартом индустрии машинного обучения и анализа больших данных. Многие из этих инструментов окажутся полезны для студентов-политологов, выбери они исследовательскую карьеру или работу в государственном и частных секторах. Целью этого курса является развитие навыков программирования и создание крепкой практической базы для анализа и презентации данных. Также мы познакомимся с задачами и разными алгоритмами машинного обучения, что задаст вектор развития для тех студентов, которые захотят углубиться в предмет. В этом курсе мы освежим в памяти навык программирования на языке Python, углубим навыки работы со специализированными библиотеками для анализа и визуализации данных — numpy, pandas, scipy, matplotlib, plotly. Будем решать исследовательские задачи от постановки задачи и сбора данных до применения математических моделей для оценки корректности наших гипотез. К знакомым из статистики регрессионным моделям добавим в наш исследовательский инструментарий решающие деревья и случайный лес, алгоритмы классификации и кластеризации, научимся строить социальные графы. Отдельное внимание уделим текстовому анализу, потому что огромное количество исследовательских и коммерческих задач завязано именно на нем. Обсудим, что такое нейронные сети и как можно применить готовые решения для своих задач. С использованием онлайн-курса «Python для извлечения и обработки данных» (URL: https://openedu.ru/course/hse/PYTHON/).
Цель освоения дисциплины
Формирование и развитие навыков работы со специализированными библиотеками для обработки, визуализации и анализа данных (pandas, numpy, scipy, sklearn, plotly, matplotlib).
Развитие навыков постановки исследовательской задачи и тестирования гипотез с помощью количественных методов.
Развитие навыков презентации полученных результатов (оформление отчета о проделенной работе и устная защита исследования).
Планируемые результаты обучения
Умение выбирать корректные графики для визуализации данных, уметь кастомизировать их внешний вид, интерпретировать графики
Определять тип задачи машинного обучения, выбирать корректные модели для ее решения, осуществлять подбор параметров и выбирать лучшую модель
Решать задачи машинного обучения от постановки исследовательского вопроса до интерпретации результатов
Собирать и подготавливать данные для текстового анализа. Проводить стандартизацию текста. Решать задачи классификации и кластеризации для текстовых данных
Содержание учебной дисциплины
Преимущества использования Python для анализа данных по сравнению с другими инструментами. Прикладные задачи политологии, для решения которых подходит инструментарий Python. Обзор библиотек и инструментов. Программирование на Python: вспоминаем типы данных, основные структуры, методы и функции, условные операторы, циклы, списковые включения, функцию map() и анонимные функции, отладку кода (try/except). Алгоритмы: оптимизация и сложность на примере алгоритмов сортировок. Классы.
Библиотека numpy: векторы и массивы, специальные типы данных. Библиотека pandas. Основы работы с датафреймами: загрузка, очистка, фильтрация, группировка и агрегация. Описательные статистики, распределения, разведывательный анализ, работа с пропущенными значениями, постановка гипотезы.
Виды графиков, их корректное использование и интерпретация. Принципы хорошей визуализации, основные ошибки при визуализации данных. Основы визуализации в matplotlib. Оформление и кастомизация графиков. Визуализации отфильтрованных и сгруппированных данных. Создание интерактивных визуализаций в Plotly.
Введение в машинное обучение: терминология, постановка исследовательского вопроса и проверка гипотезы. Виды задач машинного обучения. Baseline модели. Задачи регрессии. Линейная регрессия. Задачи классификации. Реализация алгоритма kNN. Логистическая регрессия. Решающие деревья. Случайный лес. Работа с Kaggle. Обучение без учителя. Кластеризация. Решаем Kaggle кейс: от гипотезы до submission.
Анализ данных в Python
Сегодня стремительно растет количество и виды данных, к которым могут обращаться социальные науки. У современного исследователя есть в потребность в гибких, мощных и легко масштабируемых инструментах для сбора и анализа информации. Язык программирования Python и его библиотеки являются стандартом индустрии машинного обучения и анализа больших данных. Многие из этих инструментов окажутся полезны для студентов-политологов, выбери они исследовательскую карьеру или работу в государственном и частных секторах. Целью этого курса является развитие навыков программирования и создание крепкой практической базы для анализа и презентации данных. Также мы познакомимся с задачами и разными алгоритмами машинного обучения, что задаст вектор развития для тех студентов, которые захотят углубиться в предмет. В этом курсе мы освежим в памяти навык программирования на языке Python, углубим навыки работы со специализированными библиотеками для анализа и визуализации данных — numpy, pandas, scipy, matplotlib, plotly. Будем решать исследовательские задачи от постановки задачи и сбора данных до применения математических моделей для оценки корректности наших гипотез. К знакомым из статистики регрессионным моделям добавим в наш исследовательский инструментарий решающие деревья и случайный лес, алгоритмы классификации и кластеризации, научимся строить социальные графы. Отдельное внимание уделим текстовому анализу, потому что огромное количество исследовательских и коммерческих задач завязано именно на нем. Обсудим, что такое нейронные сети и как можно применить готовые решения для своих задач.
- О ВЫШКЕ
- Цифры и факты
- Руководство и структура
- Преподаватели и сотрудники
- Корпуса и общежития
- Закупки
- Обращения граждан в НИУ ВШЭ
- Фонд целевого капитала
- Противодействие коррупции
- Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
- Сведения об образовательной организации
- Людям с ограниченными возможностями здоровья
- Единая платежная страница
- Работа в Вышке
- ОБРАЗОВАНИЕ
- Лицей
- Довузовская подготовка
- Олимпиады
- Прием в бакалавриат
- Вышка+
- Прием в магистратуру
- Аспирантура
- Дополнительное образование
- Центр развития карьеры
- Бизнес-инкубатор ВШЭ
- НАУКА
- Научные подразделения
- Исследовательские проекты
- Мониторинги
- Диссертационные советы
- Защиты диссертаций
- Академическое развитие
- Конкурсы и гранты
- Научно-образовательный портал IQ.hse.ru
- XXIV Ясинская (Апрельская) международная научная конференция по проблемам развития экономики и общества
- РЕСУРСЫ
- Библиотека
- Издательский дом ВШЭ
- Книжный магазин «БукВышка»
- Типография
- Медиацентр
- Журналы ВШЭ
- Публикации
- Единый архив экономических и социологических данных
Анализ данных на Python
Курс «Анализ данных на Python»нацелен на изучение языка программирования Python и получение базовых знаний и навыков для обработки, визуализации и статистического анализа данных, а также дальнейшего прохождения более специализированных курсов в этой области (например, машинного обучения). Первая часть дисциплины отведена на изучение основ языка Python, по итогам которой слушатели узнают о типах и структурах данных, научатся решать алгоритмические задачи и освоят такие базовые понятия программирования, как: условные операторы, функции, рекурсии и циклы. В рамках курса будут пройдены основы различных парадигм программирования: процедурное, функциональное и объектно-ориентированное программирование. Вторая часть курса посвящена освоению теоретической базы и необходимых практических навыков для анализа данных. Слушатели научатся решать задачи по парсингу, препроцессингу и визуализации данных с помощью стандартных и внешних библиотек Python.
Цель освоения дисциплины
Планируемые результаты обучения
Содержание учебной дисциплины
Линейная регрессия. Метрики для задачи регрессии. Разделение выборки на обучающую и тестовую. Понятие переобучения. Кросс-валидация.
Элементы контроля
Промежуточная аттестация
0.1 * Самостоятельная работа + 0.2 * Контрольная работа + 0.3 * Проверочная работа + 0.4 * Домашнее задание
Список литературы
Рекомендуемая основная литература
Hastie, T., Tibshirani, R., Friedman, J. The elements of statistical learning: Data Mining, Inference, and Prediction. – Springer, 2009. – 745 pp.
Анализ данных в Python
Сегодня стремительно растет количество и виды данных, к которым могут обращаться социальные науки. У современного исследователя есть в потребность в гибких, мощных и легко масштабируемых инструментах для сбора и анализа информации. Язык программирования Python и его библиотеки являются стандартом индустрии машинного обучения и анализа больших данных. Многие из этих инструментов окажутся полезны для студентов-политологов, выбери они исследовательскую карьеру или работу в государственном и частных секторах. Целью этого курса является развитие навыков программирования и создание крепкой практической базы для анализа и презентации данных. Также мы познакомимся с задачами и разными алгоритмами машинного обучения, что задаст вектор развития для тех студентов, которые захотят углубиться в предмет. В этом курсе мы освежим в памяти навык программирования на языке Python, углубим навыки работы со специализированными библиотеками для анализа и визуализации данных — numpy, pandas, scipy, matplotlib, plotly. Будем решать исследовательские задачи от постановки задачи и сбора данных до применения математических моделей для оценки
Цель освоения дисциплины
Формирование и развитие навыков работы со специализированными библиотеками для обработки, визуализации и анализа данных (pandas, numpy, scipy, sklearn, plotly, matplotlib).
Развитие навыков постановки исследовательской задачи и тестирования гипотез с помощью количественных методов.
Развитие навыков презентации полученных результатов (оформление отчета о проделенной работе и устная защита исследования).
Планируемые результаты обучения
Умение выбирать корректные графики для визуализации данных, уметь кастомизировать их внешний вид, интерпретировать графики
Определять тип задачи машинного обучения, выбирать корректные модели для ее решения, осуществлять подбор параметров и выбирать лучшую модель
Решать задачи машинного обучения от постановки исследовательского вопроса до интерпретации результатов
Собирать и подготавливать данные для текстового анализа. Проводить стандартизацию текста. Решать задачи классификации и кластеризации для текстовых данных
Иметь общее представление о принципах работы нейроных сетей. Уметь использовать готовые нейронные сети для анализа собственных данных
Содержание учебной дисциплины
Преимущества использования Python для анализа данных по сравнению с другими инструментами. Прикладные задачи политологии, для решения которых подходит инструментарий Python. Обзор библиотек и инструментов. Программирование на Python: вспоминаем типы данных, основные структуры, методы и функции, условные операторы, циклы, списковые включения, функцию map() и анонимные функции, отладку кода (try/except). Алгоритмы: оптимизация и сложность на примере алгоритмов сортировок. Классы.
Виды графиков, их корректное использование и интерпретация. Принципы хорошей визуализации, основные ошибки при визуализации данных. Основы визуализации в matplotlib. Оформление и кастомизация графиков. Визуализации отфильтрованных и сгруппированных данных. Создание интерактивных визуализаций в Plotly.
Сбор данных из открытых источников: web-scraping, работа с API, парсинг текста и таблиц, сохранение файлов.
Введение в машинное обучение: терминология, постановка исследовательского вопроса и проверка гипотезы. Виды задач машинного обучения. Baseline модели. Задачи регрессии. Линейная регрессия. Задачи классификации. Реализация алгоритма kNN. Логистическая регрессия. Решающие деревья. Случайный лес. Работа с Kaggle. Обучение без учителя. Кластеризация. Решаем Kaggle кейс: от гипотезы до submission.
Сетевой анализ: кейсы, описательные статистики. Сбор и подготовка данных. Построение социального графа.