Python анализ данных реферат

Реализация алгоритма построения профиля потребления электроэнергии на Python

Анализ характера потребления и распределения электроэнергии во времени, подбор выгодного для объекта тариф. Использование Python библиотеки pandas для разработки алгоритма. Расчёт режима эксплуатации, балансирование нагрузки по суткам, месяцам и годам.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://allbest.ru

Тверской Государственный Университет

Реализация алгоритма построения профиля потребления электроэнергии на Python

Ким Е. Э. студент 4 курс,

Статья посвящена реализации алгоритма построения профиля потребления электроэнергии. Имея исходные данные, программа строит профиль потребления с заданной частотой на заданной диапазоне. Алгоритм реализован на Python.

Ключевые слова: Электроэнергетика, анализ данных электропотребления, алгоритмы, Python.

The article is devoted to the implementation of an algorithm for constructing an electricity consumption profile. Having the initial data, the program builds a consumption profile with a given frequency on a given range. The algorithm is implemented in Python.

Key words: power industry, analysis of power consumption data, algorithms, Python.

Профиль потребления позволяет понимать характер потребления в целом. Чтобы не каждый день отслеживать, а знать, что в целом на заводе/предприятии/офисе такое распределение во времени на протяжении суток/месяца/года. Тогда можно и нагрузку балансировать и понимать, как в целом работы идут или понимать время работы объекта, т.к. часы открытия и закрытия коррелируют с профилем потребления энергии, и т.д. Также опираясь на профиль потребления можно подбирать тариф электропотребления, который является более выгодным для объекта.

Для реализации алгоритма будем использовать Python библиотеку pandas. Наши данные хранятся в файлах Excel. Нам нужно их считать в Python для дальнейшей работы. Для этого данные нужно перевести в формат DataFrame. Это позволит производить различные манипуляции с данными средствами библиотеки pandas. DateFrame — это табличная структура данных. Ее главная задача — позволить использовать многомерные Series. DataFrame состоит из упорядоченной коллекции колонок, каждая из которых содержит значение разных типов. электроэнергия нагрузка python тариф

Для считывания данных с эксель файла мы используем метод read_excel. Так как у нас 12 эксель файлов, то есть в одном файле хранится информация за один месяц, то мы используем функцию concat, чтобы соединить все 12 файлов в один.

Отбрасываем ненужные колонки с помощью df.drop.

Даем понятные названия колонкам: date, consumption.

Изначально у нас индексация идет таким образом: 0, 1,2, 3. и так далее. Но для использования функции resample, нам необходимо индексами сделать колонку date. Таким образом получаем временной ряд.

Функция resample позволяет сделать выборку данных по временному интервалу (частоте). То есть, например, если у нас есть данные с частотой полчаса. То с помощью функции resample, можно эти данные преобразовать в данные с частотой час. В функцию resample передаем задаваемый аргумент. Этот аргумент будет означать частоту, с которой мы хотим получить данные. Аргумент может принимать следующие значения: месяц, день, час, полчаса | M, D, 60T, 30T и так далее.

Для дальнейшей работы нам понадобится индексация по умолчанию. Для этого используем метод reset_index и в параметрах используем drop=False, чтобы колонку с датой не удалило. Далее создаем колонку в DataFrame под названием year. Pandas.apply позволяет передавать функцию и применять ее к каждому значению серии DataFrame. Мы передаем функцию, которая будет возвращать день и месяц. Далее создаем колонку week, в котором хранится номера дней недели (пн — 0, вск — 6). Делаем это с помощью библиотеки datetime. Создаем колонку day. Для этого сначала дату переводим в формат строки, чтобы к ней можно было применить функцию split, которая отделит дату от времени на отдельные составляющие. И оттуда выбираем колонку 1.

Рис. 2. Результат работы функции split.

Таким образом, у нас в исходный DataFrame добавилось 3 колонки. И в функцию df.groupby аргументом мы передаем 3-й параметр функции main_fun, что и позволяет построить профиль потребления на заданном диапазоне.

И таким образом происходит группировка методом groupby. После чего находится среднее значение и строится график с помощью библиотеки matplotlib.

Рис. 3. Суточный профиль потребления.

Использованные источники

1. Matplotlib: Visualization with Python. [ Электронный ресурс]. URL: https://matplotlib.org/ (дата обращения 29.06.2021).

2. Всё о Python. Программирование на Python 3. [Электронный ресурс]. URL: https://all-python.ru/osnovy/modul-datetime.html (дата обращения 29.06.2021).

3. Pandas documentation [Электронный ресурс]. URL: https://pandas.Pvdata.org/pandas-docs/stable/index.html(датаобращения 29.06.2021).

Подобные документы

Разработка программ средствами библиотеки tkinter на языке Python. Изучение основы работы в текстовом редакторе Word. Описание авторской идеи анимации. Использование базовых команд и конструкций. Процесс проектирования и алгоритм разработанной программы.

Программное обеспечение Python и ее основные характеристики, как программной среды. Общие сведения о языке программирования Python. Особенности применения ППП Python (x,y) с использованием его различных вычислительных модулей в учебном процессе.

Понятие и характеристики облачных технологий, модели их развертывания, технологические процессы, аспекты экономики и критика. Язык программирования Python, оценка функциональности, сравнение с аналогами. Управление облаком в Python на примере libcloud.

Отличительные особенности языка программирования Python: низкий порог вхождения, минималистичный язык, краткий код, поддержка математических вычислений, большое количество развитых web-фреймворков. Традиционная модель выполнения программ на языке Python.

Об’єктно-орієнтована мова Python — сучасна мова програмування, проста у вивченні та використанні. Наявність повної стандартної бібліотеки. Середовища програмування на Python. Механізм функціонування інтерпретатора. Колекції даних, комбіновані оператори.

Анализ создания виртуального окружения для разработки. Установка фреймворка Flask. Особенность настройки аутентификации и привилегий. Создание Python-файла и написание в нем простого веб-приложения. Запуск и проверка работоспособности приложения.

Анализ основ ООП, изучение языка программирования Python, применение полученных знаний на практике для реализации предметной области. Понятие и механизм инкапсуляции. Фиксирование информационной работы отеля. Диаграмма классов. Реализация на языке Python.

Источник

Инструменты. Python для анализа данных

Язык программирования Python в последнее время все чаще используется для анализа данных, как в науке, так и коммерческой сфере. Этому способствует простота языка, а также большое разнообразие открытых библиотек . К одним из самых полезных инструментов анализа данных в Python можно отнести:

  • Jupyter Notebook — набор средств для разработки программ.
  • NumPy — для числовых расчетов. Является основой для многих библиотек, используемых в анализе данных.
  • Pandas — для анализа данных. Содержит структуры данных и операции для обработки числовых таблиц и временных рядов. Работа с этой библиотекой строится поверх NumPy.
  • Matplotlib — для двумерной или трехмерной визуализации данных. Она мощная, но довольно громоздкая.
  • Seaborn — для визуализации данных. Более простая библиотека по сравнению с Matplotlib.

Jupyter Notebook — популярнейшая бесплатная интерактивная оболочка для языка программирования Python, позволяющая объединить код, текст и диаграммы, и распространять их для других пользователей. Раньше она называлась IPython Notebook, но название сменили, чтобы подчеркнуть совместимость не только с Python, но и другими языками программирования.

Это крайне удобный инструмент для проведения экспериментов (как чисто математических, так и связанных с обработкой данных от приборов) и оформления результатов в виде профессиональных научных статей. А вообще человечество нашло ему бесчисленные применения — от дизайна электронных схем до обработки астрономических фотографий.

NumPy – библиотека с открытым исходным кодом для языка программирования Python. Математические алгоритмы, реализованные на интерпретируемых языках, часто работают гораздо медленнее тех же алгоритмов, реализованных на компилируемых языках (например, Фортран, Си, Java). Библиотека NumPy предоставляет реализации вычислительных алгоритмов (в виде функций и операторов), оптимизированные для работы с многомерными массивами. В результате любой алгоритм, который может быть выражен в виде последовательности операций над массивами (матрицами) и реализованный с использованием NumPy, работает так же быстро, как эквивалентный код, выполняемый в MATLAB.

Основным объектом NumPy является однородный многомерный массив (в numpy называется numpy.ndarray). Это многомерный массив элементов (обычно чисел), одного типа.

Наиболее важные атрибуты объектов ndarray:

ndarray.ndim — число измерений (чаще их называют «оси») массива.

ndarray.shape — размеры массива, его форма. Это кортеж натуральных чисел, показывающий длину массива по каждой оси. Для матрицы из n строк и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.

ndarray.size — количество элементов массива. Очевидно, равно произведению всех элементов атрибута shape.

ndarray.dtype — объект, описывающий тип элементов массива. Можно определить dtype, используя стандартные типы данных Python. NumPy здесь предоставляет целый букет возможностей, как встроенных, например: bool_, character, int8, int16, int32, int64, float8, float16, float32, float64, complex64, object_, так и возможность определить собственные типы данных, в том числе и составные.

ndarray.itemsize — размер каждого элемента массива в байтах.

ndarray.data — буфер, содержащий фактические элементы массива. Обычно не нужно использовать этот атрибут, так как обращаться к элементам массива проще всего с помощью индексов.

Pandas — программная библиотека на языке Python для обработки и анализа данных. Работа pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня. Предоставляет специальные структуры данных и операции для манипулирования числовыми таблицами и временными рядами.

Основная область применения — обеспечение работы в рамках среды Python не только для сбора и очистки данных, но для задач анализа и моделирования данных, без переключения на более специфичные для математической обработки языки (такие, как R и Octave). Также активно ведётся работа по реализации «родных» категориальных типов данных.

Источник

Читайте также:  Php redirect to 2fwp admin 2f
Оцените статью