- Use Python in Power Query Editor
- Prerequisites
- Use Python with Power Query Editor
- Create visuals from Python script data
- Considerations and limitations
- Feedback
- Использование языка Python в редакторе Power Query
- Предварительные требования
- Использование Python с Редактор Power Query
- Создание визуальных элементов на основе данных скрипта Python
- Рекомендации и ограничения
Use Python in Power Query Editor
You can use Python, a programming language widely used by statisticians, data scientists, and data analysts, in the Power BI Desktop Power Query Editor. This integration of Python into Power Query Editor lets you perform data cleansing using Python, and perform advanced data shaping and analytics in datasets, including completion of missing data, predictions, and clustering, just to name a few. Python is a powerful language, and can be used in Power Query Editor to prepare your data model and create reports.
Prerequisites
You’ll need to install Python and pandas before you begin.
- Install Python — To use Python in Power BI Desktop’s Power Query Editor, you need to install Python on your local machine. You can download and install Python for free from many locations, including the Official Python download page, and the Anaconda.
- Install pandas — To use Python with the Power Query Editor, you’ll also need to install pandas. Pandas is used to move data between Power BI and the Python environment.
Use Python with Power Query Editor
To show how to use Python in Power Query Editor, take this example from a stock market dataset, based on a CSV file that you can download from here and follow along. The steps for this example are the following procedure:
- First, load your data into Power BI Desktop. In this example, load the EuStockMarkets_NA.csv file and select Get data >Text/CSV from the Home ribbon in Power BI Desktop.
- Select the file and select Open, and the CSV is displayed in the CSV file dialog.
- Once the data is loaded, you see it in the Fields pane in Power BI Desktop.
- Open Power Query Editor by selecting Transform data from the Home tab in Power BI Desktop.
- In the Transform tab, select Run Python Script and the Run Python Script editor appears as shown in the next step. Rows 15 and 20 suffer from missing data, as do other rows you can’t see in the following image. The following steps show how Python completes those rows for you.
- For this example, enter the following script code:
import pandas as pd completedData = dataset.fillna(method='backfill', inplace=False) dataset["completedValues"] = completedData["SMI missing values"]
Note You need to have the pandas library installed in your Python environment for the previous script code to work properly. To install pandas, run the following command in your Python installation: pip install pandas
When put into the Run Python Script dialog, the code looks like the following example:
With just three lines of Python script, Power Query Editor filled in the missing values with a predictive model.
Create visuals from Python script data
Now we can create a visual to see how the Python script code using the pandas library completed the missing values, as shown in the following image:
Once that visual is complete, and any other visuals you might want to create using Power BI Desktop, you can save the Power BI Desktop file. Power BI Desktop files save with the .pbix file name extension. Then use the data model, including the Python scripts that are part of it, in the Power BI service.
Want to see a completed .pbix file with these steps completed? You’re in luck. You can download the completed Power BI Desktop file used in these examples right here.
Once you upload the .pbix file to the Power BI service, a couple more steps are necessary to enable data to refresh in the service and to enable visuals to be updated in the service. The data needs access to Python for visuals to be updated. The other steps are the following steps:
- Enable scheduled refresh for the dataset. To enable scheduled refresh for the workbook that contains your dataset with Python scripts, see Configuring scheduled refresh, which also includes information about Personal Gateway.
- Install the Personal Gateway. You need a Personal Gateway installed on the machine where the file is located, and where Python is installed. The Power BI service must access that workbook and re-render any updated visuals. For more information, see install and configure Personal Gateway.
Considerations and limitations
There are some limitations to queries that include Python scripts created in Power Query Editor:
- All Python data source settings must be set to Public, and all other steps in a query created in Power Query Editor must also be public. To get to data source settings, in Power BI Desktop select File > Options and settings > Data source settings. From the Data Source Settings dialog, select the data sources and then select Edit Permissions. and ensure that the Privacy Level is set to Public.
- To enable scheduled refresh of your Python visuals or dataset, you need to enable Scheduled refresh and have a Personal Gateway installed on the computer that houses the workbook and the Python installation. For more information on both, see the previous section in this article, which provides links to learn more about each.
- Nested tables, which are table of tables, are currently not supported.
There are all sorts of things you can do with Python and custom queries, so explore and shape your data just the way you want it to appear.
Feedback
Submit and view feedback for
Использование языка Python в редакторе Power Query
В редакторе Power Query Power BI Desktop можно использовать язык программирования Python, который широко применяют специалисты по статистике, аналитики и специалисты по обработке данных. Интеграция языка Python в редактор Power Query позволяет выполнять очистку данных с помощью Python, а также формирование и анализ данных в наборах данных, в частности заполнение отсутствующих данных, прогнозирование и кластеризацию. Python — эффективный язык, который можно использовать в редакторе Power Query для подготовки модели данных и создания отчетов.
Предварительные требования
Перед началом работы необходимо установить Python и Pandas.
- Установка Python. Чтобы использовать Python в Редактор Power Query Power BI Desktop, необходимо установить Python на локальном компьютере. Вы можете скачать и установить Python бесплатно из различных расположений, включая официальную страницу скачивания Python и Anaconda.
- Установка pandas. Чтобы использовать Python с Редактор Power Query, необходимо также установить pandas. Pandas используется для перемещения данных между Power BI и средой Python.
Использование Python с Редактор Power Query
Чтобы показать, как использовать Python в Редактор Power Query, возьмем этот пример из набора данных фондового рынка на основе CSV-файла, который можно скачать здесь и выполнить инструкции. Ниже приведены шаги для этого примера.
- Сначала загрузите данные в Power BI Desktop. В этом примере загрузите файл EuStockMarkets_NA.csv и выберите Get dataText/CSV (Получить текст или> CSV-файл) на ленте Главная в Power BI Desktop.
- Выберите файл и нажмите кнопку Открыть. CSV-файл отобразится в диалоговом окне CSV-файл.
- После загрузки данных вы увидите их в области Поля в Power BI Desktop.
- Откройте редактор Power Query. Для этого в Power BI Desktop на вкладке Главная нажмите кнопку Преобразовать данные.
- На вкладке Преобразование выберите Запустить скрипт Python , и откроется редактор Запуск скриптов Python , как показано на следующем шаге. В строках 15 и 20 отсутствуют данные, как и в других строках, которые не отображаются на следующем рисунке. Ниже показано, как Python завершает эти строки.
- Например, введите следующий код сценария:
import pandas as pd completedData = dataset.fillna(method='backfill', inplace=False) dataset["completedValues"] = completedData["SMI missing values"]
Примечание Для правильной работы предыдущего кода скрипта в среде Python необходимо установить библиотеку Pandas . Чтобы установить pandas, выполните следующую команду в установке Python: pip install pandas
При добавлении в диалоговое окно Запуск скрипта Python код выглядит следующим образом:
Используя всего три строки скрипта Python, Редактор Power Query заполнить отсутствующие значения с помощью прогнозной модели.
Создание визуальных элементов на основе данных скрипта Python
Создадим визуальный элемент, чтобы увидеть, как код сценария Python заполнил отсутствующие значения с помощью библиотеки pandas (см. рисунок ниже):
После завершения этого визуального элемента и других визуальных элементов, которые можно создать с помощью Power BI Desktop, можно сохранить файл Power BI Desktop. Power BI Desktop файлы сохраняются с расширением PBIX. Затем используйте модель данных, включая входящие в нее скрипты Python, в служба Power BI.
Хотите просмотреть заполненный PBIX-файл с результатами выполнения этих действий? К счастью, Готовый файл Power BI Desktop, используемый в этих примерах, можно скачать здесь.
После отправки PBIX-файла в служба Power BI необходимо выполнить еще несколько действий, чтобы включить обновление данных в службе и включить обновление визуальных элементов в службе. Для обновления визуальных элементов данные должны иметь доступ к Python. Ниже приведены другие действия.
- Включите запланированное обновление для набора данных. Чтобы включить запланированное обновление для книги, содержащей набор данных, с помощью скриптов Python, см. статью Настройка запланированного обновления, которая также содержит сведения о личном шлюзе.
- Установите личный шлюз. На компьютере, где находится файл, и на котором установлен Python, необходимо установить личный шлюз . Служба Power BI должен получить доступ к этой книге и повторно отобразить все обновленные визуальные элементы. Дополнительные сведения см. в инструкциях по установке и настройке шлюза Personal Gateway.
Рекомендации и ограничения
Существуют ограничения на запросы, включающие сценарии Python, которые созданы в редакторе Power Query.
- Всем параметрам источника данных Python должно быть присвоено значение Общедоступный. Все остальные действия в запросе, созданном в редакторе Power Query, также должны быть общедоступными. Чтобы открыть параметры источника данных, в Power BI Desktop выберите Параметры файла > и параметры > Параметры источника данных. В диалоговом окне Параметры источника данных выберите источники данных, а затем выберите Изменить разрешения. и убедитесь, что для параметра Уровень конфиденциальности задано значение Общедоступный.
- Чтобы включить запланированное обновление визуальных объектов Python или набора данных, включите запланированное обновление и установите шлюз Personal Gateway на компьютере, на котором сохранена книга и установлен экземпляр Python. Дополнительные сведения о запланированном обновлении и шлюзе Personal Gateway см. в статьях по ссылкам, приведенным в предыдущем разделе.
- Вложенные таблицы, которые являются таблицами таблиц, в настоящее время не поддерживаются.
С помощью Python и пользовательских запросов можно выполнять разные операции. Просматривайте и формируйте свои данные, придавая им нужный вид.