- Saved searches
- Use saved searches to filter your results more quickly
- dhanraj6/Google-Maps-Scraper
- Name already in use
- Sign In Required
- Launching GitHub Desktop
- Launching GitHub Desktop
- Launching Xcode
- Launching Visual Studio Code
- Latest commit
- Git stats
- Files
- README.md
- About
- Парсинг данных Google Maps с помощью Python
- Установка необходимых библиотек
- Исследование веб-страниц Google Maps
- Парсинг данных с помощью Python
- Google Maps API
- Requests и BeautifulSoup
- Selenium
- Хранение полученных данных
- Заключение
Saved searches
Use saved searches to filter your results more quickly
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
A python Script to scrape data from google maps.
dhanraj6/Google-Maps-Scraper
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Name already in use
A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Sign In Required
Please sign in to use Codespaces.
Launching GitHub Desktop
If nothing happens, download GitHub Desktop and try again.
Launching GitHub Desktop
If nothing happens, download GitHub Desktop and try again.
Launching Xcode
If nothing happens, download Xcode and try again.
Launching Visual Studio Code
Your codespace will open once ready.
There was a problem preparing your codespace, please try again.
Latest commit
Git stats
Files
Failed to load latest commit information.
README.md
A python Script to scrape data from google maps.
Step by step guidence to run this file in my medium post click here.
- Download the chromedriver from here if you dont have it.
- Add the path of chromedriver in above .py file.
- Add the link of google map place whose data you want to scrape in above .py file
Google Maps UI changes frequently if you get any errors on running just replace older id’s with new id’s for clickable items
About
A python Script to scrape data from google maps.
Парсинг данных Google Maps с помощью Python
Благодаря своей обширной базе данных местоположений, организаций, отзывов и многого другого, Google Maps часто используется для извлечения данных. Однако ручное извлечение этих данных может быть утомительной и затратной по времени задачей. В этой статье мы рассмотрим, как при помощи Python реализовать парсинг данных с Google Maps, что позволит вам эффективно и оперативно собирать необходимую информацию.
Итак, если вы специалист по анализу данных, профессионал в бизнесе или просто любопытный человек, присоединяйтесь к нам, чтобы узнать, как использовать Python для поиска адресов магазинов и другой информации на Google Maps.
Python является удобным инструментом для сбора данных, в нем имеется множество библиотек, специально разработанных для этой цели. Что касается сбора данных с таких сайтов, как Google Maps, то Python предоставляет целый ряд библиотек и фреймворков, которые могут помочь в этом процессе. Выбор подходящей библиотеки является важным шагом в создании парсера и зависит от требований проекта и навыков программирования.
Установка необходимых библиотек
В этой статье рассматриваются три варианта парсиинга и обсуждаются следующие Python-библиотеки для получения информации с Google Maps:
- Парсинг с использованием библиотек Requests и BeautifulSoup. Этот вариант имеет свои плюсы и минусы. Это простой подход, подходящий для новичков и не требующий особых навыков. Однако он не может эмулировать поведение пользователя и не обрабатывает JavaScript-рендеринг.
- Скрапинг с использованием безголового браузера (библиотека Selenium). Этот вариант требует более развитых навыков программирования и дополнительной загрузки веб-драйвера. Он позволяет взаимодействовать с веб-страницей так, как это делал бы пользователь, в том числе обрабатывать содержимое с JavaScript-рендерингом.
- Парсинг с использованием библиотеки Google Maps API. Использование специально разработанной библиотеки для скрапинга Google Maps является хорошим решением и наиболее удобным вариантом. Он позволяет решить проблемы, с которыми сталкивались предыдущие два метода, например, обойти проблемы с CAPTCHA и избежать необходимости использования прокси-серверов. Кроме того, можно использовать бескодовый парсер данных Google Maps, не требующий навыков программирования.
Для установки всех необходимых библиотек откройте командную строку и выполните следующие команды:
pip install beautifulsoup4 pip install selenium pip install sc-google-maps-api
Библиотека Requests, которую мы также будем использовать, предустановлена. Для использования безголового браузера нам также необходимо установить веб-драйвер.
Выбор веб-драйвера зависит от того, какой браузер вы хотите автоматизировать. Например, если требуется автоматизировать Chrome, то необходим драйвер Chrome. Убедитесь, что версия загружаемого драйвера соответствует версии установленного браузера.
Чтобы установить WebDriver, посетите официальный сайт WebDriver и загрузите его. Мы рекомендуем сохранить его в легкодоступном месте, например на диске C:// . Избегайте использования сложных путей, так как в дальнейшем нам придется прописывать их в сценарии.
Исследование веб-страниц Google Maps
Прежде чем приступить к сбору данных, необходимо понять, где и в каком виде они находятся. Для этого зайдем на Google Maps и попробуем найти любое местоположение. После этого откроем DevTools (F12, или щелкните правой кнопкой мыши на экране и выберите пункт Inspect).
Если внимательно посмотреть на эту страницу, то можно заметить, что все заголовки страниц и их описания имеют класс с уникальным именем, который каждый раз генерируется заново. Однако каждый элемент также имеет класс article , что облегчает получение данных. Кроме того, как мы видим, заголовки имеют класс fontHeadlineSmall , а описания хранятся в теге span.
Парсинг данных с помощью Python
Google Maps API
Для начала рассмотрим пример использования Google Maps API, поскольку он требует минимальных навыков программирования. Сначала зарегистрируйтесь на сайте scrape-it.cloud, чтобы получить ключ API и несколько бесплатных кредитов. Для получения данных можно использовать этот скрипт:
from sc_google_maps_api import ScrapeitCloudClient client = ScrapeitCloudClient(api_key='INSERT_YOUR_API_KEY_HERE') response = client.scrape( params= < "keyword": "cafe in new york", "country": "US", "domain": "com" >) print(response.text)
Сохранив и выполнив этот скрипт, вы получите исчерпывающие данные о первых 20 позициях, уже структурированные в формате JSON:
Requests и BeautifulSoup
Теперь усложним задачу и попробуем получить данные с помощью библиотек Requests и BeautifulSoup. Для этого мы импортируем необходимые библиотеки, отправим запрос на страницу и разберем полученный ответ:
import requests from bs4 import BeautifulSoup header= data = requests.get('https://www.google.com/maps/search/cafe+in+new+york/', headers=header) soup = BeautifulSoup(data.text, "html.parser") titles = soup.find_all('div', ) descriptions = soup.find_all('div', ) print(titles) print(descriptions)
Однако никаких данных мы не получим, поскольку эти библиотеки прекрасно работают со статическими веб-страницами, но не подходят для сбора данных с динамически генерируемых страниц, таких как Google Maps.
Selenium
И, наконец, еще один вариант – Selenium, который позволяет моделировать поведение пользователя и, соответственно, получать динамически генерируемые данные. То есть мы можем парсить не только статические данные, но и динамический контент, который генерируется или изменяется в результате взаимодействия со страницей.
Примечание редакции: о применении Selenium читайте в статье “Парсинг при помощи Python и Selenium”.
Импортируем необходимые библиотеки и зададим путь к веб-драйверу:
from selenium import webdriver from selenium.webdriver.common.by import By DRIVER_PATH = 'C:\chromedriver.exe' driver = webdriver.Chrome(executable_path=DRIVER_PATH)
Далее мы укажем ссылку, по которой нужно перейти. Важно отметить, что все ссылки в Google Maps имеют стандартную структуру. Это позволит нам в будущем усовершенствовать код, автоматически генерируя ссылки для поиска нужной нам информации.
driver.get('https://www.google.com/maps/search/cafe+in+new+york/')
Теперь создадим переменную для хранения данных в парах заголовок-описание.
Далее необходимо получить все элементы. Как мы помним из структуры, все элементы имеют атрибут role=»article» .
elems = driver.find_elements(By.XPATH, "//div[@role='article']")
Теперь осталось выполнить итерацию по каждому элементу последовательности и собрать нужные данные, которые необходимо сохранить в переменной results :
for elem in elems: title = elem.find_element(By.CSS_SELECTOR, "div.fontHeadlineSmall") description = elem.find_element(By.CSS_SELECTOR, "div.fontBodyMedium") results.append(str(title.text)+';'+str(description.text))
Наконец, не забудем закрыть драйвер, а для удобства выведем данные на экран:
При выполнении этого сценария браузер откроется, перейдет на страницу Google Maps и выполнит все необходимые действия и сбор данных. По завершении мы получим следующие данные:
Как видно, мы получаем данные только для 5 элементов, что значительно меньше, чем при использовании API. Добавление в сценарий функций прокрутки и задержек поможет загружать новые данные.
Хранение полученных данных
Ранее мы отображали полученные данные в консоли. Однако, чтобы сделать пример более полным, давайте сохраним данные, полученные в последнем примере, в файл.
Для сохранения данных в файл мы можем использовать возможности Python по работе с файлами. Вот пример того, как можно модифицировать скрипт для записи данных в файл:
with open("maps.csv", "w", encoding="utf-8") as f: f.write("Title; Description\n") for result in results: f.write(str(result) + "\n")
Этот код создает или перезаписывает файл maps.csv, записывает в него имена колонок “Title” и “Description”. Затем мы построчно перебираем результаты, хранящиеся в переменной results , и добавляем их в файл.
На этом этапе, как правило, речь идет о сохранении данных и их очистке. Например, это может быть удаление лишних символов, исправление ошибок в данных или удаление пустых строк. Этот этап очень важен, поскольку необработанные данные могут оказаться непригодными для дальнейшего анализа.
Кроме того, важно отметить, что очистка данных позволяет повысить их качество и обеспечить точность и надежность анализа. Устранив несоответствия и убрав ненужную информацию, мы можем получить нужную нам структурированную информацию в удобном формате.
Заключение
Язык Python предоставляет мощные инструменты и библиотеки для эффективного извлечения данных из Google Maps. Парсинг данных с Google Maps позволяет получить информацию о местных предприятиях, проанализировать отзывы и оценки клиентов, собрать контактную информацию и многое другое. Независимо от того, являетесь ли вы владельцем бизнеса, которому нужна конкурентная разведка, или энтузиастом, ищущим интересные закономерности и тенденции, парсинг данных с Google Maps может дать вам огромное количество информации.
В данной статье мы продемонстрировали примеры извлечения данных из Google Maps с помощью языка Python. Мы использовали Google Maps API для простого и быстрого получения структурированных данных. Мы также попробовали осуществить парсинг данных с Google Maps с помощью библиотек Requests и BeautifulSoup, хотя они не подходят для динамически генерируемых страниц, таких как Google Maps. Наконец, мы использовали Selenium с безголовым браузером для имитации поведения пользователя и получения динамического содержимого страницы.