Google com bot html

Содержание

Общие сведения о наших поисковых роботах и инструментах для сбора данных (агентах пользователя)
Основные поисковые роботы
Googlebot Smartphone
Googlebot Desktop
Googlebot Image
Googlebot-News
Googlebot Video
Google Favicon
Google StoreBot
Google-InspectionTool
GoogleOther
Специальные поисковые роботы
APIs-Google
AdsBot Mobile Web Android
AdsBot Mobile Web
AdsBot
AdSense
Mobile AdSense
Инструменты для сбора данных о сайте, управляемые пользователем
Feedfetcher
Google Центр издателей
Google Read Aloud
Google Site Verifier
Примечание о компоненте Chrome/W.X.Y.Z в строках агентов пользователей
Агенты пользователей в файлах robots.txt
Управление скоростью сканирования
Устаревшие поисковые роботы Google
Duplex в интернете
Web Light
Mobile Apps Android

Общие сведения о наших поисковых роботах и инструментах для сбора данных (агентах пользователя)

Google использует поисковые роботы и инструменты для сбора данных, чтобы выполнять действия со своими продуктами автоматически или по запросу пользователя.

Поисковый робот (или «паук») – это программа, которая автоматически обнаруживает и сканирует сайты, переходя по ссылкам от страницы к странице. Наш основной поисковый робот называется Googlebot.

Инструменты для сбора данных, как и браузер, загружают один URL по запросу пользователя.

В приведенных ниже таблицах вы найдете информацию о том, как поисковые роботы и инструменты для сбора данных Google, используемые разными продуктами и сервисами, упоминаются в журналах переходов и как их указывать в файле robots.txt.

Токен агента пользователя указывается в строке User-agent: файла robots.txt и позволяет выбирать, на каких поисковых роботов будет распространяться то или иное правило сканирования. Как видно из таблицы, некоторым роботам соответствует несколько токенов, но для того, чтобы правило действовало, достаточно одного. Приведенный ниже перечень не является исчерпывающим, но содержит информацию о роботах, которые с наибольшей вероятностью будут посещать ваш сайт.
Полная строка агента пользователя – это подробное описание поискового робота. Оно указывается в HTTP-запросах и журналах. Внимание! Строка агента пользователя может быть подделана. Узнайте, как проверить, является ли посетитель поисковым роботом Google.

Основные поисковые роботы

Основные поисковые роботы Google используются для создания индексов Google Поиска, анализа и выполнения других операций сканирования в зависимости от конкретного продукта. Они всегда следуют правилам из файла robots.txt и, как правило, выполняют сканирование из диапазонов IP-адресов, опубликованных в объекте googlebot.json.

Googlebot Smartphone

Googlebot Desktop

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
Редко:
- Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
- Googlebot/2.1 (+http://www.google.com/bot.html)
Googlebot Image

Этот робот позволяет сканировать байты графических данных для Google Картинок и продуктов, в которых они используются.

Googlebot-News

Googlebot News использует робот Googlebot для сканирования новостных статей, учитывая при этом и свой первоначальный токен агента пользователя Googlebot-News .

Googlebot Video

Этот робот позволяет сканировать байты видеоданных для Google Видео и продуктов, в которых они используются.

Google Favicon

Google StoreBot

Google StoreBot сканирует страницы с информацией о товаре, страницы корзины и оплаты и некоторые другие страницы аналогичных типов.
- Версия для компьютеров:
  Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36
- Мобильная версия:
  Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36
Google-InspectionTool

Поисковый робот Google-InspectionTool используется инструментами тестирования Search Console, в том числе предназначенными для проверки расширенных результатов и проверки URL. Помимо агента пользователя и его токена, он имитирует работу робота Googlebot.
- Google-InspectionTool
- Googlebot
- Мобильная версия:
  Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0)
- Версия для компьютеров:
  Mozilla/5.0 (compatible; Google-InspectionTool/1.0)
GoogleOther

Поисковый робот общего назначения, который может использоваться командами по работе над разными продуктами для получения общедоступного контента с сайтов. Например, с его помощью можно выполнять однократные операции сканирования для внутренних исследований и разработки.

Специальные поисковые роботы

Специальные поисковые роботы используются определенными продуктами при наличии договоренности о процессе сканирования между сканируемым сайтом и командой, которая работает с этим продуктом. Например, AdsBot игнорирует глобальный агент пользователя из файла robots.txt ( * ), если это разрешено издателем объявления. Такие роботы могут не учитывать правила robots.txt, поэтому работают из диапазона IP-адресов, не используемого основными поисковыми роботами. Диапазоны IP-адресов опубликованы в объекте special-crawlers.json.

APIs-Google

Используется в API Google для отправки push-уведомлений. Игнорирует глобальный агент пользователя ( * ) из файла robots.txt.

AdsBot Mobile Web Android

Проверяет качество рекламы на веб-страницах, предназначенных для устройств Android. Игнорирует глобальный агент пользователя ( * ) из файла robots.txt.

AdsBot Mobile Web

Проверяет качество рекламы на веб-страницах, предназначенных для устройств iOS. Игнорирует глобальный агент пользователя ( * ) из файла robots.txt.

AdsBot

Проверяет качество рекламы на веб-страницах, предназначенных для компьютеров. Игнорирует глобальный агент пользователя ( * ) из файла robots.txt.

AdSense

Робот AdSense заходит на ваш сайт и определяет его содержание с целью размещения релевантных объявлений. Игнорирует глобальный агент пользователя ( * ) из файла robots.txt.

Mobile AdSense

Робот Mobile AdSense заходит на ваш сайт и определяет его содержание с целью размещения релевантных объявлений. Игнорирует глобальный агент пользователя ( * ) из файла robots.txt.

Инструменты для сбора данных о сайте, управляемые пользователем

Такие инструменты для сбора данных активируются пользователями и обеспечивают работу функций определенного продукта. Например, Google Site Verifier выполняет действия по запросу пользователя. Так как сбор данных инициирует пользователь, такие инструменты, как правило, игнорируют правила из файла robots.txt. Диапазоны IP-адресов, которые они используют, опубликованы в объекте user-triggered-fetchers.json.

Feedfetcher

Feedfetcher используется, чтобы сканировать фиды RSS или Atom для Google Подкастов, Google Новостей и PubSubHubbub.

Google Центр издателей

Извлекает и обрабатывает фиды, которые были явным образом предоставлены издателями с помощью Google Центра издателей и предназначены для использования на целевых страницах в Google Новостях.

Google Read Aloud

По запросу пользователя Google Read Aloud получает и зачитывает веб-страницы, преобразуя текст в речь.

Текущие агенты пользователя:
- Версия для компьютеров:
  Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
- Мобильная версия:
  Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
Прежняя версия (больше не поддерживается):

Google Site Verifier

Google Site Verifier по запросу пользователя получает токены подтверждения Search Console.

Примечание о компоненте Chrome/W.X.Y.Z в строках агентов пользователей

В строках, которые содержат элемент Chrome/W.X.Y.Z, сочетание символов W.X.Y.Z – это плейсхолдер для версии браузера Chrome, используемой агентом пользователя. Пример: 41.0.2272.96 . Это значение соответствует последней версии Chromium, используемой роботом Googlebot, и поэтому со временем оно будет возрастать.

При поиске агента пользователя в журнале или на сервере не указывайте точное значение версии, а используйте подстановочные знаки.

Агенты пользователей в файлах robots.txt

Если в файле robots.txt обнаружится несколько токенов агентов пользователей, робот Google последует правилу с наиболее точно соответствующим ему токеном. Если вы хотите оставить сайт доступным для всех наших роботов, такой файл вообще не нужен. Чтобы запретить или разрешить всем поисковым роботам Google доступ к определенному контенту, укажите в правиле агент пользователя Googlebot. К примеру, чтобы все страницы сайта появлялись в Google Поиске, а на самих страницах показывались объявления AdSense, не используйте файл robots.txt. Если же вы решите полностью запретить Google сканировать некоторые страницы, то правило для агента пользователя Googlebot заблокирует доступ к контенту и всем остальным нашим роботам.

Можно указать агент пользователя более точно. Предположим, вы хотите, чтобы все страницы сайта показывались в Google Поиске, но чтобы при этом не сканировались изображения из вашего личного каталога. В таком случае в файле robots.txt запретите агенту пользователя Googlebot-Image сканировать файлы в каталоге /personal. При этом робот Googlebot сохранит доступ к файлам во всех каталогах. Запись должна выглядеть следующим образом:
```
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal
```
Рассмотрим другой пример. Вы хотите разместить на всех страницах рекламу, но сами страницы не должны появляться в Google Поиске. В таком случае следует полностью заблокировать доступ агенту пользователя Googlebot, но разрешить сканирование агенту пользователя Mediapartners-Google . Нужное правило должно выглядеть так:
```
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
```
Управление скоростью сканирования

Поисковые роботы Google посещают сайты с разными целями. Периодичность их появлений тоже отличается. Чтобы определить оптимальную частоту сканирования каждого сайта, Google использует ряд алгоритмов. Если наш поисковый робот посещает ваш ресурс слишком часто, вы можете уменьшить частоту сканирования.

Устаревшие поисковые роботы Google

Указанные поисковые роботы Google больше не используются и перечислены здесь лишь для справки.

Duplex в интернете

Обеспечивал работу сервиса «Duplex в интернете».

Web Light

Проверял наличие заголовка no-transform , когда пользователь нажимал на ссылку на вашу страницу в результатах поиска при определенных условиях. Агент пользователя Web Light действовал, только когда посетитель явным образом запрашивал страницу в браузере. При этом правила в файле robots.txt блокируют только автоматические запросы на сканирование, поэтому они не относились к Web Light.

Mobile Apps Android

Проверяет качество рекламы в приложениях для устройств Android. Следует правилам AdsBot-Google из файла robots.txt, но игнорирует в нем глобальный агент пользователя ( * ).

Если не указано иное, контент на этой странице предоставляется по лицензии Creative Commons «С указанием авторства 4.0», а примеры кода – по лицензии Apache 2.0. Подробнее об этом написано в правилах сайта. Java – это зарегистрированный товарный знак корпорации Oracle и ее аффилированных лиц.

Последнее обновление: 2023-07-26 UTC.

Источник

Google com bot html

Общие сведения о наших поисковых роботах и инструментах для сбора данных (агентах пользователя)

Основные поисковые роботы

Googlebot Smartphone

Googlebot Desktop

Googlebot Image

Googlebot-News

Googlebot Video

Google Favicon

Google StoreBot

Google-InspectionTool

GoogleOther

Специальные поисковые роботы

APIs-Google

AdsBot Mobile Web Android

AdsBot Mobile Web

AdsBot

AdSense

Mobile AdSense

Инструменты для сбора данных о сайте, управляемые пользователем

Feedfetcher

Google Центр издателей

Google Read Aloud

Google Site Verifier

Примечание о компоненте Chrome/W.X.Y.Z в строках агентов пользователей

Агенты пользователей в файлах robots.txt

Управление скоростью сканирования

Устаревшие поисковые роботы Google

Duplex в интернете

Web Light

Mobile Apps Android