Google com bot html

Общие сведения о наших поисковых роботах и инструментах для сбора данных (агентах пользователя)

Google использует поисковые роботы и инструменты для сбора данных, чтобы выполнять действия со своими продуктами автоматически или по запросу пользователя.

Поисковый робот (или «паук») – это программа, которая автоматически обнаруживает и сканирует сайты, переходя по ссылкам от страницы к странице. Наш основной поисковый робот называется Googlebot.

Инструменты для сбора данных, как и браузер, загружают один URL по запросу пользователя.

В приведенных ниже таблицах вы найдете информацию о том, как поисковые роботы и инструменты для сбора данных Google, используемые разными продуктами и сервисами, упоминаются в журналах переходов и как их указывать в файле robots.txt.

  • Токен агента пользователя указывается в строке User-agent: файла robots.txt и позволяет выбирать, на каких поисковых роботов будет распространяться то или иное правило сканирования. Как видно из таблицы, некоторым роботам соответствует несколько токенов, но для того, чтобы правило действовало, достаточно одного. Приведенный ниже перечень не является исчерпывающим, но содержит информацию о роботах, которые с наибольшей вероятностью будут посещать ваш сайт.
  • Полная строка агента пользователя – это подробное описание поискового робота. Оно указывается в HTTP-запросах и журналах. Внимание! Строка агента пользователя может быть подделана. Узнайте, как проверить, является ли посетитель поисковым роботом Google.
Читайте также:  Jquery вызвать функцию php

Основные поисковые роботы

Основные поисковые роботы Google используются для создания индексов Google Поиска, анализа и выполнения других операций сканирования в зависимости от конкретного продукта. Они всегда следуют правилам из файла robots.txt и, как правило, выполняют сканирование из диапазонов IP-адресов, опубликованных в объекте googlebot.json.

Googlebot Smartphone

Googlebot Desktop

  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Редко:
    • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    • Googlebot/2.1 (+http://www.google.com/bot.html)

    Googlebot Image

    Этот робот позволяет сканировать байты графических данных для Google Картинок и продуктов, в которых они используются.

    Googlebot-News

    Googlebot News использует робот Googlebot для сканирования новостных статей, учитывая при этом и свой первоначальный токен агента пользователя Googlebot-News .

    Googlebot Video

    Этот робот позволяет сканировать байты видеоданных для Google Видео и продуктов, в которых они используются.

    Google Favicon

    Google StoreBot

    Google StoreBot сканирует страницы с информацией о товаре, страницы корзины и оплаты и некоторые другие страницы аналогичных типов.

    • Версия для компьютеров:
      Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36
    • Мобильная версия:
      Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36

    Google-InspectionTool

    Поисковый робот Google-InspectionTool используется инструментами тестирования Search Console, в том числе предназначенными для проверки расширенных результатов и проверки URL. Помимо агента пользователя и его токена, он имитирует работу робота Googlebot.

    • Google-InspectionTool
    • Googlebot
    • Мобильная версия:
      Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0)
    • Версия для компьютеров:
      Mozilla/5.0 (compatible; Google-InspectionTool/1.0)

    GoogleOther

    Поисковый робот общего назначения, который может использоваться командами по работе над разными продуктами для получения общедоступного контента с сайтов. Например, с его помощью можно выполнять однократные операции сканирования для внутренних исследований и разработки.

    Специальные поисковые роботы

    Специальные поисковые роботы используются определенными продуктами при наличии договоренности о процессе сканирования между сканируемым сайтом и командой, которая работает с этим продуктом. Например, AdsBot игнорирует глобальный агент пользователя из файла robots.txt ( * ), если это разрешено издателем объявления. Такие роботы могут не учитывать правила robots.txt, поэтому работают из диапазона IP-адресов, не используемого основными поисковыми роботами. Диапазоны IP-адресов опубликованы в объекте special-crawlers.json.

    APIs-Google

    Используется в API Google для отправки push-уведомлений. Игнорирует глобальный агент пользователя ( * ) из файла robots.txt.

    AdsBot Mobile Web Android

    Проверяет качество рекламы на веб-страницах, предназначенных для устройств Android. Игнорирует глобальный агент пользователя ( * ) из файла robots.txt.

    AdsBot Mobile Web

    Проверяет качество рекламы на веб-страницах, предназначенных для устройств iOS. Игнорирует глобальный агент пользователя ( * ) из файла robots.txt.

    AdsBot

    Проверяет качество рекламы на веб-страницах, предназначенных для компьютеров. Игнорирует глобальный агент пользователя ( * ) из файла robots.txt.

    AdSense

    Робот AdSense заходит на ваш сайт и определяет его содержание с целью размещения релевантных объявлений. Игнорирует глобальный агент пользователя ( * ) из файла robots.txt.

    Mobile AdSense

    Робот Mobile AdSense заходит на ваш сайт и определяет его содержание с целью размещения релевантных объявлений. Игнорирует глобальный агент пользователя ( * ) из файла robots.txt.

    Инструменты для сбора данных о сайте, управляемые пользователем

    Такие инструменты для сбора данных активируются пользователями и обеспечивают работу функций определенного продукта. Например, Google Site Verifier выполняет действия по запросу пользователя. Так как сбор данных инициирует пользователь, такие инструменты, как правило, игнорируют правила из файла robots.txt. Диапазоны IP-адресов, которые они используют, опубликованы в объекте user-triggered-fetchers.json.

    Feedfetcher

    Feedfetcher используется, чтобы сканировать фиды RSS или Atom для Google Подкастов, Google Новостей и PubSubHubbub.

    Google Центр издателей

    Извлекает и обрабатывает фиды, которые были явным образом предоставлены издателями с помощью Google Центра издателей и предназначены для использования на целевых страницах в Google Новостях.

    Google Read Aloud

    По запросу пользователя Google Read Aloud получает и зачитывает веб-страницы, преобразуя текст в речь.

    Текущие агенты пользователя:

    • Версия для компьютеров:
      Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
    • Мобильная версия:
      Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)

    Прежняя версия (больше не поддерживается):

    Google Site Verifier

    Google Site Verifier по запросу пользователя получает токены подтверждения Search Console.

    Примечание о компоненте Chrome/W.X.Y.Z в строках агентов пользователей

    В строках, которые содержат элемент Chrome/W.X.Y.Z, сочетание символов W.X.Y.Z – это плейсхолдер для версии браузера Chrome, используемой агентом пользователя. Пример: 41.0.2272.96 . Это значение соответствует последней версии Chromium, используемой роботом Googlebot, и поэтому со временем оно будет возрастать.

    При поиске агента пользователя в журнале или на сервере не указывайте точное значение версии, а используйте подстановочные знаки.

    Агенты пользователей в файлах robots.txt

    Если в файле robots.txt обнаружится несколько токенов агентов пользователей, робот Google последует правилу с наиболее точно соответствующим ему токеном. Если вы хотите оставить сайт доступным для всех наших роботов, такой файл вообще не нужен. Чтобы запретить или разрешить всем поисковым роботам Google доступ к определенному контенту, укажите в правиле агент пользователя Googlebot. К примеру, чтобы все страницы сайта появлялись в Google Поиске, а на самих страницах показывались объявления AdSense, не используйте файл robots.txt. Если же вы решите полностью запретить Google сканировать некоторые страницы, то правило для агента пользователя Googlebot заблокирует доступ к контенту и всем остальным нашим роботам.

    Можно указать агент пользователя более точно. Предположим, вы хотите, чтобы все страницы сайта показывались в Google Поиске, но чтобы при этом не сканировались изображения из вашего личного каталога. В таком случае в файле robots.txt запретите агенту пользователя Googlebot-Image сканировать файлы в каталоге /personal. При этом робот Googlebot сохранит доступ к файлам во всех каталогах. Запись должна выглядеть следующим образом:

    User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal

    Рассмотрим другой пример. Вы хотите разместить на всех страницах рекламу, но сами страницы не должны появляться в Google Поиске. В таком случае следует полностью заблокировать доступ агенту пользователя Googlebot, но разрешить сканирование агенту пользователя Mediapartners-Google . Нужное правило должно выглядеть так:

    User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:

    Управление скоростью сканирования

    Поисковые роботы Google посещают сайты с разными целями. Периодичность их появлений тоже отличается. Чтобы определить оптимальную частоту сканирования каждого сайта, Google использует ряд алгоритмов. Если наш поисковый робот посещает ваш ресурс слишком часто, вы можете уменьшить частоту сканирования.

    Устаревшие поисковые роботы Google

    Указанные поисковые роботы Google больше не используются и перечислены здесь лишь для справки.

    Duplex в интернете

    Обеспечивал работу сервиса «Duplex в интернете».

    Web Light

    Проверял наличие заголовка no-transform , когда пользователь нажимал на ссылку на вашу страницу в результатах поиска при определенных условиях. Агент пользователя Web Light действовал, только когда посетитель явным образом запрашивал страницу в браузере. При этом правила в файле robots.txt блокируют только автоматические запросы на сканирование, поэтому они не относились к Web Light.

    Mobile Apps Android

    Проверяет качество рекламы в приложениях для устройств Android. Следует правилам AdsBot-Google из файла robots.txt, но игнорирует в нем глобальный агент пользователя ( * ).

    Если не указано иное, контент на этой странице предоставляется по лицензии Creative Commons «С указанием авторства 4.0», а примеры кода – по лицензии Apache 2.0. Подробнее об этом написано в правилах сайта. Java – это зарегистрированный товарный знак корпорации Oracle и ее аффилированных лиц.

    Последнее обновление: 2023-07-26 UTC.

    Источник

Оцените статью