Modules php op modload

SEO Маяк

Похожие (дублированные) страницы. Как выявить дубли контента

Здравствуйте Уважаемые читатели SEO-Mayak.com. В статье — «Файл robots.txt — запрет индексации для Яндекса и Google» я уже касался темы дублированных страниц и сегодня поговорим об этом более подробно.

Что такое дубли страниц? Это страницы с похожим или одинаковым текстом доступные по разным URL адресам. Например, очень часто встречающиеся дубли главной страницы ресурса

Ниже мы рассмотрим несколько распространенных вариантов дублирования контента, а сейчас давайте поговорим о том, как влияют похожие страницы на продвижение сайта.

Поисковые системы давно научились определять уникальность текста по последовательности символов, т.е по одинаково составленным предложениям, откуда берется последовательность букв и пробелов. Если контент не уникальный (ворованный), то робот без труда это выяснит, а когда не уникальный текст встречается часто, то перспектива попадания такого ресурса под фильтр АГС довольно высока.

dubli kontenta20

Давайте представим себе работу поискового робота. Зайдя на сайт он в первую очередь смотрит на файл robots.txt и от него получает инструкции: что нужно индексировать и что для индексации закрыто. Следующим его действием будет обращение к файлу sitemap.xml, который покажет роботу карту сайта со всем разрешенными маршрутами. Почитайте статью — «Файл sitemap.xml для поисковиков Google и Яндекс.» Получив всю необходимую информацию, робот отправляется выполнять свои привычные функции.

Зайдя на определенную страницу он «впитывает» ее содержимое и сравнивает с уже имеющейся в его электронных мозгах информацией, собранной со всего бескрайнего простора интернета. Уличив текст в не уникальности поисковик не станет индексировать данную страницу и сделает пометку в своей записной книжке, в которую он заносит «провинившиеся» URL адреса. Как Вы наверное уже догадались на эту страницу он больше не вернется, дабы не тратить свое драгоценное время.

Читайте также:  text-align

Допустим, страница имеет высокую уникальность и робот ее проиндексировал, но пройдя по следующему URL того же ресурса он попадает на страницу с полностью или частично похожим текстом. Как в такой ситуации поступит поисковик? Конечно он тоже не станет индексировать похожий тест, даже если оригинал находиться на том же сайте, но по другому URL. Робот наверняка останется недоволен бесполезно потраченным временем и обязательно сделает пометочку в своем блокноте. Опять же, если такой инцидент будет неоднократно повторяться, то ресурс может пасть в немилость к поисковой системе.

Вывод №1. Похожие страницы расположенные по разными URL отнимают время, которое отводится роботу для индексации сайта. Дубли страниц он все равно индексировать не будет, но потратит часть временного лимита на ознакомление с ними и возможно не успеет добраться до действительно уникального контента.

Вывод№ 2. Дублированный контент отрицательно скажется но продвижении сайта в поисковой системе. Не любят поисковики не уникальные тексты!

Вывод №3. Надо обязательно проверять свой проект на дубли страниц, чтобы избежать проблем перечисленных выше.

Многие совершенно не заботятся об «чистоте» своего контента. Ради интереса я проверил несколько сайтов и был несколько удивлен положению дел с дублями страниц. На блоге одной женщины я вообще не обнаружил файла robots.txt.

Необходимо со всей серьезность бороться с дублями контента и начинать надо с их выявления.

Примеры часто встречающихся дублей контента и способы устранение проблемы

Дубль главной страницы. Пример:

В этом случаи вопрос решается с помощью 301 редиректа — «командой» для сервера через файл .htaccess. Как сделать 301 редирект (перенаправление) через файл .htaccess

Еще один пример дубля главной страницы:

Чтобы избежать подобного дублирования можно прописать основное зеркало сайта в файле robots.txt в директиве — «Host» для Яндекс:

А также воспользоваться 301 редиректом и указать поисковикам Яндекс и Google на главное зеркало сайта посредством инструментов для веб-мастеров.

Пример дубля главной страницы, который чуть не взорвал мне мозг при поиске решения выглядит так:

Я где-то прочитал, что слеш в конце ссылки на главную страницу, создает дубль и поисковики воспринимают ссылки со слешом и без, как разные URL, ведущие на страницу с одинаковым текстом. Меня забеспокоила даже не сама возможность дублирования, сколько потеря веса главной страницы в такой ситуации.

Я начал копать. По запросу к серверу по вышеупомянутым URL я получил ответ код 200. Код 200 означает — » Запрос пользователя обработан успешно и ответ сервера содержит затребованные данные». Из этого следует, что все-таки дубль на лицо.

Я даже попытался сделать 301 редирект (перенаправление), но команды не действовали, и желанного ответного кода 301 я так и получил. Решение проблемы состояло в отсутствии самой проблемы. Каламбур такой получился. Оказывается, современные браузеры сами подставляют символ «/» в конце строки, делая его невидимым, что автоматически делает дубль невозможным. Вот так!

Ну и еще один пример дубля главной страницы:

Бывают случаи, что по ошибке веб-мастера или глюка поисковика или при других обстоятельствах в индекс попадает ссылка под защищенным протоколом https://. Что же делать в таком случаи и как избежать этого в будущем? Конечно надо удалить ссылки с протоколом https://из поиска, но делать придется в ручную средствами инструментов для веб-мастеров:

В поисковой системе Яндекс, веб- мастер — мои сайты — удалить URL:

Dubli

В Google инструменты для веб мастеров — Оптимизация — Удались URL адреса:

Dubli kontenta

И в файле .htaccess прописать 301 редирект.

Теперь пройдемся по дублям встречающимся при не правильном составлении файла robots.txt . Пример:

  1. http://сайт.com/page/2
  2. http://сайт.com/2012/02
  3. http://сайт.com/category/название категории
  4. http://сайт.com/category/название категории/page/2

На первый взгляд не чего особенного, но это и есть классический пример частичного дублирования.

Что такое частичное дублирование? Это когда в индекс попадают страницы с анонсами постов. Причем размер таких анонсов бывают чуть ли не в половину всей статьи. Не делайте объемных анонсов! Решение проблемы простое. В файле robots.txt прописываем следующее:

Пример полного дублирования:

Решение опять же находиться в файле robots.txt

Я не веду речь про интернет магазины и другие сайты на коммерческой основе, там ситуация другая. Страницы с товарами, содержащие частично повторяющийся текст с множеством изображений, также создают дубли, хотя визуально выглядит все нормально. В таких случаях в основном применяется специальный тег:

Который указывает поисковику на основную страницу, подробнее читайте тут.

Важно ! Директивы, прописанные в файле robots.txt, запрещают поисковым роботам сканировать текст, что уберегает сайт от дублей, но те же директивы не запрещают индексировать URL страниц.

Подробнее читайте в статьях:

Как определить похожие страницы по фрагменту текста

Есть еще один довольно действенный способ определения «клонов» с помощью самих поисковых систем. В Яндексе в поле поиска надо вбить: link.сайт.com «Фрагмент теста». Пример:

Dubli kontenta

Яндекс нашел 2 совпадения потому, что я не закрыл от индексации категории и поэтому есть совпадение с анонсом на главной странице. Но если для кулинарного блога участие рубрик в поиске оправдано, то для других тематик, таких как SEO такой необходимости нет и категории лучше закрыть от индексации.

С помощью поиска Google проверить можно так: site:сайт.com «Фрагмент текста». Пример:

Dubli kontenta

Программы и онлайн сервисы для поиска внутренних и внешних дублей контента по фрагментам текста

Я не буду в этой статье делать подробный обзор популярных программ и сервисов, остановлюсь лишь на тех, которыми сам постоянно пользуюсь.

Для поиска внутренних и внешних дублей советую использовать онлайн сервис www.miratools.ru . Помимо проверки текста сервис включает еще различные интересные возможности.

Программа для поиска дублей — Advego Plagiatus . Очень популярная программа, лично я ей пользуюсь постоянно. Функционал программы простой, чтобы проверить текст достаточно скопировать его и вставить в окно программы и нажать на старт.

Dubli kontenta

После проверки будет представлен отчет об уникальности проверяемого текста в процентах с ссылками на источники совпадений:

Dubli kontenta

Также, будут выделены желтым фоном конкретные фрагменты текста, по которым программы нашла совпадения:

Dubli kontenta

Очень хорошая программа, пользуйтесь и обязательно подпишитесь на обновления блога .

С уважением, Кириллов Виталий

Источник

Электронные образовательные ресурсы

http://ito.edu.ru/2001/ito/I/2/I-2-83.html Некоторые вопросы использования Интернет в начальной школе, доклад на конференции «Информационные технологии в образовании».

http://nsc.1september.ru/ — Еженедельник издательского дома «Первое сентября» «Начальная школа».Его архив включает номера с 1997 года. Учитывая, что газета выходит каждую неделю, это огромный материал для учителей младших классов. Если Вы не можете найти эту газету в своей школе или в библиотеке, Интернет всегда поможет Вам.

http://www.ed.gov.ru — Сайт Министерства образования и науки Российской Федерации.

http://www.rfh.ru Российский гуманитарный научный фонд

http://www.int-edu.ru — Сайт Института Новых Технологий.

http://www.rsl.ru — Российская государственная библиотека.

http://www.gnpbu.ru Государственная научная педагогическая библиотека им. К. Д. Ушинского.

http://dic.academic.ru — Словари и энциклопедии on-line.

Справочные, научные материалы:
http://www.ruscorpora.ru/– Национальный корпус русского языка – информационно-справочная система, основанная на собрании русских текстов в электронной форме

http://etymolog.ruslang.ru/– Этимология и история русского языка

www.mapryal.org/ – международная ассоциация преподавателей русского языка и литературы

http://mlis.ru/– Методико-литературный интернет-сервис (МЛИС) создается как виртуальное пространство, аккумулирующее научный, методический, педагогический опыт, актуальный для современного учителя литературы

Электронные библиотеки, архивы, пособия:

www.feb-web.ru/ – Фундаментальная электронная библиотека «Русская литература и фольклор» (ФЭБ). Полнотекстовая информационная система по произведениям русской словесности, библиографии, научные исследования и историко-биографические работы

http://philology.ruslibrary.ru/– Электронная библиотека специальной филологической литературы

http://philology.ruslibrary.ru/– Электронная библиотека специальной филологической литературы

http://magazines.russ.ru/ – Журнальный зал – литературно-художественные и гуманитарные русские журналы,выходящие в России и за рубежом

http://lib.prosv.ru/– «Школьная библиотека» – проект издательства «Просвещение» – вся школьная программа по литературе на одном сайте

http://www.hi-edu.ru/e-books/xbook107/01/index.html?part-005.htm/ – Валгина, Н.С. Современный русский язык: электронный учебник Издательский дом «Первое сентября»:

http://rus.1september.ru/ – Электронная версия газеты «Русский язык». Сайт для учителей «Я иду на урок русского языка»

http://lit.1september.ru/ – Электронная версия газеты «Литература». Сайт для учителей «Я иду на урок литературы»

Каталог образовательных ресурсов по литературе
http://litera.edu.ru/ – Коллекция: русская и зарубежная литература для школы

Методические материалы:
www.uchportal.ru/ – Учительский портал. Уроки, презентации, контрольные работы, тесты, компьютерные программы, методические разработки по русскому языку и литературе www.Ucheba.com/ – Образовательный портал «Учеба»: «Уроки» (www.uroki.ru), «Методики» (www.metodiki.ru)

Олимпиады, конкурсы:
http://info.olimpiada.ru – всероссийский портал олимпиад

http://www.ege.ru/– Сайт информационной поддержки ЕГЭ

Справочные, научные материалы:

http://www.mathtest.ru/ — математика в помощь школьнику и студенту
http://www.ege.edu.ru/ — официальный информационный портал ЕГЭ
http://uztest.ru/ — ЕГЭ по математике, подготовка к тестированию по математике
https://ege.yandex.ru/mathematics/ — ЕГЭ по математике
https://ege.yandex.ru/mathematics-gia/ — ГИА по математике

Наши контакты

Нашли ошибку? Сообщите нам!
Выделите и нажмите Ctr+Enter

Источник

Оцените статью