Дубли страниц сайта: как найти и удалить

Алексей 4 комментария

Дубли страниц сайта – это повторяющийся контент в рамках одного веб-проекта. Когда одинаковый контент встречается на различных сайтах в интернете, в зависимости от обстоятельств, это может назваться цитированием либо плагиатом.

Плагиат – это практически криминальный случай и может подвергаться наказанию. Цитирование – это частичное воспроизведение чужого контента с указанием первоисточника. Использование сведений из авторитетных источников для повышения информационного качества своих статей положительно сказывается на репутации автора и продвижении проекта в поисковых системах.

А вот каким образом может повлиять повторения контента на своем же сайте? Поисковая машина – это огромный компьютер, непрерывно исследующий колоссальное количество данных во всемирной сети. Чем обширнее задача – тем дороже обходится ее выполнение заказчикам.

Если же серверам поисковой машины приходится неоднократно обрабатывать одну и ту же информацию – это перерасход аппаратных ресурсов и интернет-трафика. Истраченные на манипуляции с дублями деньги владельцы поисковой компании могли бы истратить на более интересные цели. Вот почему поисковики не любят повторений контента на сайтах.

Наличие дублей страниц сайта

Как и в случае с цитированиями на сторонних ресурсах, внутреннее дублирование может быть полным или частичным.

Полный дубль страницы – это повторение шаблона и всего контента на двух и более страницах с разными адресами. Различие в URL может состоять всего в одном символе, наличии или отсутствии www. Для поискового робота – это совершенно разные страницы. Частичные дубли – повторение на нескольких страницах отдельных элементов контента. Чаще всего частичное дублирование относится к сквозному контенту.

При обнаружении на сайте дублей, поисковый робот производит их склеивание – одна из страниц назначается оригиналом (каноническая страница), а все остальные удаляются из индекса.

Поисковый робот назначает каноническую страницу совершенно произвольно и это может оказаться совсем не та, которую хотелось бы веб-мастеру. В итоге в поиске участвует неправильная посадочная страница.

На дублирующих страницах могли быть качественные входящие ссылки. При склейке страницы исчезли из индекса и все эти жирные бэклинки перестали положительно влиять на продвижение сайта.

Различные поисковые компании имеют свое отношение к дублям на сайтах. Больше всего не любит повторений Google и при продвижении в этой поисковой системе наличие большого числа дублирований может ухудшить позиции в выдаче на десятки позиций.

В общем случае – наличие дублей страниц сайта указывает на низкое качество ресурса и нерадивое отношение владельца к обслуживанию проекта. Поэтому появление дублей нужно своевременно отслеживать и периодически очищать сайт от ненужных страниц.

Причины появления дублей страниц сайта

Дубли страниц сайта – побочный продукт работы систем управления контентом или результат небрежности редактора. Многие популярные движки при некорректной настройке могут создавать дубли, а веб-мастер об этом узнает только после проведения подробного аудита сайта.

В целях повышения юзабилити и улучшений потребительского опыта, информационные страницы нередко выпускаются в формате PDF для загрузки или в текстовом, для удобства распечатки на принтере. Это относится к статьям с техническими описаниями, мануалами, прайс-листами.

Мобильные версии веб-страниц для смартфонов и планшетов тоже могут быть опознаны как дубли.

В качестве причины появления частичных дублей можно назвать повторение технической информации в подвалах страниц или в боковых панелях.

Статья привлекла внимание посетителей и вызвала активные комментарии? Просто замечательно с точки зрения поведенческих факторов. А вот движок чрезмерное количество контента автоматически перераспределяет на несколько страниц. Для поисковых роботов это дубли.

Как найти дубли страниц сайта

Поскольку Google хуже всех относится к дублям, то и возможностей для выявления повторов здесь больше.

Анализ сайта в Webmaster Tools (панель инструментов Гугл вебсайта). Расширенный поиск. Специальные поисковые запросы.

В панели инструментов Google для веб-мастеров нужно зайти в пункт меню Оптимизация HTML. В результатах анализа сайта можно увидеть количество одинаковых метатегов Title и Description. С высокой вероятностью – это и есть дублирующие страницы.

Проверить сайт на дубли страниц с помощью расширенного поиска можно как в Google, так и в Яндекс. Метод состоит в поиске по внутренним страницам одного сайта.

Укажите в форме расширенного поиска URL проверяемого ресурса. Скопируйте кусок текста с подозреваемой в дублировании страницы, заключите этот текст в кавычки и вставьте в соответствующее поле. Например:

«Не указывайте свой почтовый адрес в сообщениях на форумах и в блогах» site:web-rynok.ru

После этого запустите поиск и в результатах будут показаны все страницы сайта с одинаковым контентом.

Как видите, появилось два результата. Значит у этой странице появился дубль. Нужно принимать меры.

Проверить дубли страниц можно сравнением результатов выдачи, задавая в Google и Яндекс запрос:

site: http://test-site.ru/ или site:test-site.ru

В поиске Google окажется намного больше страниц, чем в Яндексе. Дело в том, что Яндекс гораздо строже проверяет страницы перед индексацией и точнее определяет канонические адреса. Google же индексирует все подряд и только потом склеивает дубли. Нужно внимательно просмотреть все страницы на дубли.

Существенное различие количества страниц в индексах Яндекса и Google свидетельствует о наличии дублей и просто страниц низкого качества.

Как проверить дубли страниц с помощью программного обеспечения и онлайн-сервисов

Несколько уменьшить объем рутинной работы по поиску дублей можно используя SEO-программы для проведения комплексного аудита сайтов.

XENU Screaming Frog SEO Spider

Кроме множества по лезных данных, эти программы могут обнаруживать дублирование Title, Description и даже показывают процентное содержание повторов.

Общедоступный и эффективный способ проверить сайт на дубли страниц – скопировать текст со страницы и просканировать антиплагиатом. Кроме процента повторов текста вы получите конкретные ссылки на страницы с дубляжем.

Advego.ru Copyscape.com
Text.ru Content-Watch.ru

Как убрать дубли страниц

После того как все дубли обнаружены и составлен список – что с ними делать? Далеко не все эти страниц вредны, некоторые необходимы для нормального функционирования проекта.
Если повторяющиеся страницы бесполезны – их можно просто физически уничтожить. Если же дубли страниц важны для работы сайта – нужно позаботиться о точном назначении канонической страницы.

Запретить индексацию нежелательных страниц сайта можно в файле Robots.txt. При необходимости закрыть от индексации большое число страниц сходного характера (в комментариях, архивы, пагинация, файлы для загрузки) – укажите запрет по определенному параметру.

Назначение канонической страницы производится атрибутом, который встраивается в Head HTML-кода дублированных страниц.

Как убрать дубли страниц динамического сайта? Прежде всего необходимо проверить установки движка и произвести корректировку настроек, чтобы предотвратить несанкционированное создание дублей.

Некоторые CMS имеют специальные плагины для работы с дублями страниц. Движок WordPress можно оборудовать плагином All in One Seo Pack, с помощью которого можно очень просто и легко запретить к индексации страницы с комментариями, архивами и так далее.

Желаю удачи!

Жду от вас комментариев!

С уважением, Алексей Даренский.

Читайте другие посты блога:

Комментариев к статье: 4

Белиловский

в 14:17
Постоянная ссылка

Сайт — optimizr.com/onpage/error сообщает мне об ошибке «Description for «Duplicate Content Found » , которая заключается в дублях при наличии и отсутствии www.
Наличие двух вариантов доступа к сайту (с WWW и без WWW) увеличивает число посетителей. Неужели поисковые системы не могут понять, что это один и тот же сайт?
Как мне с этим бороться?
Ответ
- Алексей
  
  в 21:07
  Постоянная ссылка
  
  Ни кого не слушай и не подражай. Делай без www и все. Как это делать посмотри здесь — webmaster.yandex.ru За количеством посетителей задницу не рви. Они и так к тебе по тихому прибудут, только качественные статьи делай. Хотя бы две,три статьи в неделю. В идеале, одна статья в сутки в течении трех месяцев. Это для нового сайта. Потом, одна , две за неделю. Я уже не говорю про продвижение другими способами. Сидеть и ждать продвижение со старыми статьями не стоит. Это утопие. Надо двигаться в перед. Да, друг мой не так все просто. Это работа.
  Ответ
Белиловский

в 23:46
Постоянная ссылка

Алексей, если вы не знаете ответа, лучше не отвечать.
Ответ
- Алексей
  
  в 22:53
  Постоянная ссылка
  
  Белиловский, не люблю когда начинают умничать. Странные некоторые люди, хотят все и быстро. Поработать не хотите? Может вам ваш сайт быстро и бесплатно раскрутить? Вам нужен 301 редирект в htaccess.
  Вариант редиректа с www:
  
  Options +FollowSymLinks
  RewriteEngine on
  RewriteCond %{HTTP_HOST} ^www\.site\.ru$ [NC]
  RewriteRule ^(.*)$ ваш префикс://site.ru/$1 [R=301,L]
  
  Вариант редиректа на www:
  
  Options +FollowSymLinks
  RewriteEngine On
  RewriteCond %{HTTP_HOST} ^site.ru$ [NC]
  RewriteRule ^(.*)$ ваш префикс://www.site.ru/$1 [R=301,L]
  
  Не забудь изменить robots.txt на этот код:
  User-Agent: *
  Disallow:
  
  User-Agent: Googlebot
  Disallow: /admin/
  Disallow: /contacts.htm
  
  User-Agent: Yandex
  Disallow: /admin/
  Disallow: /contacts.htm
  Host: site.ru
  
  Sitemap: ваш префикс://site.ru/sitemap.xml
  
  Надеюсь sitemap.xml у вас есть?
  Ответ