Дубли страниц сайта: как найти и удалить
Дубли страниц сайта – это повторяющийся контент в рамках одного веб-проекта. Когда одинаковый контент встречается на различных сайтах в интернете, в зависимости от обстоятельств, это может назваться цитированием либо плагиатом.
Плагиат – это практически криминальный случай и может подвергаться наказанию. Цитирование – это частичное воспроизведение чужого контента с указанием первоисточника. Использование сведений из авторитетных источников для повышения информационного качества своих статей положительно сказывается на репутации автора и продвижении проекта в поисковых системах.
А вот каким образом может повлиять повторения контента на своем же сайте? Поисковая машина – это огромный компьютер, непрерывно исследующий колоссальное количество данных во всемирной сети. Чем обширнее задача – тем дороже обходится ее выполнение заказчикам.
Если же серверам поисковой машины приходится неоднократно обрабатывать одну и ту же информацию – это перерасход аппаратных ресурсов и интернет-трафика. Истраченные на манипуляции с дублями деньги владельцы поисковой компании могли бы истратить на более интересные цели. Вот почему поисковики не любят повторений контента на сайтах.
Наличие дублей страниц сайта
Как и в случае с цитированиями на сторонних ресурсах, внутреннее дублирование может быть полным или частичным.
Полный дубль страницы – это повторение шаблона и всего контента на двух и более страницах с разными адресами. Различие в URL может состоять всего в одном символе, наличии или отсутствии www. Для поискового робота – это совершенно разные страницы. Частичные дубли – повторение на нескольких страницах отдельных элементов контента. Чаще всего частичное дублирование относится к сквозному контенту.
При обнаружении на сайте дублей, поисковый робот производит их склеивание – одна из страниц назначается оригиналом (каноническая страница), а все остальные удаляются из индекса.
Поисковый робот назначает каноническую страницу совершенно произвольно и это может оказаться совсем не та, которую хотелось бы веб-мастеру. В итоге в поиске участвует неправильная посадочная страница.
На дублирующих страницах могли быть качественные входящие ссылки. При склейке страницы исчезли из индекса и все эти жирные бэклинки перестали положительно влиять на продвижение сайта.
Различные поисковые компании имеют свое отношение к дублям на сайтах. Больше всего не любит повторений Google и при продвижении в этой поисковой системе наличие большого числа дублирований может ухудшить позиции в выдаче на десятки позиций.
В общем случае – наличие дублей страниц сайта указывает на низкое качество ресурса и нерадивое отношение владельца к обслуживанию проекта. Поэтому появление дублей нужно своевременно отслеживать и периодически очищать сайт от ненужных страниц.
Причины появления дублей страниц сайта
Дубли страниц сайта – побочный продукт работы систем управления контентом или результат небрежности редактора. Многие популярные движки при некорректной настройке могут создавать дубли, а веб-мастер об этом узнает только после проведения подробного аудита сайта.
В целях повышения юзабилити и улучшений потребительского опыта, информационные страницы нередко выпускаются в формате PDF для загрузки или в текстовом, для удобства распечатки на принтере. Это относится к статьям с техническими описаниями, мануалами, прайс-листами.
Мобильные версии веб-страниц для смартфонов и планшетов тоже могут быть опознаны как дубли.
В качестве причины появления частичных дублей можно назвать повторение технической информации в подвалах страниц или в боковых панелях.
Статья привлекла внимание посетителей и вызвала активные комментарии? Просто замечательно с точки зрения поведенческих факторов. А вот движок чрезмерное количество контента автоматически перераспределяет на несколько страниц. Для поисковых роботов это дубли.
Как найти дубли страниц сайта
Поскольку Google хуже всех относится к дублям, то и возможностей для выявления повторов здесь больше.
Анализ сайта в Webmaster Tools (панель инструментов Гугл вебсайта). Расширенный поиск. Специальные поисковые запросы.
В панели инструментов Google для веб-мастеров нужно зайти в пункт меню Оптимизация HTML. В результатах анализа сайта можно увидеть количество одинаковых метатегов Title и Description. С высокой вероятностью – это и есть дублирующие страницы.
Проверить сайт на дубли страниц с помощью расширенного поиска можно как в Google, так и в Яндекс. Метод состоит в поиске по внутренним страницам одного сайта.
Укажите в форме расширенного поиска URL проверяемого ресурса. Скопируйте кусок текста с подозреваемой в дублировании страницы, заключите этот текст в кавычки и вставьте в соответствующее поле. Например:
«Не указывайте свой почтовый адрес в сообщениях на форумах и в блогах» site:web-rynok.ru
После этого запустите поиск и в результатах будут показаны все страницы сайта с одинаковым контентом.
Как видите, появилось два результата. Значит у этой странице появился дубль. Нужно принимать меры.
Проверить дубли страниц можно сравнением результатов выдачи, задавая в Google и Яндекс запрос:
site: http://test-site.ru/ или site:test-site.ru
В поиске Google окажется намного больше страниц, чем в Яндексе. Дело в том, что Яндекс гораздо строже проверяет страницы перед индексацией и точнее определяет канонические адреса. Google же индексирует все подряд и только потом склеивает дубли. Нужно внимательно просмотреть все страницы на дубли.
Существенное различие количества страниц в индексах Яндекса и Google свидетельствует о наличии дублей и просто страниц низкого качества.
Как проверить дубли страниц с помощью программного обеспечения и онлайн-сервисов
Несколько уменьшить объем рутинной работы по поиску дублей можно используя SEO-программы для проведения комплексного аудита сайтов.
XENU Screaming Frog SEO Spider
Кроме множества по лезных данных, эти программы могут обнаруживать дублирование Title, Description и даже показывают процентное содержание повторов.
Общедоступный и эффективный способ проверить сайт на дубли страниц – скопировать текст со страницы и просканировать антиплагиатом. Кроме процента повторов текста вы получите конкретные ссылки на страницы с дубляжем.
Advego.ru Copyscape.com
Text.ru Content-Watch.ru
Как убрать дубли страниц
После того как все дубли обнаружены и составлен список – что с ними делать? Далеко не все эти страниц вредны, некоторые необходимы для нормального функционирования проекта.
Если повторяющиеся страницы бесполезны – их можно просто физически уничтожить. Если же дубли страниц важны для работы сайта – нужно позаботиться о точном назначении канонической страницы.
Запретить индексацию нежелательных страниц сайта можно в файле Robots.txt. При необходимости закрыть от индексации большое число страниц сходного характера (в комментариях, архивы, пагинация, файлы для загрузки) – укажите запрет по определенному параметру.
Назначение канонической страницы производится атрибутом, который встраивается в Head HTML-кода дублированных страниц.
<link rel=»canonical» href=»http://site-page.ru»/>
Как убрать дубли страниц динамического сайта? Прежде всего необходимо проверить установки движка и произвести корректировку настроек, чтобы предотвратить несанкционированное создание дублей.
Некоторые CMS имеют специальные плагины для работы с дублями страниц. Движок WordPress можно оборудовать плагином All in One Seo Pack, с помощью которого можно очень просто и легко запретить к индексации страницы с комментариями, архивами и так далее.
Желаю удачи!
Жду от вас комментариев!
С уважением, Алексей Даренский.
Читайте другие посты блога:
Сайт — optimizr.com/onpage/error сообщает мне об ошибке «Description for «Duplicate Content Found » , которая заключается в дублях при наличии и отсутствии www.
Наличие двух вариантов доступа к сайту (с WWW и без WWW) увеличивает число посетителей. Неужели поисковые системы не могут понять, что это один и тот же сайт?
Как мне с этим бороться?
Ни кого не слушай и не подражай. Делай без www и все. Как это делать посмотри здесь — webmaster.yandex.ru За количеством посетителей задницу не рви. Они и так к тебе по тихому прибудут, только качественные статьи делай. Хотя бы две,три статьи в неделю. В идеале, одна статья в сутки в течении трех месяцев. Это для нового сайта. Потом, одна , две за неделю. Я уже не говорю про продвижение другими способами. Сидеть и ждать продвижение со старыми статьями не стоит. Это утопие. Надо двигаться в перед. Да, друг мой не так все просто. Это работа.
Алексей, если вы не знаете ответа, лучше не отвечать.
Белиловский, не люблю когда начинают умничать. Странные некоторые люди, хотят все и быстро. Поработать не хотите? Может вам ваш сайт быстро и бесплатно раскрутить? Вам нужен 301 редирект в htaccess.
Вариант редиректа с www:
Options +FollowSymLinks
RewriteEngine on
RewriteCond %{HTTP_HOST} ^www\.site\.ru$ [NC]
RewriteRule ^(.*)$ ваш префикс://site.ru/$1 [R=301,L]
Вариант редиректа на www:
Options +FollowSymLinks
RewriteEngine On
RewriteCond %{HTTP_HOST} ^site.ru$ [NC]
RewriteRule ^(.*)$ ваш префикс://www.site.ru/$1 [R=301,L]
Не забудь изменить robots.txt на этот код:
User-Agent: *
Disallow:
User-Agent: Googlebot
Disallow: /admin/
Disallow: /contacts.htm
User-Agent: Yandex
Disallow: /admin/
Disallow: /contacts.htm
Host: site.ru
Sitemap: ваш префикс://site.ru/sitemap.xml
Надеюсь sitemap.xml у вас есть?