Как найти и удалить дубли страниц сайта?

Рубрика [ SEO ]

 

Как найти и удалить дубли страниц сайта

 

Привет всем!

Дубли страниц сайта – это повторяющийся контент в рамках одного веб-проекта. Когда одинаковый контент встречается на различных сайтах в интернете, в зависимости от обстоятельств, это может назваться цитированием либо плагиатом.

Плагиат – это практически криминальный случай и может подвергаться наказанию. Цитирование – это частичное воспроизведение чужого контента с указанием первоисточника. Использование сведений из авторитетных источников для повышения информационного качества своих статей положительно сказывается на репутации автора и продвижении проекта в поисковых системах.

А вот каким образом может повлиять повторения контента на своем же сайте? Поисковая машина – это огромный компьютер, непрерывно исследующий колоссальное количество данных во всемирной сети. Чем обширнее задача – тем дороже обходится ее выполнение заказчикам.

Если же серверам поисковой машины приходится неоднократно обрабатывать одну и ту же информацию – это перерасход аппаратных ресурсов и интернет-трафика. Истраченные на манипуляции с дублями деньги владельцы поисковой компании могли бы истратить на более интересные цели. Вот почему поисковики не любят повторений контента на сайтах.


 

Каким образом могут повлиять дубли страниц сайта на поисковое продвижение?

Как и в случае с цитированиями на сторонних ресурсах, внутреннее дублирование может быть полным или частичным.

Полный дубль страницы – это повторение шаблона и всего контента на двух и более страницах с разными адресами. Различие в URL может состоять всего в одном символе, наличии или отсутствии www. Для поискового робота – это совершенно разные страницы. Частичные дубли – повторение на нескольких страницах отдельных элементов контента. Чаще всего частичное дублирование относится к сквозному контенту.

При обнаружении на сайте дублей, поисковый робот производит их склеивание – одна из страниц назначается оригиналом (каноническая страница), а все остальные удаляются из индекса.

Поисковый робот назначает каноническую страницу совершенно произвольно и это может оказаться совсем не та, которую хотелось бы веб-мастеру. В итоге в поиске участвует неправильная посадочная страница.

На дублирующих страницах могли быть качественные входящие ссылки. При склейке страницы исчезли из индекса и все эти жирные бэклинки перестали положительно влиять на продвижение сайта.

Различные поисковые компании имеют свое отношение к дублям на сайтах. Больше всего не любит повторений Google и при продвижении в этой поисковой системе наличие большого числа дублирований может ухудшить позиции в выдаче на десятки позиций.

В общем случае – наличие дублей указывает на низкое качество ресурса и нерадивое отношение владельца к обслуживанию проекта. Поэтому появление дублей нужно своевременно отслеживать и периодически очищать сайт от ненужных страниц.


 

Причины возникновения дублей страниц сайта

Дубли страниц сайта – побочный продукт работы систем управления контентом или результат небрежности редактора. Многие популярные движки при некорректной настройке могут создавать дубли, а веб-мастер об этом узнает только после проведения подробного аудита сайта.

В целях повышения юзабилити и улучшений потребительского опыта, информационные страницы нередко выпускаются в формате PDF для загрузки или в текстовом, для удобства распечатки на принтере. Это относится к статьям с техническими описаниями, мануалами, прайс-листами.

Мобильные версии веб-страниц для смартфонов и планшетов тоже могут быть опознаны как дубли. В качестве причины появления частичных дублей можно назвать повторение технической информации в подвалах страниц или в боковых панелях.

Статья привлекла внимание посетителей и вызвала активные комментарии? Просто замечательно с точки зрения поведенческих факторов. А вот движок чрезмерное количество контента автоматически перераспределяет на несколько страниц. Для поисковых роботов это дубли.


 

Как проверить сайт на дубли страниц?

Поскольку Google хуже всех относится к дублям, то и возможностей для выявления повторов здесь больше.

Анализ сайта в Webmaster Tools (панель инструментов Гугл вебсайта). Расширенный поиск. Специальные поисковые запросы.

В панели инструментов Google для веб-мастеров нужно зайти в пункт меню Оптимизация HTML. В результатах анализа сайта можно увидеть количество одинаковых метатегов Title и Description. С высокой вероятностью – это и есть дублирующие страницы.

Как найти и удалить дубли страниц сайта?

Проверить сайт на дубли страниц с помощью расширенного поиска можно как в Google, так и в Яндекс. Метод состоит в поиске по внутренним страницам одного сайта.

Укажите в форме расширенного поиска URL проверяемого ресурса. Скопируйте кусок текста с подозреваемой в дублировании страницы, заключите этот текст в кавычки и вставьте в соответствующее поле. Например:

«Не указывайте свой почтовый адрес в сообщениях на форумах и в блогах» site:web-rynok.ru

После этого запустите поиск и в результатах будут показаны все страницы сайта с одинаковым контентом.

 

Как проверить сайт на дубли страниц?

Как видите, появилось два результата. Значит у этой странице появился дубль. Нужно принимать меры.

Проверить дубли страниц можно сравнением результатов выдачи, задавая в Google и Яндекс запрос:

site: http://test-site.ru/ или site:test-site.ru

В поиске Google окажется намного больше страниц, чем в Яндексе. Дело в том, что Яндекс гораздо строже проверяет страницы перед индексацией и точнее определяет канонические адреса. Google же индексирует все подряд и только потом склеивает дубли. Нужно внимательно просмотреть все страницы на дубли.

Существенное различие количества страниц в индексах Яндекса и Google свидетельствует о наличии дублей и просто страниц низкого качества.

Как проверить дубли страниц с помощью программного обеспечения и онлайн-сервисов

Несколько уменьшить объем рутинной работы по поиску дублей можно используя SEO-программы для проведения комплексного аудита сайтов.

XENU Screaming Frog SEO Spider

Кроме множества по лезных данных, эти программы могут обнаруживать дублирование Title, Description и даже показывают процентное содержание повторов.

Общедоступный и эффективный способ проверить сайт на дубли страниц – скопировать текст со страницы и просканировать антиплагиатом. Кроме процента повторов текста вы получите конкретные ссылки на страницы с дубляжем.

Advego.ru Copyscape.com
Text.ru Content-Watch.ru


 

Как убрать дубли страниц?

После того как все дубли обнаружены и составлен список – что с ними делать? Далеко не все эти страниц вредны, некоторые необходимы для нормального функционирования проекта.

Если повторяющиеся страницы бесполезны – их можно просто физически уничтожить. Если же дубли страниц важны для работы сайта – нужно позаботиться о точном назначении канонической страницы.

Запретить индексацию нежелательных страниц сайта можно в файле Robots.txt. При необходимости закрыть от индексации большое число страниц сходного характера (в комментариях, архивы, пагинация, файлы для загрузки) – укажите запрет по определенному параметру.

Назначение канонической страницы производится атрибутом, который встраивается в Head HTML-кода дублированных страниц.

<link rel=»canonical» href=»http://site-page.ru»/>

Как убрать дубли страниц динамического сайта? Прежде всего необходимо проверить установки движка и произвести корректировку настроек, чтобы предотвратить несанкционированное создание дублей.

Некоторые CMS имеют специальные плагины для работы с дублями страниц. Движок WordPress можно оборудовать плагином All in One Seo Pack, с помощью которого можно очень просто и легко запретить к индексации страницы с комментариями, архивами и так далее.

Желаю удачи!

 

Возьмите хорошее техническое пособие по созданию сайтов. Уверяю вас, самое лучшее здесь — http://web-rynok.ru/1

«Получите новых клиентов, используя свой YouTube-канал»: http://web-rynok.ru/4

Жду от вас комментариев!

С уважением, Алексей Даренский.

 

Читайте другие посты блога: 

Хранение паролей

Сервис рассылок Subscribe

Вывод денег с RBK money

Продажа статей

Заработок на добавлении новостей

Related posts:


Вы можете прочитать комментарии к этой записи в формате RSS 2.0. Вы можете оставить комментарий или обратную ссылку с вашего сайта.

4 комментария к записи “Как найти и удалить дубли страниц сайта?”

  • Белиловский
    1 Ноя 2015, 14:17 г.

    Сайт http://optimizr.com/onpage/error сообщает мне об ошибке «Description for «Duplicate Content Found » , которая заключается в дублях при наличии и отсутствии www.
    Наличие двух вариантов доступа к сайту (с WWW и без WWW) увеличивает число посетителей. Неужели поисковые системы не могут понять, что это один и тот же сайт?
    Как мне с этим бороться?

  • Алексей
    1 Ноя 2015, 21:07 г.

    Ни кого не слушай и не подражай. Делай без www и все. Как это делать посмотри здесь — https://webmaster.yandex.ru За количеством посетителей задницу не рви. Они и так к тебе по тихому прибудут, только качественные статьи делай. Хотя бы две,три статьи в неделю. В идеале, одна статья в сутки в течении трех месяцев. Это для нового сайта. Потом, одна , две за неделю. Я уже не говорю про продвижение другими способами. Сидеть и ждать продвижение со старыми статьями не стоит. Это утопие. Надо двигаться в перед. Да, друг мой не так все просто. Это работа.

  • Белиловский
    1 Ноя 2015, 23:46 г.

    Алексей, если вы не знаете ответа, лучше не отвечать.

  • Алексей
    2 Ноя 2015, 22:53 г.

    Белиловский, не люблю когда начинают умничать. Странные некоторые люди, хотят все и быстро. Поработать не хотите? Может вам ваш сайт быстро и бесплатно раскрутить? Вам нужен 301 редирект в htaccess.
    Вариант редиректа с www:

    Options +FollowSymLinks
    RewriteEngine on
    RewriteCond %{HTTP_HOST} ^www\.site\.ru$ [NC]
    RewriteRule ^(.*)$ http://site.ru/$1 [R=301,L]

    Вариант редиректа на www:

    Options +FollowSymLinks
    RewriteEngine On
    RewriteCond %{HTTP_HOST} ^site.ru$ [NC]
    RewriteRule ^(.*)$ http://www.site.ru/$1 [R=301,L]

    Не забудь изменить robots.txt на этот код:
    User-Agent: *
    Disallow:

    User-Agent: Googlebot
    Disallow: /admin/
    Disallow: /contacts.htm

    User-Agent: Yandex
    Disallow: /admin/
    Disallow: /contacts.htm
    Host: site.ru

    Sitemap: http://site.ru/sitemap.xml

    Надеюсь sitemap.xml у вас есть?

Оставить комментарий

This blog is kept spam free by WP-SpamFree.

 
Индекс цитирования