Дублированный контент: выявление и методы устранения

дублированный контент
Дублированный контент ухудшает индексацию сайта

 «Разные  дороги ведут в разные места, и только одно из них — правильное»

 

Здравствуйте друзья! Эту тему я давно собирался раскрыть на страницах своего сайта, поэтому, изучив достаточно много материала по дублированию контента и  его причинах, последствиях и способах устранения этого негативного явления, решил изложить свои мысли по данной проблеме на своем скромном ресурсе.

Запаситесь терпением и тщательно изучите все излагаемые рекомендации статьи , а затем проверьте  состояние  ваших ресурсов. Если хотите видеть отличное ранжирование страниц своих сайтов в поисковых системах — неукоснительно их выполняйте.

Не претендуя на все возможные способы устранения причин дублирования контента, я, тем не менее, предложу изучить наиболее важные моменты этого вопроса.

Чем вредны дубли страниц?

Если обычный  пользователь (а иногда  и сам вебмастер) может не  заметить дублированный контент  сайте, то поисковики это сразу определят. Их реакция будет однозначной: контент с этих страниц перестанет быть уникальным. А это уже есть нехорошо, так как негативно скажется на их ранжировании.

Кроме того,  дублирование  размывает ссылочный вес,  на определенную запись, которую, оптимизируя,  вы пытались продвинуть в ТОП, как целевую страницу. Дубли просто сгубят все попытки ее оптимизации, а эффект перелинковки будет минимальным.

Что такое дубликаты контента?

1.Контент, скопированный кем-то или лично вами и размещенный на сторонних ресурсах.

О том как бороться с ворованным контентом, можно прочитать множество статей в интернете,  как один из вариантов — моя статья. Можно ли истребить воровство контента — вопрос риторический и на сегодняшний день, на мой взгляд, кардинальных решений данной проблемы  в интернете нет. Есть только несколько более-менее действенных приемов.

2. Контент -дубликат, который создает собственными руками вебмастер.

Полный (или неполный) дубликат при распространении информации( или как еще их называют — анонсов) на специальных сайтах и форумах. Желаете получить дубликат вашей записи в интернете — продублируйте его на каком-либо приличном ресурсе — результат, почти всегда, будет незамедлительным. Дубликат возможен непосредственно на страницах сайта. Случалось ли вам видеть две одинаковые страницы на своем ресурсе, когда вы создавали лишь одну? Почему так происходит? Причины в редактировании записей или сохранении неоконченных в черновиках, а затем, по неосторожности, создание дубликата. Вебмастер, сам того не замечая и в дальнейшем не просмотрев все свои записи, что бы не обнаружить дубликат, живет себе припеваючи, не подозревая, что у него появились «двойняшки», «тройняшки» и т.п.

3. Дублирование по техническим причинам — возникновение дублей, в которых  виноваты CMS.

Эти ошибки  появляются от того, что разработчики CMS думают не как браузеры или поисковые пауки, а думают как и подобает разработчикам движков к сайтам;  грешат этим многие —  Joomla, например.

Немного поясню. Предположим, что вас есть статья с ключевой фразой «дублирование контента». Она должна располагаться на странице с таким адресом:,  http://домен.ru/дублирование контента/, но тот же контент может отображаться, например, вот так:   http://домен.ru/article-category/дублирование контента/. А если еще учесть другое дублирование, страницы RSS, например: http://домен.ru/дублирование контента/?source=rss. Все  эти урлы — разные адреса для любой ПС, но один и тот же для пользователя(читателя). Эти различия  позволяют  вебмастеру проследить откуда пришел пользователь, но они могут и навредить, если не сделать нужных настроек индексирования.

Сайты , как известно,  работают благодаря существующей  системе базы данных. В базе существует единственная версия  определенной  статьи(ID), а вот  скрипты сайта позволяют выводить эту статью из базы данных на разных страницах(URL).  Но для поисковиков нужен документ(URL) — только он является уникальным индефикатором и больше ничего!

4. Нечеткие дубли.

Особый вид дублирования, который встречается в основном  на интернет-магазинах, где где страницы с карточками товаров отличаются лишь несколькими предложениями с описанием, а весь остальной контент, состоящий из сквозных блоков и прочих элементов, одинаковый.  Трудно  винить вебмастера, хотя и тут  есть некоторые варианты их устранения.

Итак,  мы разобрались с причинами и последствиями дублирования контента. Теперь перейдем к решению проблем. Прежде всего, выясним

Как обнаружить страницы-копии?

1. Ручной способ.

1) Если ваш контент не слишком велик, просто пролистайте в админпанели страничку «Все записи» и, при обнаружении дубликатов, удалите лишние.

2) Для выяснения наличия дублей, можно воспользоваться сервисами поисковых систем «Яндекс-вебмастер» или   Google Webmaster Tools.

Например, в Webmaster Tools откройте страницу «Инструменты для вебмастеров» — «Оптимизация» — «Оптимизация HTML»: если есть ошибки и дубликаты, мастер все вам покажет. Разбирайтесь кликами, устраняйте ошибки и дубли, заодно.

 

3) Воспользуйтесь непосредственно окнами поиска систем (приблизительный метод).  Введите для каждой из них запись вида site: домен.ru и сравните их результаты. Если они не очень сильно отличаются, значит с дублированием у вас не все так уж плохо.

 

4) Есть  один эффективный  способ нахождения  дубликатов  — поиск по фрагментам текста. Делается это просто: в поисковом окне любой ситемы, введите текстовой фрагмент вашей записи(статьи) в размере 10- 20 слов(лучше из середины) и проанализировать полученный результат. Наличие двух и более страниц в выдаче — значит дубли для этого опуса имеют место быть.  Если нет — можете немного порадоваться :).

Сложно, если сайт накопил множество страниц. Вышеуказанная  проверка может стать невыносимой рутинной работой. Желаете минимизировать временные затраты — воспользуйтесь программой   Xenu`s Link Sleuth.

 

Чтобы проверить сайт, необходимо открыть новый проект, выбрав в меню «File» «Check URL», ввести адрес и нажать «OK». После этого программа начнет обработку всех URL сайта. По окончании проверки нужно экспортировать полученные данные в любой удобный редактор и приступить к поиску дублей.

Кому нужна ссылка на скачивание файла этой программы, отпишитесь в комментариях, пришлю на ваш e-mail.

Итак, мы выяснили, какие (основные)  причины приводят к возникновению дублированного контента. Теперь определим способы его устранения.

Способы устранения дублированного контента

 Канонические URL — концептуальное решение проблемы

Если у вас нет возможности (интернет-магазин) удалять дубликаты, проблему можно решить  с помощью тега canonical (применяется  для нечетких копий). Тег  canonical  так же подойдет для версий страниц для печати и в других подобных случаях. Применяется он очень  просто – для всех копий указывается атрибут rel=”canonical”, а для основной страницы, которая наиболее релевантна, – нет. Код должен выглядеть примерно так: link rel=»canonical» href=»http://домен.ru/страница-копия»/, и стоять в пределах тега head.

Для пользователей с движком WordPress имеется прекрасная возможность сделать все это автоматически, установив плагин all in one seo pack или ему подобный. В настройках эта операция устанавливается метками:

Использование тега canonical можно считать универсальным, но этот метод не единственный, не вредно будет вспомнить и о других, например

Настройка функций disallow в файле robots.txt вашего сайта

Хотя настройка запрещающих страниц для индексирования не всегда является эффективным способом от дублей, так как поисковики умудряются их иногда обходить, все же правильно настроенный robot.txt значительно облегчит задачу их недопущения.

С www или без www

Как будет выглядеть сраницы вашего сайта — только с использованием http или  http.www?  Неопределенность породит дублирование. Сразу, после создания сайта, определите, какой гипертекстовый транспортный протокол будете использовать. Для этого в панели вебмастеров Яндекса и Google проставьте ваш выбор (в Google это можно сделать для обоих версий, но нужно будет подтвердить права на оба адреса). Можно, оставить по умолчанию или на «выбор поискового робота», но лучше четко определится.

Настройка редиректа

Редирект 301 отлично подходит для склеивания страниц-копий, URL которых отличаются наличием и отсутствием www. Как вы уже поняли(смотри скрин выше), настройка редиректа на WordPress тоже упрощается с помощью плагина. В сущности, если вы и поисковой робот «определился» с вашим выбором — с www илии без него будет основной домен, настройка редиректа для всех страниц не нужна. Впрочем, тема настройки редиректа и его целесообразности — тема отдельной статьи.

Итоги и выводы

  • не допускайте дублирования страниц(контента) на ваших ресурсах, так как дубли  приводят к серьезному понижению релевантности страниц что затрудняет их вывод на передовые позиции в в поисковой выдаче(ТОП);
  • проблемы с дублированием контента в своем большинстве имеют решение  — для этого используйте все возможные средства;
  • постоянно следите за процессом индексации вашего контента и ни создания дублей на нем

Вот и все, дорогой читатель. Если есть что добавить или поправить меня, задать вопрос — рискните!

Не совсем в тему, но про близнецов.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *