Убираем «сопли» Google и дубликаты страниц сайта

sd1Тема, которую я сегодня  поднимаю, однажды уже рассматривалась мною в сообщении  о важности уникальности статей; продолжение следует лишь для того, что бы рассказать о том, как удалять страницы, не попавшие в основной индекс — «сопли».

Если вы пользуетесь RDS-баром, то всегда можете определить, какой процент индексированных страниц сайта попал в эту поисковую систему:

sd

 

Эти 52%, указанные стрелкой — основной индекс. Все что не входит — «сопли».

Проще говоря, Google  делит все веб-страницы на три категории:

  1. Допущенные к участию в веб-поиске на общих основаниях (”хорошие” страницы»)
  2. Помещенные в то, что называют соплями (”плохие” страницы»)
  3. “Опущенные” Гуглом, которые не индексируются вовсе

Как избавится от «соплей» Гугла

Способ, который я опишу ниже, предлагает в своей статье Антон Черутти —  а я лишь более подробно  расскажу о том, как их удалять из поиска Гугла вообще. Что бы открыть страницу, в которую попали страницы  только из основного индекса, нужно в поиске Google ввести вот такую строку:

site:http://prt56.ru — site:http://prt56.ru/&,

при этом, разумеется, заменив url моего сайта — на свой или любой другой, интересующий вас. Эти страницы можно удалить, а затем и запретить, что бы не появились вновь, если возможно, в файле Robots.txt.

Итак, вы открыли страницу, где расположились «сопли», при переходе по любой из страниц,  в адресной строке браузера откроется ссылка. Копируем ее в буфер обмена и переходим гугл-вебмастер вашего сайта. Переходим по страницам «Оптимизация — «Удалить  URL-адреса». Далее выполняем действия, предлагаемых мною скриншотов:

 

Выполнив последовательно операции с каждой страницей, перед вами в итоге откроется полный список тех страниц, которые поисковой ситеме предстоит удалить из индекса:

Плохо, когда таких страниц накопится много. Их нужно собрать в любом текстовом редакторе (блокнот, например), а затем по очереди вставлять в окно для удаления. Сколько пройдет времени, пока Google произведет операции по удалению, неизвестно. Но я проделал эту операцию несколько дней назад: почти все страницы удалились. Как правило, это страницы загруженных картинок с тегом attachment, например http://prt56.ru/2011/11/07/privet/attachment/3

Для того, что бы в дальнейшем этого не происходило, в свой файл я добавил строку, запрещающую индексацию такого вида страниц: Disallow: */attachment/

Кроме того, я добавил на удаление и  страницы, отраженные как ошибки в гугл-вебмастере. Как правило — это ошибки 404.

В число ошибок входят страницы, запрещаемые мною для индексации в файле Robots.txt и они же попадают в «сопли». Ну, тут уж ничего не поделаешь. Да и не нужно ничего предпринимать.

Как избавится от дублирующих страниц с «кракозябрами», индексируемыми ПС с помощью FeedBurner

Я давно уже заметил, что одновременно ( а то и раньше), в поисковой системе Яндекс, новые страницы индексировались с помощью моего фида. Для тех, кто зажег эту RSS- ленту, возможно знакома  ситуация, которую так же описал Антон, в результате чего появляются дублированные страницы ( потом они, к счастью, исчезают).  Вид у этих ссылок примерно такой:

utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+prt56%2FiqzG+%28%D0%97%D0%B0%D0%BF%D0%B8%D1%81%D0%BA%D0%B8+%D0%B1%D0%BB%D0%BE%D0%B3%D0%B3%D0%B5%D1%80%D0%B0%29&utm_content=FeedBurner

Увидеть это можно, если открыть RSS-ленту и навести курсором на название статьи, в левом нижнем углу:

 

Нужно исправлять и удалять дубли? Нужно! Поступаем так, как я изобразил на скриншотах ниже. Открываем страницу редактирования фида «Анализируй», кликаем по строке «Total Stats»

И выполняем следующие операции:

Теперь можете снова открыть RSS-ленту и убедиться:  при наведении курсора на заголовки, ссылки отображаются в обычном. нормальном виде.

Итак: убираем сопли Google и дублирующие страницы!

И будет вам счастье. Удачи!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *