Содержание
Файл Robots.txt для WordPress
по умолчанию на этой платформе не создается и его можно создать используя не только возможности текстовых редакторов (блокнот и пр.) и загрузки его в корневую директорию блога, но и используя имеющиеся плагины, созданные для WordPress. Мой рассказ будет базироваться на способе с использованием плагина KB Robots.txt и созданию такого самостоятельно.
Для начала обратимся к популярному поисковику Wikipedia и посмотрим, что он рассказывает по поводу этого файла:
Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться.
Файл robots.txt может использоваться для указания расположения файла и может показать, что именно нужно, в первую очередь, проиндексировать поисковому роботу.
По-моему все достаточно ясно сказано и нужен этот текстовой файл, главным образом для того, что бы оградить сайт от индексации не нужных страниц во избежания дублирования контента и прочего мусора, который никак не должен попасть в поле зрения поисковых систем.
Создание и настройка файла robots.txt с помощью плагина KB Robots.txt
Очень просто: «Плагины» — «Добавить новый»- в поле поиска robots.txt, затем установить и активировать. Далее открываем страницу настроек плагина и в специальном окне создаем файл.
Правильная настройка файла robots.txt
Для того, чтобы настроить именно правильный robots.txt, нужно использовать директивы User-agent, Disallow и Allow.
Директива Disallow — запрещающая, Allow — разрешающая индексацию определенных страниц сайта.
Поисковые роботы (боты) читают содержимое файла (как впрочем и исходный код любой страницы) сверху-вниз, поэтому именно User-agent должна стоять первой строкой.
User-agent: *
Для Яндекса рекомендуется составляется отдельный файл и он, как правило дублирует основной и начинается с для Яндекса строка будет выглядеть так:
User-agent: Yandex
Что и какие страницы приводят к дублированию контента? В первую очередь это архивы, теги, страницы комментариев, ленты rss комментариев, страницы содержащие в своих URL знаки вопроса и т.д. Обязательно запрещаем их к индексации.
Вот как, обычно выглядят файлы robots.txt (на примере своего):
# This is your robots.txt file. Visit Options->Robots.txt to change this text. User-agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Disallow: /tag/ Disallow: /trackback/ Disallow: /feed/ Disallow: /comments/ Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: /attachment/ Allow: /wp-content/uploads/ Sitemap: http://prt56.ru/sitemap.xml User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Disallow: /tag/ Disallow: /trackback/ Disallow: /feed/ Disallow: /comments/ Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: /attachment/ Allow: /wp-content/uploads/ Host: prt56.ru Sitemap: http://prt56.ru/sitemap.xml
Создание файла robots.txt без плагина
Еще лучше вообще все сделать без плагина: для этого нужно создать текстовой файл в блокноте с именем robots.txt , вставить в него все нужные строки и загрузите его в корневую папку блога, прежде деактивировав плагин. После проверки состояния работы файла — плагин вообще можно удалить.
Здравствуйте.
В файле robots.txt как лучше указать sitemap. как sitemap.xml
или page-sitemap.xml ?
Я выбрал первый вариант. Про второй ничего не скажу.