Все о robots.txt | часть 1

Чтобы разобраться, что же такое этот пресловутый файл robots.txt, я решил собрать воедино все важные сведения о нем. В этом посте я расскажу, для чего нужен этот файл, и нужен ли он вообще.

Обязательно или нет?

Все рекомендуют в корне каждого сайта иметь файл robots.txt — файл, в котором записаны рекомендации для поисковых и прочих автоматических программ, индексирующих ваш сайт. В частности утверждается, что директивы этого файла запрещают поисковым роботам ходить туда, куда ходить им не положено. Однако это не совсем так — далеко не все роботы обращают внимание на правила в этом самом robots.txt. Я знаю точно, что Яндекс уважает robots.txt, а Google вообще не считается с ним. Поведение всех остальных нужно выяснять опытным путем, запрещая или разрешая индексацию определенных папок на сайте. Еще раз хочу подчеркнуть, что все директивы, указанные в файле robots.txt, не являются обязательными к исполнению, а носят лишь рекомендательный характер. Так что не удивляйтесь, что роботы некоторых поисковиков сначала выполняли их, а потом вдруг перестали — это значит, что они поменяли свое отношение к robots.txt.

Названия ботов

Все указания поисковым ботам состоят из строчки, определяющей, для какого робота она предназначена, и следующих за ним строчек с правилами. Вот примерно так начинаются в robots.txt правила для разных поисковых ботов:

#Правило для всех роботов:
User-agent: *
#Яндекc
User-agent: Yandex
#Гугл
User-Agent: googlebot
#MSN
User-agent: msnbot
#Рамблер
User-agent: StackRambler
#Yahoo
User-agent: Slurp

Кстати, если вы хотите написать в robots.txt комментарий, не являющийся коммандой, то достаточно его обозначить #вот так. Очень важно соблюдать строчность — все новые строчки обрабатываются по отдельности. Чтобы узнать, как называются другие поисковые роботы, достаточно взглянуть в статистику их посещений вашего блога.

Следующая статья→Все о robots.txt | часть 2

Автор tiaurus 2182 Articles
Являюсь создателем n-wp.ru — блога о WordPress для новичков. Мне интересно многое, поэтому еще я сделал 123-box.ru — блог о программах для Windows, и tiaurus.info — блог о красоте.

3 Комментарии

  1. >Я знаю точно, что Яндекс уважает robots.txt, а Google вообще не считается с ним.
    У них двоих вообще разное определение правильности работы сайта. Например, у Гугла в инструментах для веб-мастеров стоит 10 страниц с ошибкой 404, а у Яндекса в таких же инструментах их уже 540. Хотя блог один и тот же :)

  2. @Domus, видимо речь идет о проиндексированных страницах. К-во проиндексированных страниц разными поисковиками может не совпадать, поэтому и разные цифры.

  3. Да нет, я смотрел кол-во проиндексированных по сайтмапу – отличается незначительно. На мой взгляд Гугл все-таки кажется немного “умнее” и может делать некоторые отсеивания, а Яндекс ещё не научился. Например, в Яндексе по блогу показывается куча ошибок, которые таковыми не являются, т.к. страница с ошибкой 404 по версии Яши без проблем открывается без всяких переадресаций, но робот заходит каждый раз и эти ошибки не исправляет (из индекса не выкидывает). У Гугла с этим гораздо оперативнее – замечено уже многократно. Возможно из-за того, что стоит Гугл АдСенс…

Оставить комментарий

Ваш электронный адрес не будет опубликован.


*