n-wp.ru — блог о WordPress

Все о robots.txt | часть 1

Чтобы разобраться, что же такое этот пресловутый файл robots.txt, я решил собрать воедино все важные сведения о нем. В этом посте я расскажу, для чего нужен этот файл, и нужен ли он вообще.

Обязательно или нет?

Все рекомендуют в корне каждого сайта иметь файл robots.txt — файл, в котором записаны рекомендации для поисковых и прочих автоматических программ, индексирующих ваш сайт. В частности утверждается, что директивы этого файла запрещают поисковым роботам ходить туда, куда ходить им не положено. Однако это не совсем так — далеко не все роботы обращают внимание на правила в этом самом robots.txt. Я знаю точно, что Яндекс уважает robots.txt, а Google вообще не считается с ним. Поведение всех остальных нужно выяснять опытным путем, запрещая или разрешая индексацию определенных папок на сайте. Еще раз хочу подчеркнуть, что все директивы, указанные в файле robots.txt, не являются обязательными к исполнению, а носят лишь рекомендательный характер. Так что не удивляйтесь, что роботы некоторых поисковиков сначала выполняли их, а потом вдруг перестали — это значит, что они поменяли свое отношение к robots.txt.

Названия ботов

Все указания поисковым ботам состоят из строчки, определяющей, для какого робота она предназначена, и следующих за ним строчек с правилами. Вот примерно так начинаются в robots.txt правила для разных поисковых ботов:

Кстати, если вы хотите написать в robots.txt комментарий, не являющийся коммандой, то достаточно его обозначить #вот так. Очень важно соблюдать строчность — все новые строчки обрабатываются по отдельности. Чтобы узнать, как называются другие поисковые роботы, достаточно взглянуть в статистику их посещений вашего блога.

Следующая статья→Все о robots.txt | часть 2

3 комментария

  • >Я знаю точно, что Яндекс уважает robots.txt, а Google вообще не считается с ним.
    У них двоих вообще разное определение правильности работы сайта. Например, у Гугла в инструментах для веб-мастеров стоит 10 страниц с ошибкой 404, а у Яндекса в таких же инструментах их уже 540. Хотя блог один и тот же :)

  • @Domus, видимо речь идет о проиндексированных страницах. К-во проиндексированных страниц разными поисковиками может не совпадать, поэтому и разные цифры.

  • Да нет, я смотрел кол-во проиндексированных по сайтмапу — отличается незначительно. На мой взгляд Гугл все-таки кажется немного «умнее» и может делать некоторые отсеивания, а Яндекс ещё не научился. Например, в Яндексе по блогу показывается куча ошибок, которые таковыми не являются, т.к. страница с ошибкой 404 по версии Яши без проблем открывается без всяких переадресаций, но робот заходит каждый раз и эти ошибки не исправляет (из индекса не выкидывает). У Гугла с этим гораздо оперативнее — замечено уже многократно. Возможно из-за того, что стоит Гугл АдСенс…