Все о robots.txt | часть 4

При редактировании файла robots.txt следует учитывать некоторые правила. Часто директивы robots.txt не работают именно потому, что не учитываются эти правила.

Правила

Правила очень простые, но без них все ваши указания роботам работать не будут. Они таковы:

  • Файл всегда должен начинаться с директивы User-agent
  • Сразу после этой директивы без пустых строк должна быть хотя бы одна директива Disallow
  • Каждая директива Disallow должна содержать только одно правило
  • Все комментарии начинаются со знака #
  • Если комментарии относятся к директиве User-agent, то не должны располагаться на отдельной строке
  • Директивы для каждого робота должны быть разделены пустой строкой
  • Дополнительные директивы нужно располагать ближе к концу файла

Оценить правильность файла robots.txt можно с помощью специального инструмента Яндекса.

Пример robots.txt
User-agent: Unknown robot
Disallow: /

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /tag/
Disallow: /trackback/
Disallow: /date/
Disallow: /category/
Disallow: /feed/
Disallow: */trackback/
Disallow: */feed/
Disallow: /?feed=
Disallow: /?s=
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads/
Crawl-delay: 5
Host: n-wp.ru
Sitemap: https://n-wp.ru/sitemap.xml

User-agent: Yandex
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /tag/
Disallow: /trackback/
Disallow: /date/
Disallow: /category/
Disallow: /feed/
Disallow: */trackback/
Disallow: */feed/
Disallow: /?feed=
Disallow: /?s=
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads/
Crawl-delay: 1
Host: n-wp.ru
Sitemap: https://n-wp.ru/sitemap.xml

Поправьте меня, если в чем-то неправ.

Предыдущие статьи о robots.txt:

Автор tiaurus 2182 Articles
Являюсь создателем n-wp.ru — блога о WordPress для новичков. Мне интересно многое, поэтому еще я сделал 123-box.ru — блог о программах для Windows, и tiaurus.info — блог о красоте.

4 Комментарии

  1. Я сделал проверку в ЯндексВебмастер и вот, что показывает:
    “Используемые секции:
    28-28: Sitemap: http://www.mysite.ru/sitemap.xml
    30-54: User-agent: Yandex
    Disallow: /cgi-bin/

    Sitemap: http://www.mysite.ru/sitemap.xml
    Сайтмап обнаружен и используется 2 раза, а в Гугле (инструменты для веб-мастеров) берется только 28 строка (где прописано для всех роботов) и строку 54 не берет (что получается правильнее и “умнее”, чем у Яндекса)

  2. Скорее всего, для Яндекса не обязательно указывать

    
    
    Crawl-delay: 5
    Host: n-wp.ru
    Sitemap: https://n-wp.ru/sitemap.xml

    Достаточно упомянуть эти строчки один раз в разделе для всех ботов.

  3. Я хотел Вам выразить свою большую признательность за эту статью!
    Вчера я (при наличии около 10 тыс ошибок 404 в ЯндексВебмастер) сделал по Вашему совету файл robots.txt и запретил, в частности, к индексации директорию со страницами от плагина, который делает перевод страниц на разные языки (15 шт)… Сегодня обнаружил, что ошибок в блоге НЕТ НИ ОДНОЙ :) Просто офигел, если честно! И это при кол-ве проиндексированных страниц (включая тэги, переводы, плагины и т.д.) 22433 шт. Каково?
    Еще раз спасибо! Теперь сделаю такие же файлы в других своих блогах.

  4. Спасибо за мануал!!:)всё сделал как доктор tiaurus:)прописал!!Всё получилось!!а то ошибки в Яндекс Вебмастер выдавались!!Лучшего разжеванного мануала я не видел!!:)Зачёт!!5++

Оставить комментарий

Ваш электронный адрес не будет опубликован.


*