n-wp.ru — блог о WordPress

Все о robots.txt | часть 3

Все еще продолжаю изучать robots.txt.  Помимо стандартных правил в этом файле можно использовать дополнительные директивы. Однако опять же, эти директивы понятны далеко не всем роботам, и проверять их работу следует только опытным путем.

Оганичение скорости

При большом скоплении роботов на вашем сайте он будет сильно загружен, ведь каждый из поисковых роботов будет считать своим долгом заново излазить весь сайт вдоль и поперек. Сколько раз вы обновляете блог? Один, два, или может быть пять раз в день? Тогда может быть стоит уменьшить нагрузку от поисковых роботов, ведь они в любом случае все изучат за сутки? Это можно сделать, если использовать директиву Crawl-delay.

Пример:

Такое ограничение снимает нагрузку на сайт, ведь поисковый робот перестает непрерывно «бомбить» его своими запросами, снижая скорость. Этой скорости ему хватит, чтобы просканировать за сутки весь сайт, а большего и не нужно. Однако и тут не все однозначно, ведь многие агрессивные боты не понимают этот параметр. Например, гуглобот совершенно его игнорирует.

Главное зеркало

Свет мой, зеркальце, скажи, да всю правду доложи. Я-ль на свете всех милее? Впрочем, хоть строчка не из этой оперы, но косвенно ситуацию обрисовать может. Наберите-ка свой сайт с www и без этих трех букв. Видите, что вы попадаете на одну и ту же страницу? То есть для браузера ни какой разницы в этих адресах нет, а вот для поисковых роботов разница есть, так как они действуют более прямолинейно. Для них http://www.n-wp.ru является зеркалом сайта http://n-wp.ru, или же наоборот. И от определения того, какой адрес является главным, а какой второстепенным, зависит поисковая индексация и всевозможные ранжирования. Так вот чтобы раз и навсегда дать поисковым роботам понять, какой сайт является самым главным, а какой — всего лишь его второстепенным зеркалом, есть специальная директива Host:

. Она для каджого бота указывается в конце списка директив. Например:

Однако и тут, как всегда, далеко не все однозначно. Яндекс четко соблюдает указание этой директивы, а гуглобот проказничает, выполнять ее отказывается.

Карта сайта

Есть еще одна директива, польза которой для меня сомнительна — Sitemap. Она помогает поисковым роботам быстрее находить файл карты сайта. Однако я не думаю, что разработчики этих самых роботов не снабдили свои программы механизмом автоматического распознавания таких карт. В общем, думаю, что эта директива полезна в том случае, если карта сайта лежит не в стандартной корневой папке сайта, а где-то в другом месте, на которое нужно явно указать. Для ее применения не нужно указывать User-agent, и вообще, лучше всего расположить ее в конце файла robots.txt через пустую строку. Пример:

Предыдущая статья → Все о robots.txt | часть 2
Следующая статья → Все о robots.txt | часть 4

tiaurus

Являюсь создателем n-wp.ru — блога о WordPress для новичков. Мне интересно многое, поэтому еще я сделал 123-box.ru — блог о программах для Windows, и tiaurus.info — блог о красоте.

Комментировать