Продолжаю изучать robots.txt. Мне понятно, что robots.txt — не догма, однако я не упускаю возможности для дополнительной оптимизации, которые могут появиться у блога с помощью этого маленького файла. Как с помощью этого файла показать, какие папки вы рекомендуете индексировать, а в какие ходить не советуете?
Запретить/разрешить индексацию
Оказывается, что сделать это элементарно (Ватсон, Семён Семёныч — нужное подчеркнуть употребить) — достаточно упомянуть о том, для какого робота это предназначено, и следующей строчкой вписать, что вы запрещаете или разрешаете этому роботу просматривать всего двумя командами: Allow и Disallow.
Например, напишем правило для робота Яндекса, запрещающее ему индексировать папку cgi-bin и файл style.css, находящийся в папке css, но открывающее папку uploads для индексации:
User-Agent: Yandex Disallow: /cgi-bin/ #закрываем директорию cgi-bin, находящуюся в корне сайта Disallow:/css/style.css #закрываем файл style.css, который находится в директории css Allow: /uploads/ #открываем всю папку uploads для индексации
Как видим, ничего страшного в этой разметке нет. Однако есть несколько правил, которые следует учесть:
- Обратите внимание, что если вы запрещаете индексацию папки, то после нее всегда следует /, а если файла — то этот знак не ставится.
- Следует так же учитывать, что директивы работают последовательно, по мере их прочтения роботом, от начала файла к концу.
Для написания правил можно использовать служебные символы * и $. * употребляется тогда, когда нужно указать на любую комбинацию символов, а $- отменяет эту комбинацию.
Например, заблокируем все файлы и папки, начинающиеся с ААА для всех роботов:
User-agent: * Disallow: /AAA*
Однако многие указывают, что употребление множества спецсимволов только лишь запутывает структуру файла, поэтому от их частого употребления стоит воздержаться.
Предыдущая статья → Все о robots.txt | часть 1
Следующая статья → Все о robots.txt | часть 3
