n-wp.ru — блог о WordPress
Blackhole for Bad Bots — черная дыра для плохих ботов

Blackhole for Bad Bots — черная дыра для плохих ботов

Плагин с помощью ловушки определяет плохих ботов, и закрывает им доступ к сайту.

Что такое бот? Это программа, которая изучает ваш сайт. Боты бывают хорошими, а бывают и плохими. В чем отличие хорошего бота от плохого? Хороший бот полезен. Например, бот поисковой системы, которая вам интересна в плане продвижения сайта, является хорошим, так как он помогает страницам сайта быстрее индексироваться и занимать место в поисковой выдаче. Плохой бот не преследует таких целей, он ищет уязвимые места, он скачивает информацию для нужд своего хозяина, ничего не предоставляя взамен — ни выгоды, ни удобных услуг. Нередко плохие боты помимо воровства контента создают еще и помехи в работе — лишнюю нагрузку, которая замедляет работу сайта, вплоть до его остановки. Поэтому, если рассматривать идеальную технику работы с сайтом, работу хороших ботов нужно поощрять, а работу плохих ботов запрещать.

Да, нужно, но как отличить хорошего бота от плохого? Есть несколько достаточно простых способов это сделать. Первое, что приходит на ум — это подпись бота, который тот оставляет в виде следа. Хорошие боты всегда имеют правдивую подпись, которая показывает, кто сканировал сайт. Плохие боты, как правило, скрывают свое название и предназначение, маскируясь под обычного посетителя. Конечно, современные технологии с легкостью могут определить по поведению, смотрит ли сайт реальный человек, или его сканирует бот. Но вот автоматически определить, хороший ли это бот, или плохой, удается не всегда.

Поэтому к подписи следует добавить одну особенность в поведении, которая выдает плохого бота: плохой бот всегда лезет туда, куда лезть запрещено. Для обозначения запрещенных мест для ботов существует файл robots.txt — в нем прописываются все пути, по которым ходить ботам нельзя. Хороший бот не будет ходить туда, куда ему запретили, а вот плохой бот точно не упустит любой возможности пролезть во все места, которые есть на сайте.

Используя эту особенность, давным-давно существует способ, помогающий выявлять плохих ботов — ловушка для ботов с тайным местом на сайте, которое запрещено посещать. Если это место запрещено к посещению, но бот его все равно посетил, и он не имеет доверительной подписи, которой вы верите (или достоверность которой можно проверить, например, по IP-адресу), то это точно плохой бот, который попал в приготовленную для него ловушку.

Я сейчас описал принцип работы плагина Blackhole for Bad Bots. Он создает для каждой страницы псевдо-адрес с приставкой ?blackhole, и закрывает доступ к нему с помощью правила, прописываемого в файле robots.txt — этот адрес будет ловушкой для ботов, игнорирующих запреты и не имеющих доверенной подписи. Плагин создает правило, а потом отслеживает всех ботов, зашедших по запрещенному адресу. Если эти боты не входят в список разрешенных, то доступ для них на все страницы сайта после этого будет закрыт.

Blackhole for Bad Bots — черная дыра для плохих ботов

По-умолчанию разрешено посещать сайт этим ботам:

  • AOL.com
  • Baidu
  • Bingbot/MSN
  • DuckDuckGo
  • Googlebot
  • Teoma
  • Yahoo!
  • Yandex

Остальным ботам вход на сайт запрещен. При бане бота вам на указанный в настройках электронный адрес отсылается письмо с параметрами бота.

Blackhole for Bad Bots — черная дыра для плохих ботов

Если вы хотите, чтобы боту был разрешен доступ к сайту, то внесите его в список разрешенных.

Скачать Blackhole for Bad Bots

tiaurus

Являюсь создателем n-wp.ru — блога о WordPress для новичков. Мне интересно многое, поэтому еще я сделал 123-box.ru — блог о программах для Windows, и tiaurus.info — блог о красоте.

1 комментарий

/* ]]> */