Посмотрев логи своего сервера, я пришел к выводу, что некоторые боты создают абсолютно неадекватную нагрузку. Особенно меня порадовали показатели абсолютно бесполезных поисковых роботов, таких, как российские Aport и Mail.ru. По своей бесполезности для этого они могут соперничать с ботом китайского поисковика BaiDu. Людей эти поисковики на мои сайты практически не приводят (не более десятка за месяц со всех вместе взятых), зато за каждый свой проход скачивают огромное количество информации (до 100 мегабайт в день). Китаец-то хоть аппетиты умеренные имеет (несколько сот килобайт в день), а эти “кушают“ без ограничений, и не стесняются. Я готов терпеть деятельность ботов Google, Яндекса, MSN (Bing), ну может быть еще WordPress (да, у них тоже есть свой поисковый робот, причем весьма активный и прожорливый) и Yahoo. Эти поисковые системы хоть и выкачивают с моих блогов гигабайты информации ежемесячно, но взамен они дают посетителей. А поиском Апорта кто-нибудь пользуется? А Mail.ru? Могу предположить, кто пользуется этими поисковыми системами, и почему, но не об этом речь. Так как же умерить пыл ненужных ботов?
У каждого бота есть свой IP-адрес, который виден в статистике посещений. если вы увидите какой-нибудь прожорливый Ip-адрес, просто введите его в любой нормальный поисковик, и получите представление, чей он. Нормальные поисковые системы не стесняются своих IP-адресов, поэтому определить поискового робота по нему не составит труда.
Есть один отличный онлайновый инструмент, который сгенерирует правильный код, вставив который в файл .htaccess, вы навсегда запретите посещать ваш блог с определенных IP-адресов — HTACCESS Banning Generator.
Пользоваться им — одно удовольствие. Просто вводите список неугодных IP-адресов, и генерируйте код. Копируйте этот код в файл .htaccess и с удовольствием потирайте руки — с них больше никто на сайт не попадет.
Помимо IP-адресов, этот генератор умеет создавать код, зная только web site referrer — то, откуда приходят посетители. Если кто-то захотел вам нагадить, и занес ваш блог в какой-нибудь сомнительный каталог, то этот каталог можно забанить.
Ну и еще одна полезная фишка этого генератора — запрет холинкинга. Хотлинкинг — это когда вместо того, чтобы скачать картинку с вашего блога, и вставить ее в запись, горе-вебмастер вставляет ее напрямую с вашего сайта. В основном так поступают копипастеры. Ему то что, а вам одни неприятности — картинка отображается, каждый раз скачиваясь с вашего блога, напрягая ваш хостинг. Вы этого посетителя и в глаза не видели, а с блога идет постоянное скачивание, а значит создается лишняя нагрузка. Просто введите свои домены и типы файлов, запрещенные к скачиванию — получите код для .htaccess.
Единственное, что нужно помнить — если у вас запрещены к скачиванию картинки, то RSS будет у людей без них. Так же нужно учитывать и то, что у ненужных поисковых ботов иногда меняются IP-адреса, поэтому держите руку на пульсе — постоянно отслеживайте статистику посещений.
Сгенерировал код, вставил его в указанный файл после имевшегося там кода (непонятно, кстати, вставлять нужно до него, после него или где-нибудь в его рамках). Очистил спам очередь, посмотрю на результат. Тиаурус, ты может пробовал этот генератор… можно ли в спам адресах использовать *, чтобы банить подсети?
Использовать * в адресах можно, но не нужно. Чтобы забаннить подсеть, нужно указать ее диапазон:
192.0.0. – будут забаннены все адреса, начиная с 192.0.0.1 и до 192.0.0.255
Привет, Тиаурус. Я внимательно вчитался в описание на сайте и так говорится, что формулировка должна быть такой: “69.242. (Blocks ALL IPs within the range 69.242.xxx.xxx)”. Я же по ошибке уже начал было использовать и * и xxx. Спама опять налетело. Правлю файл, заливаю снова и продолжаю ждать.