n-wp.ru — блог о WordPress
Список поисковых ботов | n-wp.ru

Список поисковых ботов

Вот скажите мне честно, вам интересно, чтобы в Китае знали о вашем блоге? Ну хорошо, бог с ним, с Китаем. Возьмем, к примеру, Yahoo. Так ли важна для вашего блога индексация поисковым роботом этой корпорации? Если положить руку на сердце, то по большому счету в рунете сейчас идет ориентир только на две поисковые системы: Яндекс и Google. Ну ладно, еще немного поглядывают в сторону Bing. Яндекс дает нам ТИЦ, а с ТИЦем появляются и деньги. Google дает нам PR, с которым эти деньги тоже появляются. Bing пока что ничего нам не дает, но на всякий случай не повредит (говорят, что Microsoft почти уже купил Yahoo, и возможно, что скоро поисковые системы этих двух гигантов сольются в одну). Ну а остальные, думаю, могут идти лесом — трафика с них, как кот наплакал, а вот нагрузку на сервер они дают немалую. Как нибудь на досуге посмотрите, сколько скачивает с вашего сайта поисковый робот Mail.ru, а потом сравните, как много посетителей эта поисковая система вам дает. И это я пишу пока что только о хороших, правильных поисковиках. А сколько всяких вредных ботов бороздит ваш сайт, выискивая оставленные электронные адреса, воруя ваш контент, сканируя систему на уязвимости, оставляя горы спама в комментариях! Думаю, от всех ненужных ботов нужно избавляться, запрещая им ходить по сайту. Я пока что думаю, как сделать это правильно, но а пока что собираю список всех поисковых ботов, чтобы потом легче было разобраться с ними одним махом.

Вот такие боты могут изучать ваш сайт:

Представляете, сколько они могут накачать? И даже если каждый из них скачает всего по мегабайту, в месяц счет пойдет на гигабайты, и ваш хостер попросит вас умерить пыл. С этим надо что-то делать.

tiaurus

Являюсь создателем n-wp.ru — блога о WordPress для новичков. Мне интересно многое, поэтому еще я сделал 123-box.ru — блог о программах для Windows, и tiaurus.info — блог о красоте.

12 комментариев

  • Я в нетерпении увидеть, что же Ваша светлая голова надумает для решения этой задачи) От количества ботов зашевелились остатки волос на макушке…

    • Уверяю вас, что это далеко не все. Это всего лишь видимая часть айсберга. Большинство ботов скрывают свое предназначение, не показывая user agent.

      • Остаётся надеяться, что большая часть фиксируемых счётчиком статистики посетителей моего блога не относится к этой орде «любопытствующих халявщиков») А то руки опустятся… Или они статистикой не учитываются? Или фиксируются отчасти?

        • Смотря какая статистика. Самой правдивой обычно является статистика хостера — против нее не поспоришь.

  • И они все реально лазят по блогу???? Ужас. Кстати, насчет мылру — в последнее время по кол-ву посетителей он догнал гугл у меня О_о Я очень удивлен- но факт…

    • Ну я не утверждаю, что его нужно отключить. Нужно смотреть по обстановке. Для n-wp.ru поисковик типа mail.ru бесполезен, для knitly.com — полезен. Но вот китайские поисковики точно бесполезны для всех моих блогов :) .

      Вот, например, список ботов с knitly.com только за один неполный день. Желтым отмечены те, от которых я бы хотел избавиться. Следует обратить внимание на создаваемый ими трафик — а ведь это нехилая нагрузка на сервер, за которую хостер меня постоянно ругает. Кстати, гулобот и яндекс тоже в последнее время выкачивают огромную массу контента, но с их прожорливостью я вынужден мириться (а куда деваться то?), а вот желтые боты мне точно не нужны.

      tiaurus | список ботов knitly.com
      http://imgur.com/Y4y4b.png

  • А если их, например, вот так через .htaccess?

    RewriteEngine On
    RewriteCond %{HTTP_USER_AGENT} 5IBM_Planetwide [OR]
    RewriteRule . — [F,L]

    • Конечно, можно таким ботам запретить доступ и через htaccess (даже нужно) — главное знать их правильное название.

/* ]]> */