Список поисковых ботов

Список поисковых ботов | n-wp.ru

Вот скажите мне честно, вам интересно, чтобы в Китае знали о вашем блоге? Ну хорошо, бог с ним, с Китаем. Возьмем, к примеру, Yahoo. Так ли важна для вашего блога индексация поисковым роботом этой корпорации? Если положить руку на сердце, то по большому счету в рунете сейчас идет ориентир только на две поисковые системы: Яндекс и Google. Ну ладно, еще немного поглядывают в сторону Bing. Яндекс дает нам ТИЦ, а с ТИЦем появляются и деньги. Google дает нам PR, с которым эти деньги тоже появляются. Bing пока что ничего нам не дает, но на всякий случай не повредит (говорят, что Microsoft почти уже купил Yahoo, и возможно, что скоро поисковые системы этих двух гигантов сольются в одну). Ну а остальные, думаю, могут идти лесом — трафика с них, как кот наплакал, а вот нагрузку на сервер они дают немалую. Как нибудь на досуге посмотрите, сколько скачивает с вашего сайта поисковый робот Mail.ru, а потом сравните, как много посетителей эта поисковая система вам дает. И это я пишу пока что только о хороших, правильных поисковиках. А сколько всяких вредных ботов бороздит ваш сайт, выискивая оставленные электронные адреса, воруя ваш контент, сканируя систему на уязвимости, оставляя горы спама в комментариях! Думаю, от всех ненужных ботов нужно избавляться, запрещая им ходить по сайту. Я пока что думаю, как сделать это правильно, но а пока что собираю список всех поисковых ботов, чтобы потом легче было разобраться с ними одним махом.

Вот такие боты могут изучать ваш сайт:

5IBM_Planetwide
ABCdatos BotLink
Acme.Spider
Acoon-Robot 4.0.0RC2
Acoon-Robot 4.0.1
Acoon-Robot 4.0.1
Acoon-Robot 4.0.2
Acorn/Nutch-0.9
adressendeutschland.de
AdsBot-Google
AdsBot-Google b
Ahoy! The Homepage Finder
aipbot/1.0
aipbot/2-beta
Alkaline
Almaden
Almaden bc12
Almaden bc14
Almaden bc22
Almaden bc5
Almaden bc6
Almaden fc13
Almaden hc4
Amfibibot/0.07
ananzi
Anthill
appie 1.1
Arachnophilia
Arale
Araneo
AraybOt
ArchitextSpider
archive.org_bot/heritrix/1.13.1
Aretha
ARIADNE
arks
ASAHA Search Engine Turkey V.001
ASAPlinkchecker/1.0
AsapLinkChecker/1.0 b
ASAP-LynxViewer/1.0
ASAP-LynxViewer/1.0 b
ASAP-LynxViewer/1.1
ASAP-LynxViewer/1.2
ASAP-Web-Sniffer/1.0
Ask
Ask Jeeves/Teoma
Ask Jeeves/Teoma - b
Ask Jeeves/Teoma - c
Ask Jeeves/Teoma - d
AskJeeves
ASpider
ATN Worldwide
Atomz.com Search Robot
AURESYS
BackRub
Baiduspider
Baiduspider b
Bay Spider
BBot
BecomeBot/2.3
BecomeBot/2.3 b
BecomeBot/3.0
BecomeBot/3.0 b
Big Brother
Bigsearch.ca/Nutch-0.9-dev
Bigsearch.ca/Nutch-1.0-dev
Bjaaland
BlackWidow
Blaiz-Bee/2.00.5622
Blaiz-Bee/2.00.5655
Blaiz-Bee/2.00.6082
Blaiz-Bee/2.00.8315
Bloodhound
boitho.com-dc/0.79
boitho.com-dc/0.83
boitho.com-dc/0.85
boitho.com-dc/0.86
Borg-Bot
BoxSeaBot
bright.net caching robot
BSpider
btbot/0.4
BuzzRankingBot/1.0
CACTVS Chemistry Spider
Calif
Cassandra
CazoodleBot a
CazoodleBot b
CazoodleBot c
CazoodleBot d
CazoodleBot-0.1
ubee/10.0
Cfetch
cfetch/1.0
ChangeDetection
changedetection/1.0
Charlotte/1.0b
Checkbot
ChristCrawler.com
churl
cIeNcIaFiCcIoN.nEt
City4you/1.3 Cesky
CJB.NET Proxy
CloakDetect/0.9
ClusoBotImage
ClusoBotImage/1.0
ClusoBotImage/1.0 b
ClusoBotOnline/1.0
ClusoBotOnline/1.0 b
Collective
Combine System
Combine/3
ComputingSite Robi
Conceptbot
ConfuzzledBot
ConveraCrawler 0.9d
ConveraCrawler 0.9e
ConveraMultiMediaCrawler/0.1
CoolBot
Crawllybot/0.1
Crawllybot/0.1 b
Crawllybot/0.1 c
csci_b659/0.13
Cusco
CyberSpyder Link Test
CydralSpider
DataFountains at Dmoz
DataFountains at Dmoz b
DataparkSearch/4.40
DAUMOA/1.0.0
DAUMOA/1.0.1
DAUMOA/1.0.1 b
del.icio.us-thumbnails/1.0
DepSpid
DepSpid/5.07
DepSpid/5.10
DepSpid/5.24
DepSpid/5.25
DepSpid/5.26
Desert Realm Spider
dev-spider2.searchpsider.com/1.3b
DeWeb(c) Katalog/Index
Die Blinde Kuh
DienstSpider
Digger
Digimarc MarcSpider
Digital Integrity Robot
Direct Hit Grabber
DNAbot
DownLoad Express
DragonBot
DuckDuckBot/1.0
DWCP
EARTHCOM.info/1.98
EARTHCOM.info/1.99
EARTHCOM.info/2.01
EARTHCOM.info/2.03
EARTHCOM.info/2.05
EARTHCOM.info/2.06
EARTHCOM.info/2.07
EARTHCOM.info/2.09
EARTHCOM.info/2.1
EARTHCOM/2.2
EbiNess
e-collector
EDI/1.6.5
EDI/1.6.6
EDI/1.6.6 b
egothor/11.0d
egothor/11.0d b
egothor/8.0f
egothor/8.0g
EIT Link Verifier Robot
ejupiter.com
ejupiter.com 43
ELFINBOT
Emacs-w3 Search Engine
EnaBot/1.1
EnaBot/1.2
Enterprise_Search/1.00.143
envolk/1.7
envolk/1.7 b
envolk/1.7 c
envolk[ITS]spider/1.6
esculapio
e-SocietyRobot
Esther
Evliya Celebi
Exabot Test/3.0
Exabot/2.0
Exabot/3.0
Exabot/3.0 b
Exabot-Images/1.0
Exabot-Images/3.0
Exabot-Test/1.0
ExactSEEK
Factbot 1.09
FAST Enterprise Crawler 6 at virk.dk
FAST Enterprise Crawler/6
FAST Enterprise Crawler/6.4
FAST MetaWeb Crawler
FastCrawler
favorstarbot/1.0
Feedster Crawler/3.0
Felix IDE
FetchRover
fido
Findexa Crawler
findlinks/0.966
findlinks/0.971
findlinks/0.973
findlinks/0.975
findlinks/0.976
findlinks/1.0
findlinks/1.0.8
findlinks/1.0.9
findlinks/1.0.9-a2
findlinks/1.01
findlinks/1.1
findlinks/1.1.1
findlinks/1.1.1-a1
findlinks/1.1.1-a2
findlinks/1.1.1-a5
findlinks/1.1.2-a2
findlinks/1.1.2-a3
findlinks/1.1.2-a4
findlinks/1.1.2-a5
findlinks/1.1.3-beta1
findlinks/1.1.3-beta2
findlinks/1.1.3-beta4
findlinks/1.1.3-beta6
findlinks/1.1.3-beta7
findlinks/1.1.3-beta8
findlinks/1.1.3-beta9
findlinks/1.1.4-beta1
findlinks/1.1-a4
findlinks/1.1-a5
findlinks/1.1-a7
findlinks/1.1-a8
findlinks/1.1-a9
Fish search
flatlandbot
flatlandbot b
flatlandbot c
flatlandbot d
Fluid Dynamics Search Engine robot
Forschungsportal/0.8-dev
Fouineur
Francis/2.0
Freecrawl
FunnelBack
FunnelWeb
FurlBot/Furl Search 2.0
FyberSpider/1.2
g2crawler
Gaisbot/3.0
Gaisbot/3.0 - 06
Gallent Search Spider v1.4 Robot 3
gammaSpider
gazz
GCreep
genieBot a
genieBot b
GetBot
GetterroboPlus Puu
GetURL
Giant/1.0
Gigabot
Gigabot/1.0
Gigabot/2.0
Gigabot/2.0 - b
Gigabot/2.0 - c
Gigabot/2.0 - d
Gigabot/2.0 b
Gigabot/3.0
Girafabot
Girafabot b
Girafabot c
GOFORITBOT
Golem
Griffon
Gromit
Gulper Bot
GurujiBot/1.0
GurujiBot/1.0 b
HamBot
Harvest
HatenaScreenshot/1.0 (checker)
havIndex
heeii/Nutch-0.9-dev at heeii.com
heritrix - webarchiv.cz_bot/1.12.1
heritrix at worio.com
heritrix/1.10.0 at worio.com
heritrix/1.10.1 at researcher.cz
heritrix/1.10.2 at i.stanford.edu
heritrix/1.10.2 at yacy.net
heritrix/1.10.2 at zvents.com
heritrix/1.12.1 at edu.org
heritrix/1.12.1 at netarkivet.dk
heritrix/1.12.1 at newstin.com
heritrix/1.12.1 at newtestbabes.com
heritrix/1.12.1 at page-store.com
heritrix/1.12.1 at page-store.com b
heritrix/1.12.1 at webarchiv.cz
heritrix/1.4.0 at webarchiv.cz
heritrix/1.6.0 at researcher.cz
heritrix/1.6.0 at webarchiv.cz
heritrix/1.6.0 at worio.com
heritrix/1.7.1 at netarkivet.dk
heritrix/1.7.3 at webarchiv.cz
heritrix/1.8.0 at crawlerx51.com
heritrix/1.8.0 at webarchiv.cz
heritrix/1.9.0 at webarchiv.cz
HI
HiddenMarket-1.0-beta
HKU WWW Octopus
hl_ftien_spider_v1.1
holmes/3.10 - morfeo
holmes/3.10.1 - onet.pl
holmes/3.11 - morfeo
holmes/3.11 - onet.pl
holmes/3.12 - morfeo
holmes/3.13 - morfeo
holmes/3.7 - morfeo
holmes/3.8 - morfeo
holmes/3.8 - morfeo B
holmes/3.9 - morfeo
holmes/3.9 - onet.pl
holmes/3.9 - onet.pl b
Hometown Spider Pro
HooWWWer/2.1.3
HooWWWer/2.2.0
ht://Dig
html_analyzer
HTMLgobble
Hyper-Decontextualizer
iajaBot
image.kapsi.net
Imagelock
IncyWincy
Informant
InfoSeek Robot
Infoseek Sidewinder
InfoSpiders
Ingrid
Inktomi Slurp
Inspector Web
IntelliAgent
Internet Cruiser Robot
Internet Shinchakubin
Iron33
Israeli-search
JavaBee
JBot Java Web Robot
JCrawler
Jeeves
Jobot
JoeBot
JumpStation
Katipo
KDD-Explorer
Kilroy
KIT-Fireball
KO_Yappo_Robot
LabelGrabber
larbin
legs
Link Validator
LinkScan
LinkWalker
Lockon
logo.gif Crawler
Lycos
Mac WWWWorm
Magpie
marvin
Mattie
MediaFox
MerzScope
MindCrawler
mnoGoSearch search engine software
moget
MOMspider
Monster
Motor
Muncher
Muninn
Muscat Ferret
Mwd.Search
NDSpider
NEC-MeshExplorer
Nederland.zoek
NetCarta WebMap Engine
Netcraft
NetMechanic
NetScoop
newscan-online
NHSE Web Forager
Nomad
Northern Light Gulliver
nzexplorer
ObjectsSearch
OntoSpider
Open Text Index Robot
Openfind data gatherer
Orb Search
Pack Rat
PageBoy
ParaSite
Patric
pegasus
PerlCrawler
PGP Key Agent
Phantom
PhpDig
PiltdownMan
Pioneer
Poppi
Popular Iconoclast
Portal Juice Spider
PortalB Spider
psbot
Raven Search
RBSE Spider
Resume Robot
RixBot
RoadHouse Crawling System
Robbie the Robot
RoboCrawl Spider
RoboFox
Robot
Robot Francoroute
Robozilla
Roverbot
RuLeS
SafetyNet Robot
Scooter
SearchProcess
Senrigan
SG-Scout
ShagSeeker
Shai’Hulud
Sift
Simmany Robot Ver
Site Searcher
Site Valet
SiteTech-Rover
Skymob.com
SLCrawler
Sleek
Smart Spider
Snooper
Solbot
Spanner
Speedy Spider
spider_monkey
SpiderBot
Spiderline Crawler
SpiderMan
SpiderView
Spry Wizard Robot
Suke
suntek search engine
Sven
Sygol
TACH Black Widow
Tarantula
tarspider
Tcl W Robot
TechBOT
Templeton
TeomaTechnologies
The Jubii Indexing Robot
The NorthStar Robot
The NWI Robot
The Peregrinator
The Python Robot
The TkWWW Robot
The Web Moose
The Web Wombat
The Webfoot Robot
the World Wide Web Wanderer
The World Wide Web Worm
TITAN
TitIn
TLSpider
UCSD Crawl
UdmSearch
UptimeBot
URL Check
URL Spider Pro
Valkyrie
Verticrawl
Victoria
vision-search
void-bot
Voyager
VWbot
Walhello appie
WallPaper
WebBandit Web Spider
WebCatcher
WebCopy
webfetcher
Webinator
weblayers
WebLinker
Weblog Monitor
WebMirror
WebQuest
WebReaper
webs
Websnarf
WebSpider
WebStolperer
WebVac
webwalk
WebWalker
WebWatch
WebZinger
Wget
whatUseek Winona
WhoWhere Robot
Wired Digital
WISENutbot
WM
wmir
WWWC
XGET
XYLEME Robot

Представляете, сколько они могут накачать? И даже если каждый из них скачает всего по мегабайту, в месяц счет пойдет на гигабайты, и ваш хостер попросит вас умерить пыл. С этим надо что-то делать.

Автор tiaurus 2182 Articles
Являюсь создателем n-wp.ru — блога о WordPress для новичков. Мне интересно многое, поэтому еще я сделал 123-box.ru — блог о программах для Windows, и tiaurus.info — блог о красоте.

12 Комментарии

  1. Я в нетерпении увидеть, что же Ваша светлая голова надумает для решения этой задачи) От количества ботов зашевелились остатки волос на макушке…

    • Уверяю вас, что это далеко не все. Это всего лишь видимая часть айсберга. Большинство ботов скрывают свое предназначение, не показывая user agent.

      • Остаётся надеяться, что большая часть фиксируемых счётчиком статистики посетителей моего блога не относится к этой орде “любопытствующих халявщиков”) А то руки опустятся… Или они статистикой не учитываются? Или фиксируются отчасти?

        • Смотря какая статистика. Самой правдивой обычно является статистика хостера – против нее не поспоришь.

  2. И они все реально лазят по блогу???? Ужас. Кстати, насчет мылру – в последнее время по кол-ву посетителей он догнал гугл у меня О_о Я очень удивлен- но факт…

    • Ну я не утверждаю, что его нужно отключить. Нужно смотреть по обстановке. Для n-wp.ru поисковик типа mail.ru бесполезен, для knitly.com – полезен. Но вот китайские поисковики точно бесполезны для всех моих блогов :) .

      Вот, например, список ботов с knitly.com только за один неполный день. Желтым отмечены те, от которых я бы хотел избавиться. Следует обратить внимание на создаваемый ими трафик – а ведь это нехилая нагрузка на сервер, за которую хостер меня постоянно ругает. Кстати, гулобот и яндекс тоже в последнее время выкачивают огромную массу контента, но с их прожорливостью я вынужден мириться (а куда деваться то?), а вот желтые боты мне точно не нужны.

      tiaurus | список ботов knitly.com
      http://imgur.com/Y4y4b.png

  3. А если их, например, вот так через .htaccess?

    RewriteEngine On
    RewriteCond %{HTTP_USER_AGENT} 5IBM_Planetwide [OR]
    RewriteRule . – [F,L]

    • Конечно, можно таким ботам запретить доступ и через htaccess (даже нужно) – главное знать их правильное название.

Оставить комментарий

Ваш электронный адрес не будет опубликован.


*