Список отловленных роботов

Статья в стадии постоянной разработки

Апач расставил свои сети и мы в них ловим пауков. Ловим и изучаем в лаборатории для опытов.

Yandex

Yandex/1.01.001 (compatible; Win16; I) - основной индексирующий робот
Yandex/1.01.001 (compatible; Win16; P) - индексатор картинок
Yandex/1.01.001 (compatible; Win16; H) - робот, определяющий зеркала сайтов Yandex/1.02.000 (compatible; Win16; F) - робот, индексирующий пиктограммы сайтов (favicons)
Yandex/1.03.003 (compatible; Win16; D) - робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
YandexBot/3.0 - Основной индексирующий робот для yandex.com. Видимо пришел на смену всем прежним Yandex роботам. Работает один.

Google

Googlebot/2.1 - Основной индексирующий робот
Googlebot-Image/1.0 - Индексатор картинок

Rambler

StackRambler/2.0 - Основной индексирующий робот

WebAlta

WebAlta Crawler/2.0 (http://www.webalta.net/ru/about_webmaster.html) - Основной индексирующий робот

MSN/Live

msnbot-media/1.0 (+http://search.msn.com/msnbot.htm) - Основной индексирующий робот.
Ест все подряд. Только тормоз какой-то. Месяца два просто приходил и смотрел robots.txt. А потом что-то перемкнуло видать и начал индексировать.
msnbot/2.0b (+http://search.msn.com/msnbot.htm) - Видимо пришел на замену первому роботу.

Aport

AportWorm/3.2 - Читает robots.txt сайта
AportCatalogRobot/2.0 - Индексирующий робот Апорт каталога

Bing

bingbot/2.0 (+http://www.bing.com/bingbot.htm) - Основной индексирующий робот. Ест все подряд. Для www.bing.com

Ask Jeeves/Teoma

Teoma (+http://about.ask.com/en/docs/about/webmasters.shtml) - Основной индексирующий робот. Ест все подряд. Сначала правда, съел robots.txt и пропал. Где-то через недели две, пришел и стал есть всё. Для www.ask.com

Неизвестные. Описывается только активность и то откуда пришли

Test spider - Пришел. IP адрес указал на www.liveinternet.ru. Посмотрел robots.txt и ушел. Как-то по-английски;)
Есть подозрения, что теперь этот робот называется LiveInternet spider. Действия пока те же.
GTS_Crawler/0.7.3 - Пришел. IP адрес указал, что пришли из Moscow State University(подозреваем, что МГУ балуется). Считал корень. Видимо хорошим манерам не научен, robots.txt даже не трогал. Сразу ушел. Возможно, ищет живые сайты методом перебора, хотя это вряд ли.
Yanga WorldSearch Bot v1.1/beta - Пришел. Считал robots.txt. Оставил координаты на свою поисковую страницу. Вот за это уважение - сразу видно для чего робот пришел, для поисковой машины собирает данные. Адрес поисковика - http://www.yanga.co.uk/ . Британцы значит приютили;)
Twiceler-0.9 Пришел. Сразу дернул robots.txt. Оставил свою контактную информацию и ушел. Позже было выяснено - он так тыкает в сайты, чтобы добавить их в базу для индексации. Видимо потом придет и проиндексирует. Создатели уверяют, что в их базе уже более 120 миллиардов страниц. Информация об используемых IP и кое-что еще найдена тут - http://www.cuil.com/twiceler/robot.html.
SimilarPages/Nutch-1.0-dev Пришел. Спросил robots.txt и ушёл. Но приходил только на форум. Исходя из названия ищет похожие страницы и возможно, это какой-то антиплагиатный робот. Ссылка оставленная им мало, что прояснила. Быть может скоро там появится больше информации. http://www.similarpages.com.
Worio Пришел. Сразу почему-то полез в раздел Webmin по-русски. И больше никакой активности. Ссылка оставленная им, приводит на страницу поисковой страницы Worio. Посмотрим, может это новый суперпоиск. http://www.worio.com. Да, кстати. Пришел он со своей заглавной страницы. Как будто ходит по сайтам уже готовой базы адресов.
DotBot Пришел. Сразу начал лезть по всем страницам сайта. Зашел на главную и по-всем пошел. Без перерыва на обед. Пока всё не съел, не ушёл. Оставил о себе ссылку DotBot/1.1; http://www.dotnetdotcom.org/, crawler@dotnetdotcom.org. Согласно сайта, это группа ребят из Сиэттла написали робота и запустили его в Интернет. Нафига только? Сайт на английском.
Plukkie/1.3 Пришел. Сразу спросил robots.txt и корень сайта. Ушел. Пройдя по ссылке которую он оставил не увидели мы, что он должен индексировать Рунет. Создатели обещают новые мегасупер поисковик. Будем наблюдать. Ссылка http://www.botje.com/plukkie.htm, сайт на английском.



Ссылки:

К содержанию

© Copyright 2004-2017 - CMS Made Simple
Сайт работает на CMS Made Simple version 1.4.1

© Все печеньки Break-people.ru принадлежат авторам проекта.

Яндекс цитирования Рейтинг@Mail.ru Яндекс.Метрика