Пауки и robots.txt

Сразу скажем, что вывод сделанный автором еще до начала работы над материалом удивил. Хотя автор не сказал ничего такого чего мы не знали. Наоборот, мы знали это, но не придавали особого значения этому знанию. Теперь и ты будешь знать это.

Чтобы не ходить вокруг да около скажем прямо - мы привыкли, что паутина появляется тогда когда есть паук. Вот он шел, шел и пришел в темный угол. Задумался. А не сплести ли в этом углу что-нибудь липкое белого цвета типа паутины? И в тот момент когда он обойдя угол со всех сторон понимает, что место выбрано замечательное, он начинает делать то, что у него получается лучше всего и даже лучше бабы Маши, хозяйки этого темного угла да и дома вцелом. Он начинает плести паутину.

Когда людей осенило и они придумав протокол и соединив несколько компьтеров в сеть получили ARPANet, а затем соединив еще больше компьютеров и сделав сеть общедоступной получили Интернет, тогда им захотелось выдумать какое-то название для всего этого получившегося. И как водится, нашелся умник, который посмотрел одним глазом на схему соединения компьютеров в сеть, а другим в угол квартиры бабы Маши, в глаза тому пауку, который в нем сидел. А рядом стояло много народу и они ломали голову над названием. Вдруг умник собрал свои глаза в кучу и указал пальцем на паука. "Паутина" - произнес он. Народ оживился. Каждый считал своим долгом произнести - "Черт возьми, ну как же я сам не догадался!". Чертыхаясь, каждый бил себя в лоб и поздравлял умника с тем, что он(умник) оказывается, помимо всего прочего, еще и молодец. Так привычная нам глобальная сеть Интернет, стала называтся Всемирной паутиной.

А в чем соль? Резонно спросишь ты. А соль в солонке, а истина в вине. Суть же в том, что в нормальном мире, паутина появляется вместе с пауком, а в виртуальном - сначала появилась паутина, а затем - пауки. Вот ради этой одной строчки нам и понадобились трое сценаристов из Голливуда, для написания двух абзацев. Работали они за еду, так что как дочитаешь вышли нам два гамбургера, среднюю картошку и три больших колы, обязательно со льдом.

Зачем нужны пауки в Интернете? А затем, что поисковые системы нуждаются в данных в которых между прочим и будет производится поиск. Если тебя в базе нет, тебя не найдут. Но зарегистрировавшись в общественном каталоге(наше мнение о каталогах читай здесь), попросту базе ресурсов Интернет, где, кстати, все, еще и по полочкам разложено - Сети, Дом, Автомобили и прочее, есть вероятность, что тебя таки найдут. Хороший паук просматривает в день до 40 миллионов страниц. Шустро, правда? Подчеркнем, страниц, а не сайтов. Их действия в основном сводятся к четырем пунктам:

  • Осмотр свежедобавленных в каталог сайтов на наличие содержимого для индексирования, метаданных, венерических болезней администратора сайта и добавление этой информации на все сайты знакомств;
  • Добавление в базу данных, нового, непроиндексированного содержимого;
  • Проверка наличия уже добавленного в базу содержимого и контроль наличия сайта вообще на просторах сети Интернет;
  • Сбор картинок находящихся на сайте.
Примечание: Автор как-то вяло написал про сбор картинок. На самом деле тема очень с недавнего времени. Давным-давно такой функции не было, а то, что сейчас реализовано позволяет по текстовому запросу найти необходимую картинку. Например, захотел я как-то отыскать фото спутниковой тарелки. В поиске так и написал - Спутниковая тарелка, и вот целых сто страниц вывело на раз. Занятное дело, однако, выбирать ту картинку, которая понравилась. Минусом является, что захватываются абсолютно все картинки, из-за этого много из них в плохом качестве или просто мусор. Но вот в гугле реализовано удобно - можно сразу отсортировать по разрешению картинки, чтоб мелкий шлак ушел сразу. Или наоборот большой шлак, если ищется иконка, например.

Роботы которые трудятся на стороне добра, подчиняются принятому стандарту, который в принципе не обязателен на самом деле. Некоторые выдержки из него мы приведем здесь. Вместо вступления скажем - по умолчанию роботы собирают все, что найдут. Поэтому стандарт имеет характер запрещения. Другими словами, надо пометить то, что нельзя смотреть, а остальное значит льзя. Как же пауку дать план действий по выявлению нельзей? Черным по белому в стандарте написано - набор правил для робота, для каждого отдельного сайта лежит в корне сайта(т.е. вот так break-people.ru/robots.txt). Этот набор в сущности представляет текстовый файл с именем robots.txt. Именно так, и никак иначе. Еще раз - ни robot.txt, ни robotz.txt, ни roboteg.txt, ни какой либо другой, кроме robots.txt. Стандарт предусматривает нехитрый набор инструкций, которые глупо объяснять без примера. Вот пример, например:

User-agent: *
Disallow: /scripts/
Disallow: /my_data/scripts/
Disallow: /tmp/
Disallow: /cgi-bin/

User-agent: Yandex #действует только на Яндекс-бота
Host: break-people.ru

Итак мы имеем целых три инструкции. Что они делают видно сразу, но мы все-таки поясним:

  • User-agent - позволяет настроить правила для каждого робота в отдельности. *(звездочка) указывает, что данные инструкции обязательны для каждого посетившего вас паука. Если вместо звездочки стоит имя паука, например, Yandex то эти правила описанные ниже только для него писаны. Разумеется это распространяется только на тех кто соблюдает стандарт;
  • Disallow - Запрет для робота индексировать содержимое, если путь к нему содержит название запрещенной папки. Еще раз - если есть break-people.ru/scripts/ и break-people.ru/my_data/scripts/, то папка скриптов в обоих случаях не будет проиндексирована при правиле Disallow: /scripts/. Но это правило не запрещает проиндексировать папку /my_data/. Ставь слэш слева от названия папки и справа, тогда будешь точно уверен, что добрый робот не зайдет;
  • Host - инструкция позволяет указать место где находится главное местоположение сайта. Это полезно когда у сайта есть несколько зеркал;
  • # - это позволяет использовать комментарии в файле. Роботы их игнорируют при чтении.
Примечание: Опять автор недоговаривает. Если описывать правила для нескольких роботов в отдельности, то возникает вопрос как разделять эти блоки. А никак. Каждый набор правил является замкнутой секцией, где начало и конец являют собой инструкции User-agent. Ну, а если интсрукция User-agent одна, то робот за конец секции принимает конец файла. Все просто. И важное под конец - если ты хочешь, чтоб закрыть абсолютно весь сайт от индексации, то пиши так:
User-agent: *
Disallow: /
Этот набор запретит всем добрым паукам индексировать твой сайт наверняка.

Но есть и роботы помогающие злу. Например, касте спамеров или тем кто ворует содержимое. Им никакие правила кажется не писаны. Разве, что те, которые разработчиком установлены. И как мы выяснили правила эти сводятся к одному - тащи все, что есть, потом разберемся. Так они и утаскивают, например, контактную информацию - e-mail, номера асек, джаббер аккаунт и прочее. А потом лезут с навязчивым спамом по всем доступным каналам.

В заключение добавим. Пауков очень много развелось. Ради спортивного интереса мы будем отслеживать их в логах апача и выкладывать на вот эту страничку. Также будем добавлять и информацию по ним, нагугленную или достатую иным путем. Удачи!

P.S. Если файла инструкций robots.txt нет, то робот по-умолчанию индексирует все, что видит. В Интернете насчитывается свыше 300 роботов официально...




Ссылки:

К содержанию

© Copyright 2004-2017 - CMS Made Simple
Сайт работает на CMS Made Simple version 1.4.1

© Все печеньки Break-people.ru принадлежат авторам проекта.

Яндекс цитирования Рейтинг@Mail.ru Яндекс.Метрика