Поисковый робот

12Июл - by admingenri - 1 - In поисковые системы

Поисковый робот: что это такое и как он работает 

poisk robotyПоисковые роботы (боты) представляют собой специальные программы, постоянно сканирующие Всемирную паутину. Теперь я сделаю небольшое уточнение, поскольку многие это понятие трактуют не совсем правильно, а именно – эти программы сканируют только текстовый контент (проще говоря, тексты), Web-страницы сайтов на языках html, shtml, hml, htm и т.п.

Другие файлы, к которым относятся графика, видео, музыка, архивы поисковый робот не трогает. Многие пользователи часто употребляют вместо названия робот – поисковая машина, поисковик, но это не правильно.

Поисковая машина в упрощенном варианте представляет собой комплекс элементов, которые тесно связаны и куда входят:

  1. 1. Spider (поисковый робот (паук) – программа напоминающая браузер, которая скачивает web-страницы.
  2. 2. Cravler (путешествующий робот (бот) – программа автоматически проходящая по ссылкам находящимся на web-странице.
  3. 3. Indexer (индексатор) – программа, анализирующая скаченные Spider web-страницы.
  4. 4. Database (база данных) – в ней накапливаются и сохраняются скаченные и обработанные страницы.
  5. 5. Search engine results engine (система, выдающая результаты) – извлекающая из базы данных необходимую информацию для пользователя.
  6. 6. Web-server – сервер, при помощи которого осуществляется уже непосредственное взаимодействие между элементами поисковой машины и пользователем.

Поисковые механизмы могут различаться по своему составу. К примеру, может быть составлена программка: Spider+Indexer+Crawler, задача которой скачивать уже известные web-страницы, производить их анализ и по ссылкам искать новые web-сайты.

Для чего нужен поисковый робот?

Все знают, что Интернет – это огромная мировая сеть, которая содержит очень большое количество нужной и ненужной информации, и в этом океане информации как-то необходимо ориентироваться. А точнее, нужно предоставить возможность людям отыскать в нужный момент, нужную информацию. Вот для этого и нужна поисковая машина и ее поисковый робот.
Для того чтобы поисковая машина знала, что и где (по какому адресу) лежит в Сети, ей необходимо вначале просмотреть все web-сайты, собрать всю информацию и занести ее в свою базу данных. Вот всю эту «черную» работу, как раз и выполняют поисковые боты.

Поскольку информация в Интернете постоянно обновляется, то роботы постоянно просматривают все ресурсы. Появляются новые сайты, прекращают свою работу другие, а в базу данных необходимо вносить постоянно все изменения, которые происходят во Всемирной паутине, иначе буквально через неделю в ответ на запрос пользователя, ему будет предоставлена устаревшая и ненужная информация.

Чем мощнее сервер, на котором располагается программа, тем больше она сможет просмотреть количество страниц за определенное время (минуту, час, сутки). Этот просмотр web-страниц называется индексацией. После того, как поисковый робот просмотрит все страницы ресурса, будет считаться, что сайт проиндексирован. Согласитесь, что просто уму непостижимо – сколько находится в Сети web-страничек и вот как роботу удается все их обойти?

Дело в том, что роботы поисковых машин настроены таким образом, чтобы посещать разные сайты с различным интервалом. Если ресурс часто обновляется, то и робот его будет посещать часто, но, если, посещая сайт раз за разом, робот на нем не находит никаких изменений, то в дальнейшем частота посещений снижается. В итоге может произойти так, что поисковый робот будет заходить на ресурс один раз в месяц.

Как поисковый робот ориентируется во Всемирной паутине?

Продвижение робота от проекта к проекту происходит по ссылкам. Робот, просматривая web-сайт в очередной раз в поисках нового контента, замечает на страницах расположенные ссылки. Кое-какие уже занесены в базу данных, а кое-какие он находит впервые. И вот в этом случае он моментально переходит на другой сайт по этой ссылке, а может просто занести ее в «список» заданий и вернуться к ней позже.

И в заключении немного о том, как правильно управлять поисковым роботом. Управление осуществляется через файл robots.txt, в котором вы прописываете все необходимые исключения и инструкции, для контроля над их поведением на вашем проекте. К этому нужно отнестись очень серьезно, поскольку поисковый робот – это важный элемент, от которого непосредственно зависит судьба вашего сайта, это касается его ранжирования, индексации и монетизации. Помните, ваш проект должен нравиться поисковым роботам!

Понятие «поисковый робот»

ponjatie robotПонятие «поисковый робот» подразумевает специальную программу, которая проходит по гипертекстовым ссылкам и извлекает с web-страниц того или иного сайта информацию, занося ее в индекс поисковых систем.

Каждый поисковый робот имеет свое уникальное имя: краулер, web crawler, поисковый паук, automatic indexer, ant, web spider, web scutter . Эти имена встречаются в русскоязычном и англоязычном интернете.

Чем занимаются роботы поисковых систем

Как я уже и говорила, каждый поисковый робот обладает своим уникальным именем, а это означает, что у каждого из них есть своя определенная задача.

Давайте рассмотрим, какие функции на них возложены:

• индексация;
• запрос данных RSS (сбор информации);
• поиск ссылок;
• мониторинг обновлений;
• запрос на доступ к сайту;
• запрос разрешения для анализа контента;
• запрос на обработку и извлечение страниц.

К примеру, Yandex имеет в своем арсенале несколько поисковых роботов, каждый из которых в отдельности анализирует, индексирует, проводит сбор данных о следующей информации:

• файл robots.txt;
• xml-файлы;
• картинки и видео;
• зеркало сайта;
• фавикон;
• комментарии и т.д.

По сути, роботы поисковых систем всего-навсего посещают web-ресурсы, собирают необходимую информацию и затем передают ее индексатору поисковой машины. А вот эта самая машина и обрабатывает эти данные, создавая надлежащим образом индекс поисковой выдачи. Я бы даже сказала, что поисковый робот – это всего лишь курьер, которому поручено собирать определенную информацию.

Как ведут себя роботы поисковых систем и как ими управлять

Поведение поисковых роботов от поведения посетителей на сайте, несомненно, отличается и вот чем:

1. Что касается управления. Во-первых, поисковый бот запрашивает с вашего хоста файл robots.txt, в котором вы, надеюсь, указали, что ему можно и что нельзя индексировать.
2. Отличительная черта бота – скорость. Промежуток времени между запросами к двум различным документам составляет буквально доли секунды. Для этого существует специальное правило (можно задать определенный временной интервал между посещениями), которое по вашему желанию можно указать в robots.txt. Это делается для того, чтобы уменьшить нагрузку на сервер.
3. Непредсказуемость роботов поисковых систем. Проследить бота, откуда он пришел, когда пришел и его действия практически невозможно. Он действует по своей программе, в том порядке, как вы создали очередь индексации.
4. Стоит отметить такой момент, что поисковый робот, во-первых, обращается к текстовым и гипертекстовым документам, а не ко всяким файлам, которые относятся к оформлению CSS и т.п.

Предлагаю вам взглянуть на страницу вашего сайта глазами роботов поисковых систем. Для этого отключите в браузере Flash-отображения стилей оформления и картинок. И перед вами предстанет картина страницы глазами поискового робота.

Вам станет ясно, что бот заносит в индекс HTML-код данной страницы, отбрасывая картинки и прочее содержание.

В заключение скажу несколько слов о том, как управлять роботами поисковых систем. Рычаги управления ботами заложены в файле robots.txt. Кстати, вы создаете их сами, прописывая необходимые исключения и инструкции, контролируя поведение ботов на вашем сайте. Поэтому советую к этому моменту отнестись внимательно! Поскольку поисковые роботы представляют важную составляющую ПС, которая напрямую связана с судьбой вашего ресурса. Это касается индексации, монетизации, ранжирования и других важных моментов.

One thought on “Поисковый робот”

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *