Файл robots.txt: управляем индексацией блога

robots.txt.В продвижении сайта — главное, научиться управлять индексацией. Самым простым инструментом, с помощью которого можно это сделать  является файл  robots.txt. Если вы «пройдетесь» по   самым известным блогам  , то увидите , что все они имеют файл robots.txt.

Как вам это узнать?  Например, вы можете посмотреть, как выглядит этот файл на моем блоге: сайт.ru/robots.txt. Аналогичным образом  можно посмотреть указанный файл на любом блоге.

Если вы сравните найденные файлы, то наверняка увидите, что они отличаются  друг от друга. Ну что , еще больше запутались? Верю. Сама  такая была.

На самом деле ничего сложного. Сейчас попробуем разобраться.

Конечно, самый простой вариант  для новичков -это «спионерить»  файл на блоге, в котором вы уверены и заменив данные host и карты приспособить под себя.

Но иметь общие представления о том, что это такое и почему в нем прописано именно так , а не иначе, обязан каждый блоггер.

Так что, дорогие читатели , переходим  к ликбезу.

Прежде всего ,нужно понять, что  файл robots.txt  нужен  для того, чтобы запрещать индексацию разделов или страниц вашего сайта той или иной поисковой системой.

Зачем роботу видеть ваши служебные записи и другие файлы, которые предназначены для вашего внутреннего использования,архивы и т.д.?

Это как дома.У вас же гости не дергают все двери и не заглядывают в барабан стиральной машинки в поисках чего-то?Есть вещи, которые им видеть не нужно.

Точно также все происходит и на вашем блоге.

fail robots.txt.Вначале поисковый робот обращается к файлу  robots.txt, где смотрит не запрещен ли блог к индексации, а затем только обращается к главной странице  вашего блога.

Посмотрим , что находится в  файле robots.txt

Директива «User-agent» .Здесь мы прописываем  название поискового робота, к которому обращаемся.
Например: User-agent: Yandex. Т.е. здесь обращение именно к Яндексу.
Если запись имеет следующий вид: User-agent: * Речь идет об обращении ко всем поисковым системам.

Рассмотрим  следующую директиву: Disallow

Записи в этой директиве  говорят поисковому роботу , указанному нами в директиве User-agent, что ему нельзя индексировать.

Если прописано  Disallow:  Это значит, что  все полностью разрешено к индексации.
Т.е. если файл  robots.txt у вас имеет следующий вид:

User-agent: *

Disallow:

Это значит, всем поисковым системам разрешено индексировать все. Это не очень хорошо для блога. Потому, что при таком подходе, у вас есть дублированный контент. А это очень не любят поисковики.

Кстати , отсутствие вообще файла эквивалетно разрешению индексировать все.

Идем дальше.

Например, вы  хотите закрыть от индексации полностью директорию.Тогда выглядит это следующим образом:
Disallow: /cgi-bin/

Disallow: /forum/

Или же ,к индексации запрещен файл  под именем file.htm, находящийся в корневой директории и  файл file1, находящийся в директории dir

Disallow: /file.htm

Disallow: /dir/file1.htm

А запись такого вида:

Disallow: /dir  означает, что запрещены к индексации  все файлы и директории, начинающиеся на  dir.

Есть еще одна директива-  Host.Но ее поддерживает только поисковая система Яндекс. Прописывается она сразу после директивы Disallow. Нужна она для определения зеркала сайта. Правильно прописывать ее  без http и наклонных слешей.

Есть определенные правила написания самого файла: прописывается  только  в нижнем  регистре:
robots.txt – правильно, Robots.txt или ROBOTS.TXT – не правильно.

Создается в текстовом  формате и закачивается  в корневой каталог блога.

Правильно ли составлен файл  robots.txt можно проверить в Яндекс.Вебмастер. Кстати, там же можно проверить, имеется ли запрет на индексацию конкретного  URL.

Друзья, я думаю, для начала знакомства с файлом robots.txt вполне достаточно. Теперь читая файл robots.txt вы будете понимать о чем идет речь.

Чуть не забыла сказать об одной очень важной вещи: если у вас не было этого файла и вы его установили  на действующий блог или же вы  изменили имеющийся у вас файл robots.txt- обязательно произойдет переиндексация вашего блога. За это время часть страниц может  выпасть из индекса. Не волнуйтесь. Это будет продолжаться примерно 2-3-недели.А затем все стабилизируется. Ваш блог будет нормально индексироваться с учетом ваших пожеланий, изложенных в файле  robots.txt.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *