uk en pl it
Web Monarx
BACK NEXT

Файл robots.txt. Что это такое и как его правильно составить


Файл robots.txt - это файл ограничения доступа к содержимому поисковыми роботам на http-сервере. Файл должен находиться в корне сайта (т.е. иметь путь относительно имени сайта /robots.txt). Данный файл не является обязательной составляющей сайта. Его может вообще и не быть. Но если Ваш сайт имеет какие-то скрытые страницы или файлы, которые Вы хотите закрыть их от индексации поисковыми системами, тогда файл robots.txt Вам просто необходим.

Именно этот файл поисковики ищут первым делом перед индексацией Вашего сайта для того, чтобы узнать, что нужно индексировать, а что нет. Делается это при помощи специальных команд. А именно:

User-agent: - после двоеточия Вы указываете название поискового робота определенной поисковой системы, для которой будут прописываться все последующие команды. Обычно после двоеточия прописывается просто звездочка: User-agent:*. Это обозначает, что последующие команды будут касаться всех поисковых систем. Например:

1 User-agent: googlebot

Ниже приведен список роботов самых популярных поисковиков:

  • Google Googlebot
  • Yahoo! Slurp (или Yahoo! Slurp)
  • AOL http://www.aol.com Slurp
  • MSN http://www.msn.com MSNBot
  • Live http://www.live.com MSNBot
  • Ask http://www.ask.com Teoma
  • AltaVista http://www.altavista.com Scooter
  • Alexa http://www.alexa.com ia_archiver
  • Lycos http://www.lycos.com Lycos
  • Яндекс http://www.ya.ru Yandex
  • Рамблер http://www.rambler.ru StackRambler
  • Мэйл.ру http://mail.ru Mail.Ru
  • Aport http://www.aport.ru Aport
  • Вебальта http://www.webalta.ru WebAlta (WebAlta Crawler/2.0)

Disallow: - после двоеточия прописывается файл или папка, доступ к которой вы хотите запретить. Например, следующая директива запрещает паукам индексировать файл product_1.php

1 Disallow: product_1.php

Если директива Disallow будет пустой, это значит, что робот может индексировать все файлы. Как минимум одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы robots.txt считался верным. Полностью пустой robots.txt означает то же самое, как если бы его не было вообще.

Стоит отметить, что нет команды разрешающей индексацию, поэтому если Вы хотите сделать доступной для поиска всего одну страницу сайта, а остальные запретить, то придется все их прописать.

Вот еще несколько примеров файла robots.txt

Следующая запись в файле robots.txt разрешает всем роботам индексировать все ресурсы сайта:

1 User-agent: *
2 Disallow:

А эта запись наоборот запрещает всем роботам это делать

1 User-agent: *
2 Disallow: /

А данная директива запрещает поисковому роботу Googlebot индексировать каталог images и products:

1 User-agent: googlebot
2 Disallow: /images/
3 Disallow: /products/

Можно также использовать команду allow, например:

1 Allow:/images/common/
2 Disallow:/images/

Такая запись будет означать, что в закрытой для индексации папке images будет доступна к индексации папка common. Следует заметить, что поле Allow всегда должно стоять раньше директивы Disallow.

Host: - используется для определения основного зеркала сайта. Вы на верное уже знаете, что URL одного и того же сайта можно прописать как с www так и без. Но это для нас он один и тот же, а для поисковых машин - это вполне может оказаться два разных ресурса.

Поэтому Яндекс без проблем может поделить тИЦ Вашего сайта на два: первая половина достанется домену без www, вторая с www. Это называется двуличность домена и для того, чтобы ее избежать и существует команда Host:, где после двоеточия прописывается желаемый Вами домен с www или без, например:

1 Host: biznesguide.ru

Следует отметить, что это все нужно прописывать до того, как Ваш сайт проиндексируют поисковые системы, иначе сайту можно навредить. Если же сайт уже проиндексировали поисковики, тогда посмотрите, как они это сделали с www или без и пропишите соответственно в команде Host:.

Также важно помнить, что если вы хотите, чтобы поисковая система "Яндекс" приняла во внимание директиву Host в вашей файле, то создайте одинаковые файлы robots.txt на всех "зеркалах" сайта. Только тогда зеркальщик "Яндекс" выделит главное зеркало, согласно данным в Host.

Sitemap: - данная директива позволяет поисковой системе указать, где находится специальным образом сгенерированная карта Sitemap для сайта, что помогает снять обязанность веб-мастеров каждый раз загружать новую карту Sitemap на сервер поисковой системе и позволить поисковой системе самой загружать Sitemap с сайта. Возможность использования директивы в настоящий момент поддерживается в Google, Yahoo, Ask, Bing и "Яндекс", например:

1 Sitemap: http://mysity.ru/sitemap.xml

Если файлов карты сайта несколько, то их нужно перечислить все:

1 Sitemap: http://mysity.ru/sitemap_1.xml>
2 Sitemap: http://mysity.ru/sitemap_2.xml

Это основные директивы файла robots.txt, которые понимают практически все поисковые роботы. Но некоторые поисковые системы используют собственные "информационные" директивы. 

Например, в поисковой системе "Яндекс" введена директива Clean-param, при помощи которой веб-мастер может указать, как индексировать динамические параметры, которые не влияют на содержание страницы. Это могут быть различные идентификаторы сессий, пользователей и т. д., что увеличивает эффективность индексации страницы.  Более подробно читайте на сайте "Яндекс" здесь.

Ну вот пожалуй и все, что я хотел Вам рассказать о файле robots.txt. Если что-то упустил, пишите в комментариях!

 

Сайт является частным собранием материалов и представляет собой любительский информационно-образовательный ресурс. Вся информация получена из открытых источников. Администрация не претендует на авторство использованных материалов. Все права принадлежат их правообладателям