uk en pl it
Web Monarx
BACK NEXT

Блокировка и удаление страниц с помощью файла robots.txt


Инструмент создания файла robots.txt будет удален из Инструментов для веб-мастеров. Вы можете создать файл robots.txt вручную или воспользоваться одним из множества инструментов создания файла robots.txt в Интернете.

Файл robots.txt позволяет ограничить доступ к сайту для роботов поисковых систем, сканирующих Интернет. Перед обращением к сайту эти роботы ищут файл robots.txt, который запрещает им доступ к определенным страницам. (Роботы наиболее распространенных поисковых систем выполняют директивы файла robots.txt. Некоторые роботы могут интерпретировать их иначе. Файл robots.txt не является обязательным к исполнению, и некоторые спамеры и другие злоумышленники могут его игнорировать. Поэтому мы рекомендуем защищать конфиденциальную информацию паролем.)

Чтобы просмотреть список URL, которые Google не удалось просканировать, перейдите на страницу Заблокированные URL в разделе Состояние в Инструментах для веб-мастеров.

Файл robots.txt необходим только в том случае, если на вашем сайте есть содержание, которое не следует включать в индекс поисковых систем. Если вы хотите, чтобы поисковые системы включали в свои индексы все содержание вашего сайта, файл robots.txt (даже пустой) не требуется.

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.

Чтобы использовать файл robots.txt, необходимо иметь доступ к корневому каталогу вашего домена (в случае сомнений обратитесь к поставщику услуг веб-хостинга). Если у вас нет доступа к корневому каталогу домена, вы можете ограничить доступ с помощью метатега robots.

Чтобы полностью исключить вероятность появления контента страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex или x-robots-tag. По мере сканирования страниц, робот Googlebot обнаружит метатег noindex и не станет отображать страницу в индексе. HTTP-заголовок x-robots-tag рекомендуется использовать, чтобы исключить из индекса файлы, формат которых отличается от HTML (например, изображения или другие типы документов).

Создание файла robots.txt вручную

В простейшем файле robots.txt используются два правила:

  • User-agent: агент пользователя, робот, к которому применяется следующее правило.
  • Disallow: URL, которые необходимо заблокировать.

Эти две строки рассматриваются как одна запись. Можно включить любое необходимое число записей, в каждой из которых может содержаться несколько строк Disallow и User-agent.

Каждый раздел файла robots.txt обрабатывается отдельно; содержание предыдущих разделов не учитывается. Например:

User-agent: *
Disallow: /folder1/
User-agent: Googlebot
Disallow: /folder2/

В этом примере для поискового робота Googlebot будут запрещены только URL, включающие /folder2/.

Агенты пользователя User-agent и другие роботы

User-agent – это специальный робот поисковой системы. В базе данных роботов Интернета перечислено множество основных роботов. Можно задать запись для применения к конкретному роботу (указав его название) или указать, что она должна применяться ко всем роботам (с помощью звездочки). Запись, которая применяется ко всем роботам, выглядит следующим образом:

User-agent: *

В Google используются несколько различных роботов (User-agent). Робот, используемый для поиска в Интернете, называется Googlebot. Другие наши роботы, например Googlebot-Mobile и Googlebot-Image, следуют правилам, заданным для робота Googlebot, однако для них можно указать отдельные правила.

Блокирование роботов User-agent

В строке Disallow перечисляются страницы, которые необходимо заблокировать. Можно указать конкретный URL или шаблон. Ввод должен начинаться с косой черты (/).

  • Чтобы заблокировать весь сайт, используйте одну косую черту.
    Disallow: /
  • Чтобы заблокировать каталог и все его содержание, введите название каталога и косую черту.
    Disallow: /nenuzhnyj-katalog/
  • Чтобы заблокировать страницу, укажите эту страницу.
    Disallow: /lichnyj_file.php
  • Чтобы удалить какое-либо изображение из Картинок Google, добавьте следующие строки:
    User-agent: Googlebot-Image
    Disallow: /images/dogs.jpg 
  • Чтобы удалить все изображения с вашего сайта из Картинок Google, добавьте следующие строки:
    User-agent: Googlebot-Image
    Disallow: / 
  • Чтобы заблокировать все файлы определенного типа (например, GIF), используйте такую запись:
    User-agent: Googlebot
    Disallow: /*.gif$
  • Чтобы предотвратить сканирование страниц вашего сайта, но сохранить отображение объявлений AdSense на этих страницах, запретите доступ всех роботов, кроме Mediapartners-Google. Это предотвращает появление страниц в результатах поиска, позволяя роботу Mediapartners-Google анализировать страницы, чтобы определить, какие объявления нужно показывать. Робот Mediapartners-Google имеет отдельный доступ к страницам, независимый от других агентов Google. Рассмотрим пример.
    User-agent: *
    Disallow: /
    User-agent: Mediapartners-Google
    Allow: /

Помните, что в командах учитывается регистр. Например, команда Disallow: /junk_file.asp заблокирует файл http://www.example.com/junk_file.asp, но пропустит файл http://www.example.com/Junk_file.asp. Поисковый робот Googlebot игнорирует пробелы (в пустых строках) и неизвестные директивы в файле robots.txt.

Googlebot поддерживает отправку файлов Sitemap через файл robots.txt.

Соответствие шаблону

Робот Googlebot (но не все поисковые системы) распознает некоторые типы соответствия шаблону.

  • Чтобы обозначить последовательность символов, используйте звездочку (*). Например, чтобы заблокировать доступ ко всем подкаталогам, название которых начинается с private, добавьте следующие строки:
    User-agent: Googlebot
    Disallow: /private*/
  • Чтобы заблокировать доступ ко всем URL, которые содержат вопросительный знак (?) (то есть ко всем URL, которые начинаются с имени домена и содержат вопросительный знак), добавьте в файл robots.txt следующую запись:
    User-agent: Googlebot
    Disallow: /*?
  • Чтобы задать соответствие конечных символов URL-адреса, используйте символ $. Например, чтобы заблокировать доступ к URL, оканчивающемуся на .xls, используйте следующие строки:
    User-agent: Googlebot 
    Disallow: /*.xls$

    Это соответствие шаблону можно использовать вместе с командой Allow. Например, если знак ? обозначает идентификатор сеанса, можно исключить содержащие этот символ URL-адреса, чтобы робот Googlebot не сканировал повторяющиеся страницы. Но URL-адреса, заканчивающиеся на ?, могут являться версией страницы, которую необходимо включить в индекс. В таком случае можно создать в файле robots.txt следующую запись:

    User-agent: *
    Allow: /*?$
    Disallow: /*?

    Строка Disallow:/ *? блокирует доступ ко всем URL-адресам со знаком вопроса (то есть ко всем URL-адресам, которые начинаются с названия домена и содержат цепочку, внутри которой встречается знак вопроса).

    Строка Allow: /*?$ разрешает доступ ко всем URL-адресам, оканчивающимся знаком вопроса (то есть ко всем URL-адресам, которые начинаются с названия домена и содержат цепочку, заканчивающуюся на ?, после которого нет других символов).

Сохраните созданный файл robots.txt, загрузив его или скопировав содержание файла в текстовый редактор и сохранив полученный файл с именем robots.txt. Этот файл должен находиться в корневом каталоге домена. Расположенный в подкаталоге файл robots.txt недействителен, поскольку роботы ищут его только в корневом каталоге домена. Например, http://www.example.com/robots.txt – правильное местоположение, а http://www.example.com/moysait/robots.txt – нет.

Проверка файла robots.txt

Инструмент Проверка файла robots.txt показывает, не блокирует ли ваш файл robots.txt доступ поискового робота Googlebot к файлам и каталогам вашего сайта и не разрешает ли он сканирование файлов, которые не должны появляться в Интернете. Инструмент анализирует содержание файла robots.txt (так же, как робот Googlebot) и показывает, как работает файл и имеются ли ошибки.

Чтобы проверить файл robots.txt на вашем сайте, выполните следующие действия.

  1. На главной странице Инструментов для веб-мастеров выберите нужный веб-сайт.
  2. Выберите Состояние, а затем Заблокированные URL..
  3. Перейдите на вкладку Проверить robots.txt, если она еще не выбрана.
  4. Скопируйте содержимое файла robots.txt и вставьте его в первое поле.
  5. В списке URL укажите сайты, которые нужно проверить.
  6. В списке Роботы User Аgent выберите нужные роботы.

Изменения, внесенные с помощью этого инструмента, не сохраняются. Чтобы сохранить изменения, скопируйте текст и вставьте его в файл robots.txt.

Этот инструмент предоставляет результаты только для роботов, в запросах которых в поле "user-agent" указано значение, соответствующее Google (например, для робота Googlebot). Другие роботы могут иначе интерпретировать файл robots.txt. Например, робот Googlebot поддерживает расширенное определение стандартного протокола robots.txt. Он распознает директивы "Allow:", а также некоторые типы соответствия шаблону. Поэтому, хотя инструмент показывает строки с такими расширениями в числе распознанных, нужно учитывать, что это, скорее всего, относится только к роботу Googlebot и не обязательно применимо к другим роботам, которые могут сканировать ваш сайт.

Свежая информация магазин интернет секс шоп на нашем сайте.

Сайт является частным собранием материалов и представляет собой любительский информационно-образовательный ресурс. Вся информация получена из открытых источников. Администрация не претендует на авторство использованных материалов. Все права принадлежат их правообладателям