Файл robots.txt - как правильно

примеры | disallow | запрет индексации сайта


Что такое robots.txt? Robots.txt – это текстовый файл, находящийся в корневом каталоге сайта, содержащий директивы, следуя которым поисковая система может понять стратегию индексирования вашего сайта. Файл robots.txt предназначен для указания всем поисковым роботам (spiders) индексировать информационные сервера так, как определено в этом файле, т.е. только те директории и файлы сервера, которые не описаны в robots.txt.


Этот файл должен содержать 0 или более записей, которые связаны с тем или иным роботом (что определяется значением поля agent_id) и указывают для каждого робота или для всех сразу, что именно им не надо индексировать.

Файл robots.txt ограничивает доступ роботов, сканирующих Интернет для поисковых систем, к вашему сайту. Перед обращением к страницам сайта эти роботы автоматически ищут файл robots.txt, который запрещает им доступ к определенным страницам. (Роботы наиболее распространенных поисковых систем выполняют директивы robots.txt. Некоторые роботы могут интерпретировать их иначе. Однако robots.txt не является обязательным к исполнению.)

Файл robots.txt: директивы, ошибки. Как правильно?

Файл robots.txt должен находиться только в корневой директории сайта, только тогда он будет учитываться поисковыми системами.
Правописание - robots.txt,
Robots.txt будет уже ошибкой.
Структура robots.txt. Файл robots.txt состоит из полей. Структура полей такова: сначала идёт информация о том, какой поисковик должен следовать указаниям в директиве (строка содержит User-Agent поискового бота или *, как рекомендация для всех поисковых систем), далее идёт поле Disallow, в котором указывается название объекта, который необходимо скрыть от индексирования.

Раздел рекомендаций robots.txt между инструкциями для одной поисковой системы распознаётся от раздела рекомендаций для другой поисковой системы пустой строкой, а раздел, в свою очередь, формируется полем User-Agent. В одном разделе может быть сразу несколько полей User-Agent, начинающихся с новой строки.

Стандарт robots.txt поддерживает комментарии. Всё, что начинается от символа # до конца строки, является комментарием.

Строки robots.txt являются регистрозависимыми (primer.html и Primer.html - разные файлы).

Следует отметить любопытный факт, что файл robots.txt создавался и создаётся с основной целью – запрета индексации, следовательно, и все поля, в нём прописанные, явно указывают на запрет индексации частей сайта.

Примеры robots.txt




Пример robots.txt:
Disallow: /cgi-bin/#комментарий

Пример robots.txt, разрешающего всем роботам индексирование всего сайта:

User-agent: *
Disallow:
Host: www.site.ru

Пример robots.txt, запрещающего всем роботам индексирование сайта:

User-agent: *
Disallow: /
Host: www.site.ru

Пример robots.txt, запрещающего всем роботам индексирование директории «abc», а так же всех директорий и файлов, начинающихся с символов «abc».

User-agent: *
Disallow: /abc
Host: www.site.ru

Пример файла robots.txt, запрещающего индексирование страницы «page.htm», находящейся в корневом каталоге сайта, поисковым роботом «googlebot»:

User-agent: googlebot
Disallow: /page.htm
Host: www.site.ru

Пример файла robots.txt, запрещающего индексирование:

– роботу «googlebot» – страницы «page1.htm», находящейся в директории «directory»;
– роботу «Yandex» – все директории и страницы, начинающиеся символами «dir» (/dir/, /direct/, dir.htm, direction.htm, и т. д.) и находящиеся в корневом каталоге сайта.

User-agent: googlebot
Disallow: /directory/page1.htm

User-agent: Yandex
Disallow: /dir
Host: www.site.ru

Запомните простые комбинации директив robots.txt:

Disallow: - разрешение индексировать всё содержимое сайта,
Disallow: / - запрет на индексацию всего сайта.
Disallow: /name – запрет на индексацию любых файлов и директорий, которые называются или имеют в своём названии name.
Disallow: /name/ - запрет на индексацию директории name.
Disallow: /*.gif$ - запрет на индексацию всех файлов, имеющих расширение .gif.
Disallow: /name.php – запрет на индексацию файла name.php.
Disallow: /name.php?action=print – запрет индексации переменной, например, страниц для печати.
Allow: / - всё наоборот (разрешается индексировать), синтаксис такой же, как и с Disallow
# - при помощи решётки в
robots.txt можно писать комментарии: они не учитываются роботами поисковых систем и носят сугубо информативный  характер.

Поле Sitemap используется для указания поисковой системе, где находится сгенерированная для поисковых систем карта сайта.(Sitemap: http://www.site.ru/sitemap.xml). Применяется в Google, Ask, Yahoo, Bing и "Яндекс".

Директива Sitemap.

Если вы используете описание структуры вашего сайта в формате sitemaps.xml, и хотите, чтобы робот узнал о ней, укажите путь к sitemaps.xml в файле robots.txt, в качестве параметра директивы 'Sitemap' (если файлов несколько, укажите все), примеры:

User-agent: Yandex
Allow: /
Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://mysite.ru/site_structure/my_sitemaps2.xml

или

User-agent: Yandex
Allow: /

User-agent: *
Disallow: /

Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://mysite.ru/site_structure/my_sitemaps2.xml

Робот запомнит пути к sitemaps.xml, обработает файлы и будет использовать результаты при последующем формировании сессий закачки.

# В случае, когда на сайте используется несколько файлов Sitemap, то их желательно перечислить в файле robots.txt


Ошибки, связанные с файлом robots.txt



Одна из самых распространенных ошибок – перевернутый синтаксис.

Неправильно robots.txt:
User-agent: *
Disallow: Yandex

Правильно robots.txt:
User-agent: Yandex
Disallow: *

Запись «Disallow» содержит несколько директив.

Неправильно robots.txt:
User-agent: *
Disallow: /dir/ /cgi-bin/ /forum/

Правильно
robots.txt:
User-agent: *
Disallow: /dir/
Disallow: /cgi-bin/
Disallow: /forum/

Ошибка при копировании файла. Часто robots.txt копируется в формате не Unix, а Dos. Несмотря на то, что из-за распространенности данной ошибки многие поисковые роботы уже могут правильно понимать данные из robots.txt, это считается ошибкой.

Если при обработке ошибки 404 (документ не найден), веб-сервер выдает специальную страницу, и при этом файл robots.txt отсутствует, то возможна ситуация, когда поисковому роботу при запросе файла robots.txt выдается та самая специальная страница, никак не являющаяся файлом управления индексирования.

Ошибка, связанная с неправильным использованием регистра в robots.txt. Например, если необходимо закрыть директорию «cgi-bin», то в записи «Disallow» нельзя писать название директории в верхнем регистре «cgi-bin».

Неправильно robots.txt:
User-agent: *
Disallow: /CGI-BIN/

Правильно robots.txt:
User-agent: *
Disallow: /cgi-bin/

Ошибка, связанная с отсутствием открывающей наклонной черты в
robots.txt при закрытии директории от индексирования.

Неправильно robots.txt:
User-agent: *
Disallow: dir

User-agent: *
Disallow: page.html

Правильно robots.txt
:
User-agent: *
Disallow: /dir

User-agent: *
Disallow: /page.html

Файл robots.txt - как правильно | Примеры | Запрет индексации сайта