Файл robots.txt - как правильно
примеры | disallow | запрет индексации сайта
Что такое robots.txt?
Robots.txt – это
текстовый файл, находящийся в корневом каталоге
сайта, содержащий директивы, следуя которым
поисковая
система может понять стратегию
индексирования вашего сайта. Файл robots.txt предназначен для указания
всем поисковым роботам (spiders) индексировать информационные
сервера так, как определено в этом файле, т.е. только те директории
и файлы сервера, которые не описаны в robots.txt.
Этот файл должен
содержать 0 или более записей, которые связаны с тем или иным
роботом (что определяется значением поля agent_id) и указывают для
каждого робота или для всех сразу, что именно им не надо
индексировать. Файл
robots.txt
ограничивает доступ роботов, сканирующих Интернет для
поисковых
систем, к вашему сайту. Перед обращением к страницам сайта эти
роботы автоматически ищут файл robots.txt, который запрещает им
доступ к определенным страницам. (Роботы наиболее распространенных
поисковых систем выполняют директивы robots.txt. Некоторые
роботы могут интерпретировать их иначе. Однако robots.txt не
является обязательным к исполнению.)
Файл robots.txt должен
находиться только в корневой директории сайта, только тогда он будет
учитываться поисковыми системами.
Раздел рекомендаций robots.txt между инструкциями для
одной поисковой системы распознаётся от раздела рекомендаций для
другой поисковой системы пустой строкой, а раздел, в свою очередь,
формируется полем
User-Agent. В одном разделе может быть сразу
несколько полей User-Agent, начинающихся с новой строки. Стандарт robots.txt поддерживает
комментарии. Всё, что начинается от символа # до
конца строки, является комментарием. Строки robots.txt являются
регистрозависимыми
(primer.html и Primer.html - разные файлы). Следует отметить любопытный факт
Правописание - robots.txt,
Структура robots.txt.
Файл robots.txt состоит из
полей. Структура полей такова: сначала идёт информация о том, какой
поисковик должен следовать указаниям в директиве (строка содержит
User-Agent поискового бота или *,
как рекомендация для всех поисковых систем), далее идёт поле Disallow,
в котором указывается название объекта, который
необходимо скрыть от индексирования.
Примеры robots.txt
Пример
robots.txt:
Disallow: /cgi-bin/#комментарий
Пример
robots.txt, разрешающего всем роботам индексирование всего
сайта:
User-agent: *
Disallow:
Host: www.site.ru
Пример robots.txt, запрещающего всем роботам индексирование
сайта:
User-agent: *
Disallow: /
Host: www.site.ru
Пример robots.txt, запрещающего всем роботам индексирование
директории «abc», а так же всех директорий и файлов, начинающихся с
символов «abc».
User-agent: *
Disallow: /abc
Host: www.site.ru
Пример файла robots.txt, запрещающего индексирование страницы «page.htm»,
находящейся в корневом каталоге сайта, поисковым роботом «googlebot»:
User-agent: googlebot
Disallow: /page.htm
Host: www.site.ru
Пример файла robots.txt, запрещающего индексирование:
– роботу «googlebot» – страницы «page1.htm», находящейся в
директории «directory»;
– роботу «Yandex» – все директории и страницы, начинающиеся
символами «dir» (/dir/, /direct/, dir.htm, direction.htm, и т. д.) и
находящиеся в корневом каталоге сайта.
User-agent: googlebot
Disallow: /directory/page1.htm
User-agent: Yandex
Disallow: /dir
Host: www.site.ru
Запомните простые комбинации директив robots.txt:
Disallow: - разрешение
индексировать всё содержимое сайта,
Disallow: / - запрет на индексацию всего сайта.
Disallow: /name – запрет на индексацию любых файлов и директорий,
которые называются или имеют в своём названии name.
Disallow: /name/ - запрет на индексацию директории name.
Disallow: /*.gif$ - запрет на индексацию всех файлов, имеющих
расширение .gif.
Disallow: /name.php – запрет на индексацию файла name.php.
Disallow: /name.php?action=print – запрет индексации переменной,
например, страниц для печати.
Allow: / - всё наоборот (разрешается индексировать), синтаксис такой
же, как и с Disallow
# - при помощи решётки в
robots.txt можно писать комментарии: они не учитываются
роботами поисковых систем и носят сугубо информативный характер.
Поле Sitemap используется
для указания поисковой системе, где находится сгенерированная для
поисковых систем карта сайта.(Sitemap: http://www.site.ru/sitemap.xml).
Применяется в
Google, Ask, Yahoo, Bing и "Яндекс". Директива Sitemap.
Если вы используете описание структуры
вашего сайта в формате sitemaps.xml, и хотите, чтобы робот узнал о
ней, укажите путь к sitemaps.xml в файле robots.txt, в качестве параметра директивы
'Sitemap' (если файлов несколько,
укажите все), примеры: или Робот запомнит пути к sitemaps.xml,
обработает файлы и будет использовать результаты при последующем
формировании сессий закачки.
# В случае, когда на сайте
используется несколько файлов Sitemap, то их желательно перечислить
в файле robots.txt
Ошибки, связанные с файлом robots.txt
Одна из
самых распространенных ошибок – перевернутый синтаксис. Ошибка
при копировании файла. Часто robots.txt копируется в формате не
Unix, а Dos. Несмотря на то, что из-за распространенности данной
ошибки многие поисковые роботы уже могут правильно понимать данные
из robots.txt, это считается ошибкой. Ошибка,
связанная с неправильным использованием регистра в robots.txt.
Например, если необходимо закрыть директорию «cgi-bin», то в записи
«Disallow» нельзя писать название директории в верхнем регистре «cgi-bin».
User-agent: Yandex
Allow: /
Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://mysite.ru/site_structure/my_sitemaps2.xml
User-agent: Yandex
Allow: /
User-agent: *
Disallow: /
Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://mysite.ru/site_structure/my_sitemaps2.xml
User-agent: *
Disallow: Yandex
Правильно robots.txt:
User-agent: Yandex
Disallow: *
Запись «Disallow» содержит несколько директив.
Неправильно
robots.txt:
User-agent: *
Disallow: /dir/ /cgi-bin/ /forum/
Правильно robots.txt:
User-agent: *
Disallow: /dir/
Disallow: /cgi-bin/
Disallow: /forum/
Если при обработке ошибки 404 (документ не найден), веб-сервер
выдает специальную страницу, и при этом файл robots.txt отсутствует,
то возможна ситуация, когда поисковому роботу при запросе файла
robots.txt выдается та самая специальная страница, никак не
являющаяся файлом управления индексирования.
User-agent: *
Disallow: /CGI-BIN/
Правильно robots.txt:
User-agent: *
Disallow: /cgi-bin/
Ошибка, связанная с отсутствием открывающей наклонной черты в
robots.txt при
закрытии директории от индексирования.
Неправильно
robots.txt:
User-agent: *
Disallow: dir
User-agent: *
Disallow: page.html
Правильно robots.txt:
User-agent: *
Disallow: /dir
User-agent: *
Disallow: /page.html
Файл robots.txt - как правильно | Примеры | Запрет индексации сайта