Файл robots.txt - это текстовый файл, основная функция которого заключается в ограничениях доступа к данным ресурса. Файл – это инструкция для робота ПС, которая позволяет ограничить доступ к содержимому сервиса, запретить индексирование конкретных страниц, каталогов или файлов.

Robots.txt - для чего он нужен

Текстовый компонент robots.txt является немаловажным файлом, нужным для поисковой оптимизации и продвижения ресурса. Файл автоматически исключает страницы и каталоги, которые не несут нужной информации.

Назначение файла определяется размерами и структурой электронного ресурса. Для небольших ресурсов, обладающих простой структурой, функции файла robots.txt окажутся не столь эффективными. Но некоторые компоненты и директивы помогут нормализовать и улучшить работу сайта.

Создание файла robots.txt и правильная настройка

Для создания текстового файла используется любая текстовая программа или редактор. Исходя из ваших требований, составляется текст документа и сохраняется в формате txt, придавая документу название robots.

Создать robots.txt можно посредством онлайн редакторов, которые предоставляют пользователям готовые шаблоны файлов, доступных для скачивания и дальнейшего использования. При использовании автоматически-составленных пользованию необходимо внимательно изучать содержимое документа, который может открывать или закрывать доступ к частям сайта.

Настройка файла robots - важный этап создания текстового документа robots.txt. Правильная настройка компонента позволяет предотвратить использование частной информации, которая может отображаться при использовании поисковых систем. Создавая, редактируя и настраивая правильный robots.txt, стоит изучить общие правила создания, управление директивами и принципы применения файла.

Правильный robots.txt начинается c команды, отображающей название индексирующих роботов, используемых на различных поисковых системах. Примерами команд могут служить следующие названия: Yandex, Yandex Bot, Google и так далее. Указывая название робота, пользователь тем самым программирует его обращаться только к той части файла, которая соответствует его названию.

Как создать правильный файл robots txt для сайта

Все указания в файле robots.txt создаются блоками, имеющими директивы для определенного робота или для группы роботов. Разрешающие и запрещающие команды могут использоваться совместно, например, закрывая доступ к страницам начинающихся с blog, и открывая доступ к ресурсам, которые имеют название blog/page. Это можно сделать указанием директив Disallow и Allow , которые закрывают доступ ко всему разделу, и открывает к некоторым частям ресурса.

Структура файла отличается легкостью и простотой, но для создания рекомендуется придерживать правильного порядка и синтаксиса документа. Основными правилами являются:

  • каждая директива указывается с новой строки без использования пробела, заглавных букв, символов национальных алфавитов, кавычек и других знаков;
  • пустое значение каждой директивы разрешает или запрещает доступ ко всем ресурсам;
  • перед названием разрешенной или запрещенной директивы используется слеш «/»;
  • директива «Host» указывается один раз для указания главного зеркала одного сайта без использования назначения «http://»;
  • для создания комментариев необходимо использовать символ #.

Перед тем, как использовать файл robots.txt и загружать на сайт, пользователи могут проверить правильность документа, используя онлайн-сервисы для анализа. Данная функция присутствует на ресурсе Яндекс.Вебмастер и Google.

Виды директив и их назначение - Host Sitemap Disallow Allow и пр.

В качестве директивы используются различные команды. Выбор директивы основывается на цели пользователя, который закрывает или открывает доступ к сайту или его частям.

Команда «Disallow» используется для блокировки страниц. Disallow page/ закроет доступ ко всем страницам, которые имеют в пути указанное обозначение. Директива Disallow /page$, например, заблокирует те страницы, в пути которых присутствует в точности конкретно это обозначение, но допустит к индексации страницы /page1, /page/xtool и другие.

«Allow» - команда, разрешающая индексацию. Устанавливая обозначение /page для данной команды, пользователь открывает доступ ко всем страницам, имеющим в пути это обозначение.

Директива «Host» позволяет указывать поиску главное зеркало электронного ресурса. Для использования функции пользователю необходимо указать команду в блоке директивы и указать адрес ресурса.

Директива «Sitemap» позволяет указывать расположение карты сервиса, давая поисковому роботу информацию о наличии карты и возможностях индексации.

Как создать правильный файл robots txt для сайта

Директива Clean-param - команда, посредством которой пользователь может исключить из индексации ресурсы с одинаковым содержимым.

Директива Crawl-delay – это инструкция для снижения нагрузки, которая нормализует работу больших сайтов, обладающие сложной структурой. Команда позволяет снизить скачивание и посещение страницы, осуществляемые автоматическим путем, до одного раза в три-четыре секунды.