Файл robots.txt - это текстовый файл, основная функция которого заключается в ограничениях доступа к данным ресурса. Файл – это инструкция для робота ПС, которая позволяет ограничить доступ к содержимому сервиса, запретить индексирование конкретных страниц, каталогов или файлов.
Robots.txt - для чего он нужен
Текстовый компонент robots.txt является немаловажным файлом, нужным для поисковой оптимизации и продвижения ресурса. Файл автоматически исключает страницы и каталоги, которые не несут нужной информации.
Назначение файла определяется размерами и структурой электронного ресурса. Для небольших ресурсов, обладающих простой структурой, функции файла robots.txt окажутся не столь эффективными. Но некоторые компоненты и директивы помогут нормализовать и улучшить работу сайта.
Создание файла robots.txt и правильная настройка
Для создания текстового файла используется любая текстовая программа или редактор. Исходя из ваших требований, составляется текст документа и сохраняется в формате txt, придавая документу название robots.
Создать robots.txt можно посредством онлайн редакторов, которые предоставляют пользователям готовые шаблоны файлов, доступных для скачивания и дальнейшего использования. При использовании автоматически-составленных пользованию необходимо внимательно изучать содержимое документа, который может открывать или закрывать доступ к частям сайта.
Настройка файла robots - важный этап создания текстового документа robots.txt. Правильная настройка компонента позволяет предотвратить использование частной информации, которая может отображаться при использовании поисковых систем. Создавая, редактируя и настраивая правильный robots.txt, стоит изучить общие правила создания, управление директивами и принципы применения файла.
Правильный robots.txt начинается c команды, отображающей название индексирующих роботов, используемых на различных поисковых системах. Примерами команд могут служить следующие названия: Yandex, Yandex Bot, Google и так далее. Указывая название робота, пользователь тем самым программирует его обращаться только к той части файла, которая соответствует его названию.
Все указания в файле robots.txt создаются блоками, имеющими директивы для определенного робота или для группы роботов. Разрешающие и запрещающие команды могут использоваться совместно, например, закрывая доступ к страницам начинающихся с blog, и открывая доступ к ресурсам, которые имеют название blog/page. Это можно сделать указанием директив Disallow и Allow , которые закрывают доступ ко всему разделу, и открывает к некоторым частям ресурса.
Структура файла отличается легкостью и простотой, но для создания рекомендуется придерживать правильного порядка и синтаксиса документа. Основными правилами являются:
- каждая директива указывается с новой строки без использования пробела, заглавных букв, символов национальных алфавитов, кавычек и других знаков;
- пустое значение каждой директивы разрешает или запрещает доступ ко всем ресурсам;
- перед названием разрешенной или запрещенной директивы используется слеш «/»;
- директива «Host» указывается один раз для указания главного зеркала одного сайта без использования назначения «http://»;
- для создания комментариев необходимо использовать символ #.
Перед тем, как использовать файл robots.txt и загружать на сайт, пользователи могут проверить правильность документа, используя онлайн-сервисы для анализа. Данная функция присутствует на ресурсе Яндекс.Вебмастер и Google.
Виды директив и их назначение - Host Sitemap Disallow Allow и пр.
В качестве директивы используются различные команды. Выбор директивы основывается на цели пользователя, который закрывает или открывает доступ к сайту или его частям.
Команда «Disallow» используется для блокировки страниц. Disallow page/ закроет доступ ко всем страницам, которые имеют в пути указанное обозначение. Директива Disallow /page$, например, заблокирует те страницы, в пути которых присутствует в точности конкретно это обозначение, но допустит к индексации страницы /page1, /page/xtool и другие.
«Allow» - команда, разрешающая индексацию. Устанавливая обозначение /page для данной команды, пользователь открывает доступ ко всем страницам, имеющим в пути это обозначение.
Директива «Host» позволяет указывать поиску главное зеркало электронного ресурса. Для использования функции пользователю необходимо указать команду в блоке директивы и указать адрес ресурса.
Директива «Sitemap» позволяет указывать расположение карты сервиса, давая поисковому роботу информацию о наличии карты и возможностях индексации.
Директива Clean-param - команда, посредством которой пользователь может исключить из индексации ресурсы с одинаковым содержимым.
Директива Crawl-delay – это инструкция для снижения нагрузки, которая нормализует работу больших сайтов, обладающие сложной структурой. Команда позволяет снизить скачивание и посещение страницы, осуществляемые автоматическим путем, до одного раза в три-четыре секунды.