Назначение тега robots состоит в том, чтобы давать возможность или запрещать роботам, посещающим сайт, добавлять сведения о нем в базу данных поисковых систем (индексировать страницу). Еще этот элемент может предложить роботам обойти весь сайт и проиндексировать его страницы. Запрещать индексирование файлов и каталогов предпочтительно через файл robots.txt Пользователи, не имеющие доступа к корневой директории сервера, могут использовать этот тег для запрета индексирования своих документов и каталогов.
Тег ставится в начале html-документа (значения помещаются в meta тег).
Его запись довольно проста (не имеет значения большие или маленькие буквы используются):
<meta name="robots" content="значение">
Атрибут content элемента robots может принимать такие параметры:
- index — робот может индексировать страницу
- noindex — робот не может индексировать страницу
- follow — робот может переходить по ссылкам со страницы
- nofollow — робот не может переходить по ссылкам со страницы
- all — то же, что и INDEX, FOLLOW
- none — то же, что и NOINDEX, NOFOLLOW
- noimageindex — робот не может индексировать картинки
- noarchive — не сохранять копию и не показывать ссылку "сохраненная копия"
- noyaca — для ПС yandex: не использовать описание из Яндекс.Каталога в результатах поиска.
- noodp — не использовать описание из каталога DMOZ в результатах поиска.
- notranslate — запретить перевод контента вашей страницы (для Google - не предлагать автоперевод)
- nosnippet — запретить вывод описания страницы в результатах поиска, также запрещает кешировать (noarchive)
Meta name robots noindex и nofollow
Для того чтобы отключить индексацию нужно написать
<meta name="robots" content="noindex">
Если вы хотите чтобы робот не переходил по ссылкам со страницы нужно изменить значение meta-тега атрибута content на nofollow.
Чтобы не дать определенному поисковому роботу индексировать вашу страницу, но разрешить это другим, нужно использовать такую запись:
<meta name="имя_робота которому_запрещена_индексация" content="noindex, nofollow">
Как видите, если аргумент content имеет несколько параметров, то они перечисляются через запятую.
Meta name yandex
Имя робота в случае ПС Яндекса - yandex
<meta name="yandex" content="noindex, nofollow">
Meta name google
Для поисковой системы Google имя робота следует указать - google, пример:
<meta name="google" content="noindex, nofollow">
Meta name robots index и follow
Чтобы одновременно можно было переходить индексировать страницу и переходить по ссылкам следует записать:
<meta name="robots" content="index, follow">
Чтобы не заносить в базу данных поисковой машины картинки пишут:
<meta name="robots" content="noimageindex">
Meta name robots content noarchive
Поисковые машины Google и Yandex для каждого сканируемого сайта, делают и сохраняют его снимок. Архивированный вариант хранится в кэше, что дает возможность поисковику отображать эту страницу по специальной ссылке в результатах поиска, когда она по каким-то техническим причинам недоступна. Веб-страница, хранимая в кэше, отображается такой, какой она была в тот момент, когда ее сохранил поисковый робот. О том, что пользователь просматривает кэшированную страницу говорит сообщение в верхней части сайта. Можно обратиться к кэш-версии страницы, нажав на кнопку «сохранено в кэше», в результатах поиска.
Если вы не желаете, чтобы в поисковых системах была подобная ссылка, можно дописать в head такой тег:
<meta name="robots" content="noarchive">
Для того чтобы кнопка "Сохранено в кэше" не выводилась в определенной поисковой системе можно написать:
<meta name="имя_робота" content="noarchive">
Такая запись убирает только ссылку "Сохранено" на архивированную страницу, поисковая система и дальше будет индексировать сайт и отображать его фрагмент.
NOSNIPPET - убрать сниппет
Сниппетом называется текст, под заголовком страницы в результатах поиска, используемый для описания сайта.
Чтобы он не выводился, в части head добавляется такой тег:
<meta name="имя_робота" content="nosnippet">
Когда удаляется фрагмент с ним удаляются и архивированные в кэш страницы.
NOODP - запрет использования DMOZ поисковиками
Для создания фрагментов часто применяется такой источник, как Open Directory Project. Чтобы поисковики не применяли его, для описания содержимого сайта, добавляется тег:
<meta name="robots" content="noodp">
Или такой:
<meta name="имя_робота" content="noodp">
Параметры атрибута content можно объединять, таким образом:
<meta name="robots" content="noodp, nofollow">
Запреты поисковым системами
Каким образом можно дать понять поисковому роботу, что какую-то часть страницы не нужно проверять или по какой-то одной ссылке не стоит переходить?
Разные поисковые системы предлагают сделать это по разному. Яндекс советует вставлять такой текст между тегами <!--noindex--><!--/noindex-->, тогда как Google предлагает добавлять к ссылкам атрибут rel="nofollow".
Мета тег document-state
Программист может указать роботу, что содержание какого-то документа может изменяться в будущем. Если он напишет об этом только в robots.txt, то пользователь не сможет знать, что сайт может измениться.
В таких случаях применяется тег document-state. Он принимает два значения: static и dynamic(по умолчанию):
<meta name="document-state" content="static">
<meta name="document-state" content="dynamic">
Static означает, что нет необходимости переиндексировать страницу в будующем, так как она не будет изменяться. Dynamic означает что необходимо регулярно переиндексировать страницу, так как она будет изменяться.