Назначение тега robots состоит в том, чтобы давать возможность или запрещать роботам, посещающим сайт, добавлять сведения о нем в базу данных поисковых систем (индексировать страницу). Еще этот элемент может предложить роботам обойти весь сайт и проиндексировать его страницы. Запрещать индексирование файлов и каталогов предпочтительно через файл robots.txt Пользователи, не имеющие доступа к корневой директории сервера, могут использовать этот тег для запрета индексирования своих документов и каталогов.

Тег ставится в начале html-документа (значения помещаются в meta тег).

Его запись довольно проста (не имеет значения большие или маленькие буквы используются):

<meta name="robots" content="значение">

Атрибут content элемента robots может принимать такие параметры:

  • index — робот может индексировать страницу
  • noindex — робот не может индексировать страницу
  • follow — робот может переходить по ссылкам со страницы
  • nofollow — робот не может переходить по ссылкам со страницы
  • all — то же, что и INDEX, FOLLOW
  • none — то же, что и NOINDEX, NOFOLLOW
  • noimageindex — робот не может индексировать картинки
  • noarchive — не сохранять копию и не показывать ссылку "сохраненная копия"
  • noyaca — для ПС yandex: не использовать описание из Яндекс.Каталога в результатах поиска.
  • noodp — не использовать описание из каталога DMOZ в результатах поиска.
  • notranslate — запретить перевод контента вашей страницы (для Google - не предлагать автоперевод)
  • nosnippet — запретить вывод описания страницы в результатах поиска, также запрещает кешировать (noarchive)

Meta name robots noindex и nofollow

Для того чтобы отключить индексацию нужно написать

<meta name="robots" content="noindex">

Если вы хотите чтобы робот не переходил по ссылкам со страницы нужно изменить значение meta-тега атрибута content на nofollow.

Чтобы не дать определенному поисковому роботу индексировать вашу страницу, но разрешить это другим, нужно использовать такую запись:

<meta name="имя_робота которому_запрещена_индексация" content="noindex, nofollow">

Как видите, если аргумент content имеет несколько параметров, то они перечисляются через запятую.

Meta name yandex

Имя робота в случае ПС Яндекса - yandex

<meta name="yandex" content="noindex, nofollow">

Meta name google

Для поисковой системы Google имя робота следует указать - google, пример:

<meta name="google" content="noindex, nofollow">

Meta name robots index и follow

Чтобы одновременно можно было переходить индексировать страницу и переходить по ссылкам следует записать:

<meta name="robots" content="index, follow">

Чтобы не заносить в базу данных поисковой машины картинки пишут:

<meta name="robots" content="noimageindex">

Meta name robots content noarchive

Поисковые машины Google и Yandex для каждого сканируемого сайта, делают и сохраняют его снимок. Архивированный вариант хранится в кэше, что дает возможность поисковику отображать эту страницу по специальной ссылке в результатах поиска, когда она по каким-то техническим причинам недоступна. Веб-страница, хранимая в кэше, отображается такой, какой она была в тот момент, когда ее сохранил поисковый робот. О том, что пользователь просматривает кэшированную страницу говорит сообщение в верхней части сайта. Можно обратиться к кэш-версии страницы, нажав на кнопку «сохранено в кэше», в результатах поиска.

Если вы не желаете, чтобы в поисковых системах была подобная ссылка, можно дописать в head такой тег:

<meta name="robots" content="noarchive">

Для того чтобы кнопка "Сохранено в кэше" не выводилась в определенной поисковой системе можно написать:

<meta name="имя_робота" content="noarchive">

Тег meta name robots contents - noindex, follow, noodp и др.

Такая запись убирает только ссылку "Сохранено" на архивированную страницу, поисковая система и дальше будет индексировать сайт и отображать его фрагмент.

NOSNIPPET - убрать сниппет

Сниппетом называется текст, под заголовком страницы в результатах поиска, используемый для описания сайта.

Чтобы он не выводился, в части head добавляется такой тег:

<meta name="имя_робота" content="nosnippet">

Когда удаляется фрагмент с ним удаляются и архивированные в кэш страницы.

NOODP - запрет использования DMOZ поисковиками

Для создания фрагментов часто применяется такой источник, как Open Directory Project. Чтобы поисковики не применяли его, для описания содержимого сайта, добавляется тег:

<meta name="robots" content="noodp">

Тег meta name robots contents - noindex, follow, noodp и др.

Или такой:

<meta name="имя_робота" content="noodp">

Параметры атрибута content можно объединять, таким образом:

<meta name="robots" content="noodp, nofollow">

Запреты поисковым системами

Каким образом можно дать понять поисковому роботу, что какую-то часть страницы не нужно проверять или по какой-то одной ссылке не стоит переходить?

Разные поисковые системы предлагают сделать это по разному. Яндекс советует вставлять такой текст между тегами <!--noindex--><!--/noindex-->, тогда как Google предлагает добавлять к ссылкам атрибут rel="nofollow".

Мета тег document-state

Программист может указать роботу, что содержание какого-то документа может изменяться в будущем. Если он напишет об этом только в robots.txt, то пользователь не сможет знать, что сайт может измениться.

В таких случаях применяется тег document-state. Он принимает два значения: static и dynamic(по умолчанию):

<meta name="document-state" content="static">

<meta name="document-state" content="dynamic">

Static означает, что нет необходимости переиндексировать страницу в будующем, так как она не будет изменяться. Dynamic означает что необходимо регулярно переиндексировать страницу, так как она будет изменяться.