Robots txt
Автор Матвеев Сергей
Как файл robots.txt помогает сохранить конфиденциальную информацию

Robots — специальный документ, создается с помощью обычного текстового редактора и содержит подробные инструкции и ограничения для роботов поисковых систем. Такие инструкции могут быть общими для всех машин, а могут быть отдельными, например: для обычных персональных компьютеров, мобильных девайсов. При входе на Ваш web-ресурс сканируется этот документ, чтобы узнать, какие папки и файлы запрещены к индексированию. Давайте более детально рассмотрим, как составить robots.txt.

 

Каким образом помогает правильный robots.txt

Если на веб-сайте есть странички, которые должны быть скрыты от посторонних, то есть не попадать в выдачу при поиске, то их необходимо добавить в роботс. При следующей индексации они будут игнорироваться.

Ниже приведены рекомендации, что следует скрывать от индексирования:

  • Отдельные страницы, где указана личная информация пользователей;
  • Страницы для оформления и подтверждения заказов, корзина интернет-магазина;
  • Страницы, где регистрируются и авторизуются пользователи;
  • Исходные файлы и системные каталоги;
  • Результаты поиска;
  • Зеркала сайта.

Наглядная визуализация:

Схема работы robotsКак правильно создать robots.txt

Документ обязательно должен называться robots.txt,  быть написанным только в нижнем регистре, иметь расширение текстового документа. Он содержит набор блоков, которые следует разделять пустыми строками (минимум одной). Каждая запись будет выглядеть так:

[имя поля]:[расшифровка значения]

Имя поля – это директива, которая может быть основной или второстепенной.

Основные:

  • User-agent – указывает, какому поисковому роботу относится текущая запись, если указана звездочка, то инструкции будут для всех;
  • Disallow – содержит рекомендации, какую информацию не индексировать;
  • Allow – предоставляет доступ к конкретным папкам или файлам.

Второстепенные:

  • Crawl-delay – будет выдерживаться пауза между загрузками страниц, чтобы не создавать лишнюю нагрузку для сервера. Современные роботы имеют задержку около двух секунд. GoogleBot игнорирует эту директиву;
  • Sitemap – с помощью нее робот узнает о карте web-сайта и будет ее учитывать в следующий раз;
  • Host – работает только для Yandex, указывает ему расположение зеркала сайта;
  • Clean-param – указывается, когда есть веб-странички с одинаковым содержимым, доступ к которым возможен по разным URL-адресам, которые отличаются одним параметром.

 

Примеры верно созданных роботс

  • Не разрешать сканировать весь сайт:
    Код robots 1
  • Разрешить проиндексировать весь ресурс:
    Код robots 2
  • Индексирование запрещено для одной поисковой машины (Yandex):
    Код robots 3
  • Не разрешать сканирование нескольких папок:
    Код robots 4
  • Всем машинам запрещено сканировать несколько файлов:
    Код robots 5

Вариант настройки роботс для CMS WordPress будет иметь вид:

Правильный robots txtДля более быстрого составления документа рекомендуем воспользоваться ресурсами-генераторами, например сервис pr-cy. После окончания редактирования документ следует проверить с помощью Google Webmaster tool и Яндекс.Вебмастер.

Хочешь быть в курсе всех актуальных новостей из мира маркетинга?

Подпишись на нашу рассылку

ПОЖАЛУЙСТА, ОСТАВЬТЕ СВОИ ДАННЫЕ ДЛЯ СВЯЗИ


ПОЖАЛУЙСТА, ОСТАВЬТЕ СВОИ ДАННЫЕ ДЛЯ СВЯЗИ


ПОЖАЛУЙСТА, ОСТАВЬТЕ СВОИ ДАННЫЕ ДЛЯ СВЯЗИ