Урок 5.1 – Robots.txt: для чего нужен и как формируется
Robots.txt – это текстовый файл, который должен располагаться в корневой директории сайта. Он содержит директивы для поисковых роботов какие URL на сайте нужно индексировать и какие нет. В конце файла располагается ссылка на sitemap.xml – файл, который содержит список всех индексируемых URL сайта.
Рассмотрим основные директивы, которые может содержать файл robots.txt
Директива | Для чего нужна |
User-agent:
| Указывает для какого робота-поисковика, применяются нижерасположенные директивы. Если нужно прописать директивы только для Яндекс, то используем User-agent: Yandex Для Google: User-Agent: Googlebot Если для всех поисковых роботов: User-Agent: * |
Disallow:
| Не позволяет индексировать страницы. Этот параметр закрывает от индексации конкретную страницу, либо список страниц, расположенных в одной папке сайта (в данном случае в директиве прописывается общая часть адреса страницы – префикс)
|
Sitemap:
| Адрес XML карты сайта sitemap.xml
|
Clean-param:
| Страницы, у которых есть в адресе указанные динамические параметры (к примеру, метки UTM) не будут индексироваться. Применяется только в Яндекс.
|
Allow:
| Дает разрешение на индексацию тех или иных страниц. Используется если закрыта какая-либо папка сайта от индексации, а определенная страница в этой папке должна быть открыта для поисковиков – в этом случае используется данная директива.
|
Большинство систем управления сайтами (CMS) имеет возможность генерировать этот файл автоматически, но это не всегда удобно, плюс часто требуется разделить директивы для Яндекс и Гугл, поэтому я рекомендую создавать данный файл вручную – это позволит вам более гибко управлять индексацией страниц.
Проверить корректность созданного файла вы можете при помощи сервиса Яндекс Вебмастер (Инструменты -> Анализ robots.txt).
Можно также проверить корректность данного файла при помощи сервиса Google Search Console (Настройки -> robots.txt).