Robots.txt — что это?

24 мая 2021 Robots.txt — это специальный текстовый файл, с помощью которого можно управлять индексацией страниц сайта в поисковых системах (ПС), например, Яндекс и Google. Индексация сайта — это процесс сбора информации о содержимом вашего сайта поисковыми роботами. Если страницы вашего веб-ресурса окажутся в индексе поисковых систем, то они смогут отображаться в результатах поиска. В нашей статье мы подробно разберем, для чего нужен файл robots.txt, где его найти и из чего он состоит.

Зачем нужен robots.txt

Файл robots.txt служит для:

регулирования индексации сайта в поисковых системах;
закрытия технических разделов и дублей;
полного закрытия сайта от индексации в поиске.

Простыми словами рассказываем, что такое robots.txt.

Как искать robots.txt

Файл robots.txt можно найти по адресу: domen.ru/robots.txt. Он расположен в корневом каталоге сайта и открывается по данной ссылке. Например, путь до robots.txt нашего сайта выглядит так: https://eurobyte.ru/robots.txt.

Требования поисковых систем

У ПС существуют особые требования к файлу robots.txt. Например, требования от Яндекса:

Общий размер файла robots.txt не должен быть больше 500 КБ.
Это TXT-файл с наименованием robots — robots.txt.
Файл обязан располагаться в корневом каталоге веб-сайта.
Требуется, чтобы robots.txt был доступен для поисковых роботов.
Сервер, на котором располагается веб-ресурс, отвечает HTTP-кодом со статусом 200 OK.
Если robots.txt будет не соответствовать данным требованиям, веб-сайт будет считаться открытым для индексации.

Требования поисковой системы Google:

Файл должен называться именно robots.txt.
На веб-ресурсе должен находиться только единственный файл robots.txt.
Располагаться документ должен в корневом каталоге.
Любое текстовое содержимое после символа # считается комментарием.
Помните, что robots.txt не предназначен запрещения показа веб-страниц в результатах поиска Google.

Как закрыть сайт от индексации с помощью robots.txt

Чтобы тестовый вариант сайта не попал в поисковые системы, закройте его от индексации. Создайте файл robots.txt со следующим содержанием:

User-agent: *

Disallow: /

Так выглядит запрет на индексацию всех страниц сайта.

Из чего состоит файл robots.txt

Файл состоит из списка правил (директив), которые указывают поисковым роботам, какие страницы сайта нужно добавлять в индекс, а какие нет. Ниже мы расскажем об основных директивах файла.

User-agent

Директива User-agent позволяет задать разные правила обхода сайта для разных приложений. Например, если вы установите правило User-agent: YandexBot, то эти правила будут обрабатываться только основным индексирующим роботом Яндекса. User-agent: * задает правила для всех роботов. Однако, если обнаружена строка User-agent: Yandex, то строка User-agent: * не учитывается Яндексом. Выглядит эта директива так:

User-agent: *

Disallow и Allow

Disallow — директива, запрещающая индексацию страниц (например, технических разделов, страниц поиска по сайту, дубликатов). Например:

User-agent: *

Disallow: / # не разрешает обход всего сайта

User-agent: *

Disallow: /product # не допускает обход страниц, адрес которых начинается с /product

Директива Allow напротив допускает индексирование разделов или отдельных страниц веб-ресурса. Например:

User-agent: *

Allow: /catalog

Disallow: /

# не разрешает скачивать все, кроме страниц начинающихся с /catalog

Sitemap

Директива Sitemap указывает путь до специальной карты сайта sitemap.xml. Если на вашем проекте предусмотрено несколько файлов sitemap.xml, то указывайте путь до каждого. Например:

User-agent: *

Allow: /

Sitemap: https://site.ru/sitemap.xml

Заключение

Таким образом, файл robots.txt позволяет управлять попадаем в индекс ПС страниц вашего веб-сайта. Помните, что для поисковой системы Google правила, описанные в этом файле, не являются строгими. Подробнее о правильном составлении robots.txt вы можете прочитать в справках Яндекса и Google. Если у вас остались вопросы, задавайте их в комментариях. Спасибо, что дочитали!

Автор: Евробайт

Robots.txt — что это?

Зачем нужен robots.txt

Как искать robots.txt

Требования поисковых систем

Как закрыть сайт от индексации с помощью robots.txt

Из чего состоит файл robots.txt

User-agent

Disallow и Allow

Sitemap

Заключение

Похожие статьи