8 800 301-96-65

Вт-Сб. 10-18 ч. по МСК

Главная Блог компании «Евробайт» Что такое robots.txt

Robots.txt — что это?

Robots.txt — что это?

Robots.txt — это специальный текстовый файл, с помощью которого можно управлять индексацией страниц сайта в поисковых системах (ПС), например, Яндекс и Google. Индексация сайта — это процесс сбора информации о содержимом вашего сайта поисковыми роботами. Если страницы вашего веб-ресурса окажутся в индексе поисковых систем, то они смогут отображаться в результатах поиска. В нашей статье мы подробно разберем, для чего нужен файл robots.txt, где его найти и из чего он состоит.

Зачем нужен robots.txt

Файл robots.txt служит для:

Простыми словами рассказываем, что такое robots.txt.

Как искать robots.txt

Файл robots.txt можно найти по адресу: domen.ru/robots.txt. Он расположен в корневом каталоге сайта и открывается по данной ссылке. Например, путь до robots.txt нашего сайта выглядит так: https://eurobyte.ru/robots.txt.

Robots.txt сайта Евробайт.

Требования поисковых систем

У ПС существуют особые требования к файлу robots.txt. Например, требования от Яндекса:

  1. Общий размер файла robots.txt не должен быть больше 500 КБ.
  2. Это TXT-файл с наименованием robots — robots.txt.
  3. Файл обязан располагаться в корневом каталоге веб-сайта.
  4. Требуется, чтобы robots.txt был доступен для поисковых роботов.
  5. Сервер, на котором располагается веб-ресурс, отвечает HTTP-кодом со статусом 200 OK.
  6. Если robots.txt будет не соответствовать данным требованиям, веб-сайт будет считаться открытым для индексации.

Требования поисковой системы Google:

  1. Файл должен называться именно robots.txt.
  2. На веб-ресурсе должен находиться только единственный файл robots.txt.
  3. Располагаться документ должен в корневом каталоге.
  4. Любое текстовое содержимое после символа # считается комментарием.
  5. Помните, что robots.txt не предназначен запрещения показа веб-страниц в результатах поиска Google.

Как закрыть сайт от индексации с помощью robots.txt

Чтобы тестовый вариант сайта не попал в поисковые системы, закройте его от индексации. Создайте файл robots.txt со следующим содержанием:

User-agent: *

Disallow: /

Так выглядит запрет на индексацию всех страниц сайта.

Из чего состоит файл robots.txt

Файл состоит из списка правил (директив), которые указывают поисковым роботам, какие страницы сайта нужно добавлять в индекс, а какие нет. Ниже мы расскажем об основных директивах файла.

User-agent

Директива User-agent позволяет задать разные правила обхода сайта для разных приложений. Например, если вы установите правило User-agent: YandexBot, то эти правила будут обрабатываться только основным индексирующим роботом Яндекса. User-agent: * задает правила для всех роботов. Однако, если обнаружена строка User-agent: Yandex, то строка User-agent: * не учитывается Яндексом. Выглядит эта директива так:

User-agent: *

Disallow и Allow

Disallow — директива, запрещающая индексацию страниц (например, технических разделов, страниц поиска по сайту, дубликатов). Например:

User-agent: *

Disallow: / # не разрешает обход всего сайта


User-agent: *

Disallow: /product # не допускает обход страниц, адрес которых начинается с /product

Директива Allow напротив допускает индексирование разделов или отдельных страниц веб-ресурса. Например:

User-agent: *

Allow: /catalog

Disallow: /


# не разрешает скачивать все, кроме страниц начинающихся с /catalog

Sitemap

Директива Sitemap указывает путь до специальной карты сайта sitemap.xml. Если на вашем проекте предусмотрено несколько файлов sitemap.xml, то указывайте путь до каждого. Например:

User-agent: *

Allow: /

Sitemap: https://site.ru/sitemap.xml

Заключение

Таким образом, файл robots.txt позволяет управлять попадаем в индекс ПС страниц вашего веб-сайта. Помните, что для поисковой системы Google правила, описанные в этом файле, не являются строгими. Подробнее о правильном составлении robots.txt вы можете прочитать в справках Яндекса и Google. Если у вас остались вопросы, задавайте их в комментариях. Спасибо, что дочитали!

Автор: Евробайт

Поделиться

Похожие статьи

Sitemap.xml — что это?

Sitemap.xml — это специальный файл, где собраны все ссылки на страницы сайта, которые следует проиндексировать в поисковых системах (ПС), например, в Яндекс или Google.

Что такое факторы ранжирования

Факторы ранжирования — это совокупность факторов и признаков, по которым поисковые системы понимают, на каком месте должна отображаться страница сайта в поисковой выдаче.

Что такое реферальный маркетинг?

Реферальный маркетинг — это инструмент для продвижения продукта или услуги с помощью реальных людей.

Зачем нужен robots.txt Как искать robots.txt Требования поисковых систем Как закрыть сайт от индексации с помощью robots.txt Из чего состоит файл robots.txt User-agent Disallow и Allow Sitemap Заключение