Как закрыть сайт от индексации в поисковых системах
Уметь общаться с роботами поисковиков необходимо каждому вебмастеру, в том числе, чтобы устанавливать для них запреты. В статье мы расскажем об основных способах закрыть сайт от индексации.
Этот текстовый документ поисковые роботы проверяют в первую очередь. Robots.txt находится в корневой директории сайта и содержит в себе указания для краулеров: какие страницы индексировать разрешено, какие — запрещено и для каких конкретно роботов стоят эти запреты. Обычно именно в robots.txt вебмастера закрывают веб-ресурс от индексирования — полностью или частично.
Изображение от storyset на Freepik.Если в корне вашего проекта файла с таким именем нет, это значит, что для индексации открыты абсолютно все веб-страницы. Как мы уже сказали, полное отсутствие запретов не есть хорошо, поэтому вам необходимо создать «роботс» самостоятельно и прописать в нем правила. Для этого откройте пустой текстовый файл на компьютере (в формате .txt) и назовите его «robots» (все буквы в нижнем регистре). Теперь займемся настройкой.
Чтобы в robots закрыть от индексации сразу весь веб-сайт, впишите туда код:
User-agent: *
Disallow: /
Директива user-agent показывает имя бота, которому адресована следующая команда, в данном случае она относится ко всем поисковикам. В disallow (запретить) указывается относительный адрес страниц, которые нужно закрыть от индексирования. Знак слэша означает запрет для всего сайта.
Если вам требуется закрытие индексации только для одной поисковой системы, в первой строке вместо звездочки пропишите название ее краулера: например, «Yandex» для Яндекса. Списки имен поисковых роботов можно найти в интернете.
Бывает, что нужно закрыть доступ всем ботам, кроме одного. Допустим, мы хотим открыть сканирование только для Google. Тогда пропишем в robots.txt:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
Директива allow, как можно догадаться, разрешает действие. Таким образом, мы установим запрет для всех, за исключением гуглобота. После того как вы напишите команды, файл robots.txt необходимо загрузить на сервер в корневую папку. Он должен быть доступен по ссылке вида domain.ru/robots.txt.
Второй по популярности способ закрыть сайт от индексации — использование специального метатега. В отличие от TXT-файла, тег robots прописывается для каждой страницы отдельно и воспринимается ботами уже более серьезно. Чтобы применить его, откройте HTML-код своего сайта и добавьте в блок <head> одну из строк:
<meta name="robots" content="noindex, nofollow"/>
<meta name="robots" content="none"/>
Здесь атрибут name выполняет ту же функцию, что и user-agent в предыдущем методе, т. е. указывает имя робота, которому отдается команда. Если хотите запретить индексирование всем, используете значение robots.
В атрибуте content содержатся конкретные указания, как действовать. Он может иметь следующие значения:
index
(индексировать контент);noindex
(не индексировать ничего, кроме ссылок);follow
(индексировать ссылки);nofollow
(индексировать контент, но не ссылки);all
(индексировать всё);none
(не индексировать ничего).Если от сканирования нужно закрыть все содержимое веб-документа, используются noindex и nofollow вместе или просто none. В случае необходимости запрета для определенного краулера в поле name пишется его имя.
И хотя указания через этот метатег для поисковиков приоритетнее, у него есть один большой недостаток: чтобы запретить индексацию сайта целиком, нужно внедрить тег на каждую страницу. Впрочем, если они формируются динамически, достаточно прописать команду в шапке.
Часто, при разработке сайта с помощью систем управления контентом, приходится закрывать его от индексации, чтобы поисковики не добавляли в базу «сырую» версию проекта и не снижали рейтинг домена. Для этого в CMS предусмотрены специальные инструменты. Мы покажем процесс закрытия ресурса на примере WordPress, но на остальных платформах схема будет похожей.
Итак, вам необходимо зайти в административную панель ВордПресс. Далее выберите вкладку «Настройки» и перейдите в пункт «Чтение». Поставьте галочку в чекбоксе рядом с надписью «Попросить поисковые системы не индексировать сайт». Нажмите «Сохранить изменения». Готово! Теперь CMS самостоятельно отредактирует файл robots.txt. Но, как мы и говорили, он носит рекомендательный характер, поэтому станут ли роботы следовать этим указаниям, зависит от конкретной системы.
Также подобную операцию можно провернуть посредством расширений. Управление индексацией доступно во всех популярных SEO-плагинах. Например, в Yoast SEO. Там есть возможность установить запрет для отдельных страниц и даже файлов.
Все вышеперечисленные методы подойдут для того, чтобы создать запрет на индексирование конкретной веб-страницы. Нужно лишь использовать соответствующие значения для директив и метатегов.
Чтобы запретить сканирование через robots.txt, примените конструкцию вида:
User-agent: *
Disallow: /page.html
Где «page» — относительный URL страницы, которую нужно закрыть. Относительный — значит без указания протокола и домена, только часть адрес после слэша. Так же можно ограничить роботам просмотр отдельных каталогов, папок, подкатегорий, конкретных файлов или файлов определенного формата.
Более эффективно будет скрыть веб-страницу от поисковых систем при помощи уже описанного метатега robots. Просто добавьте его в код нужного документа. Кроме того, существует специальный тег <noindex>, который можно разместить в любой части HTML-кода, чтобы, например, запретить индексирование текстового фрагмента:
<noindex>текст, который нужно скрыть от бота</noindex>
А при работе с CMS запрет индексации отдельной страницы легко осуществляется через плагины, об этом мы уже упомянули выше.
Внесение веб-сайта в базу данных поисковой системы — процесс отчасти загадочный, ведь у каждой ПС свои алгоритмы и нюансы. Поэтому заранее сказать, сработает ли запрет для конкретного робота, нельзя. Пробуйте разные методы и обязательно проверяйте доступность сайта или страниц в специальных сервисах. Для Яндекса это панель Вебмастера, для Google — консоль GSC. В них можно делать проверку URL и отслеживать видимость контента в поиске. Для этой цели подойдут также браузерные расширения вроде RDS Bar.
Теперь вы знаете самые распространенные способы закрытия веб-ресурса от индексации. Надеемся, наша статья оказалась для вас полезной.
Автор: ЕвробайтПоделиться
Система управления контентом (CMS) WordPress — самая популярная платформа для создания сайтов в мире. Она бесплатная и обладает большой библиотекой тем и плагинов, однако зачастую использование множества расширений приводит к замедлению работы проекта.
Сертификаты TLS/SSL используют, чтобы обеспечить между пользователем и сайтом защищенный обмен данными. После установки сертификата безопасности на сайте начинает действовать протокол https, рекомендуемый всеми браузерами.
Вся суть оптимизации под поисковые системы (SEO) заключается в том, чтобы продвинуться в выдаче по целевым запросам как можно выше. Вебмастера постоянно экспериментируют, пытаясь различными способами улучшить представительство сайта в поиске.
On our site you can pay
for services with cryptocurrency
Надёжные VPS серверы с посуточной оплатой в России и Европе.
От 10 ₽ в день!
Арендовать виртуальный сервер