Как правильно создать Robots.txt

Статья № 3

Файл Robots.txt – это обычный текстовый файл в формате .txt, содержащий инструкции и директивы для поисковых роботов, запрещающие индексировать определенные файлы сайта, его документы и папки.

Robots играет одну из важнейших ролей для поисковой оптимизации.

Robots Exclusion Protocol (файл Robots.txt - протокол исключения) необходим для того, чтобы указать поисковой машине, какие страницы сайта индексировать не следует.

Поисковые системы при каждом сканировании сайта обращаются именно к Robots.txt, чтобы узнать, существует ли запрет на индексацию страницы этого сайта.

В файле Robots находятся основные инструкции, которым должен следовать робот.
Например: Если страница содержит какие-то графики или картинки, и не имеет текстового содержимого. Или вы не хотите, чтобы в результате поиска выдавались закрытые разделы вашего сайта такие как папки /admin/ и тому подобные.
А также, ненужные страницы, не содержащие полезной для пользователей информации, исключаются из поиска. И указывается путь к Sitemap.

Одним словом, когда вам придётся сделать так, чтобы эта страница или этот каталог не попали в индекс поисковой машины, вот тогда вы и вспомните о файле Robots.txt.

Важно уметь корректно настраивать данный файл, так как от этого зависит видимость вашего сайта в поисковых системах.

Где находится и как создать Robots.txt

Файл robots.txt находится в корневой директории сайта. Например на нашем сайте путь к файлу Robots будет таким:
http://webps.ru/robots.txt.

Поисковый робот заходит на ваш сайт и проверяет нахождение файла robots.txt.

Первое что вы должны сделать это создать текстовый файл, сохранить его под именем robots.txt и поместить в корневую директорию сайта. Если робот находит такой файл, то начинает анализировать его инструкции, и неукоснительно следовать вашим указаниям.

Итак, создаём файл с именем robots.txt

User-agent: *

На этом примере видно, что мы разрешаем индексирование файла.

Disallow – это информация которая запрещает поисковому роботу сканировать.

User-agent: *Disallow: /

На этом примере мы запретили всем роботам индексировать весь сайт.

Disallow – разрешено индексировать весь сайт:

User-agent: *Disallow:

Как видно на данном примере, стоит убрать слеш, как инструкция поменяет смысл:

Здесь мы запрещяем сканирование всех документов, находящихся в папке /Admin/

User-agent: *Disallow: /Admin/

Обратите внимание, название каталога обрамлено слешами с обеих сторон.

Запрещяем индексацию страницы с конкретным URL:

User-agent: *Disallow: /paroli.html

В этом случае слеша в конце быть не должно.

Вот так будет выглядеть стандартный шаблон структуры файла robots для обычного веб-сайта

User-agent: * 
Disallow:

User-agent: Yandex
Disallow: 
Host: yor-site.ru
Sitemap: https://yor-site.ru/sitemap.xml

Как видно из инструкции выше, файл содержит блоки с инструкциями и начинается он, с правила User-agent указывающего к какому роботу идет обращение и прописываются директивы ниже.

Теперь разберем, всё по порядку.

1. Здесь два списка правил – один «персонально» для Яндекса, другой – для всех остальных поисковых роботов.
2. Правило Disallow: пустое, а значит никаких запретов на сканирование нет. В списке для Яндекса присутствует директива Host с указанием основного зеркала, а также, ссылка на карту сайта.

Резюмируем правила:/директивы/инструкции для robots.txt

User-agent — указывает, для какого именно поискового робота создан список правил.
Disallow – «рекомендую вот это не индексировать».
Sitemap – указывает расположение XML-карты сайта со всеми URL, которые нужно проиндексировать. В большинстве случаев карта расположена по адресу http://[ваш_сайт]/sitemap.xml.
Host – показывает Яндексу основное зеркало сайта.
Allow – «рекомендую вот это проиндексировать, не смотря на то, что это противоречит одному из Disallow-правил».

Из этой статьи мы узнали, что поисковые системы при каждом сканировании сайта обращаются именно к Robots.txt. Чтобы определить, существует ли запрет на индексацию страницы этого сайта. В следующей статье мы разберём что такое сниппет?

Читайте также:

Создано: 05.12.2020.|Обновлено: 24.12.2022.