Добро пожаловать на портал вебмастеров WebmastersBY
SEO и раскрутка сайта

15 самых распространенных ошибок в robots.txt в 2026 году

Файл robots.txt является важным инструментом, определяющим доступ к вашему сайту для поисковых роботов. Поэтому допущенные в нем ошибки необходимо знать – чтобы избегать и исправлять на самой ранней стадии их появления.

15 самых распространенных ошибок в robots.txt в 2026 году

Понимание назначения и знание директив файла robots.txt является базовым и обязательным для любого SEO-специалиста. Тем не менее, на многих проектах буквально годами “висят” одни и те же ошибки, вызывающие одни и те же проблемы. Зачастую это не просто опечатки или результаты невнимательности, а незнание основ.

В нашей статье мы скомпилировали 15 самых частотных ошибок, которые оптимизаторы допускают при создании и редактировании robots.txt. Практически все эти ошибки вызваны двумя основными факторами:

  • неправильным пониманием принципа работы файла,
  • неоправданным и чрезмерным усложнением директив.

Надеемся, что наша публикация поможет вам проверить корректность директив и навести порядок в индексации страниц вашего сайта.

1. Использование универсального robots.txt из дистрибутива вашей CMS

Как правило, типовой robots.txt решает типовые для движка задачи и вряд ли может учесть нюансы ваших доработок и кастомизации. Таким образом, необходимо внимательно проверять его содержимое, прежде чем сборка будет переведена в продакшен-состояние.

В отдельных случаях в первоначальном виде robots.txt вообще блокирует переходы по любым адресам:

User-agent: *
Disallow: /

Это имеет смысл при условии, что сборка мгновенно выгружается на рабочий домен, и проект разрабатывается в режиме “на лету”. Невнимательные веб-разработчики часто переводят проект в режим продакшен, не проверив содержимое robots.txt, в результате чего на протяжении недель (а иногда и месяцев) сайт остается непроиндексированным.

Аналогичным образом, при восстановлении проекта рабочий robots.txt часто забывают перевести в режим полной блокировки, оставляя включенным режим полной доступности:

User-agent: *
Disallow:

В результате все технологические правки начинают индексироваться.

2. Блокировка дублей по мета-тегам canonical

Обычно если в CMS имеются возможности появления страниц-дубликатов или дублей, основной адрес маркируется мета-тегом canonical:

<link rel="canonical" href="https://webmasters.by/seo/15-common-robots-txt-mistakes" />

Этого более чем достаточно для того, чтобы расставить приоритеты для поисковиков. Если же заблокировать дубли в robots.txt, боты не будут заходить на эти страницы и не увидят основной URL. Результат – сохранение дублей в поисковой выдаче.

3. Конфликты noindex и robots.txt

Непонимание азов использования директив robots.txt и мета-тега noindex всегда приводит к неприятным последствиям. Так, если запрет на индексацию реализован мета-тегом:

<meta name="robots" content="noindex" />

, то запрет на переход роботов по таким адресам не даст им возможность “увидеть” данный запрет. А это автоматически приведет к тому, что такие страницы могут как появиться в индексе, так и не быть из него удаленными.

4. Правильно указываем регистр

Использование в локациях комбинации символов верхнего и нижнего регистра не считается правильной практикой формирования CMS адресного пространства. Тем не менее, такие ситуации случаются – чаще по инициативе веб-разработчика.

Если подобные адреса необходимо заблокировать, не забывайте о том, что директивы robots.txt чувствительны к регистру:

User-agent: *
Disallow: /
# Эти две директивы указывают на две различные папки:
Allow: /content
Allow: /Content

В примере выше директивы Allow относятся к двум разным локациям.

5. Пропуск слэшей

Необходимо понимать, что наличие в значении директивы концевой наклонной (trailing slash) может создать неприятную ситуацию. Например, блокировка /admin/ не заблокирует сканирование /admin поисковыми роботами. Поэтому концевых слешей в лучше избегать или применять их, четко понимая результат.  Или используйте символ $, обозначающий конец строки.

Аналогичным образом, не забываем и про необходимость наличия слэша в начале строки. Так называемый initial slash многими не считается обязательным, однако в наставлении для разработчика Google все примеры глобальных блокировок сопровождает именно наличием лидирующих слэшей:

User-agent: *
Disallow: /includes/

User-agent: Googlebot
Allow: /includes/

6. Избегаем абсолютных адресов

Невнимательные разработчики иногда забывают об этом правиле и используют подобную нотацию:

User-agent: Yandex
Disallow: /
Allow: https://webmasters.by/seo

Эта директива неправильная. Поисковые роботы проигнорируют ее и просканируют страницу, не предназначенную для этого.

7. Запрет на переходы по ресурсным файлам

Не стоит забывать о том, что любой поисковик стремится к тому, чтобы “увидеть” ваш сайт именно так, как его видит живой пользователь. Поэтому ошибкой является блокировка JS-скриптов, CSS-стилей, а также любых изображений:

User-agent: *
Disallow: /*.css$

8. Использование robots.txt для конфиденциального контента

Во-первых, robots.txt формально не может запретить переходы по отдельным адресам. “Уважение” его директив не гарантируется само по себе, тем более если речь идет о вредоносных ботах.

Во-вторых, данный файл никак не скрыт от любопытных глаз, поэтому все, что вы захотите в нем скрыть, увидят и злоумышленники и конкуренты:

# Все это видят и злоумышленники и ваши конкуренты:
User-agent: *
Disallow: /private/

Поэтому все, что должно быть скрыто от посторонних глаз, закрывайте паролем или разграничением доступа, реализованным в API вашей CMS.

9. Блокировка доступа к редиректам

Редиректы важны для поисковой оптимизации – в том числе как индикатор изменений для поисковиков. Если вы заблокируете сканирование страниц, с которых настроены редиректы, Яндекс и Google так и не узнают об изменениях в ссылочной структуре вашего сайта:

# Так неправильно если с some-page настроен редирект. Например, 301:
User-agent: *
Disallow: /some-page

Здесь же укажем на недопустимость блокировки сканирования удаленных страниц. Если их адреса добавить в robots.txt, коды 404 и 410 будут недоступны для поисковых систем. Соответственно и удаления из индекса не произойдет:

# Если эта страница удалена, нельзя блокировать ее сканирование:
User-agent: *
Disallow: /i-do-not-exist
# Иначе она останется в индексе поисковиков

10. Применяемость robots.txt

Важно понимать, что директивы robots.txt имеют ограниченное применение. Если он расположен по адресу https://example.com/robots.txt, его влияние не будет распространяться на поддомены (включая www) и доступ по http-протоколу. 

11. Ошибки в указании User-Agent

При невнимательном указании (или пустом значении) User-Agent последствия могут быть непредсказуемыми, но скорее всего последующие директивы будут проигнорированы, и роботы будут допущены к нежелательным адресам:

# Так нельзя:
User-agent: 
# ... и так тоже нельзя:
User-agent: Яндекс

12. Неправильное размещение robots.txt

До сих пор некоторые оптимизаторы считают возможным разместить robots.txt в каком-нибудь подкаталоге – в целях безопасности. Это совершенно неправильно. Ни один валидатор не позволит вам указать местоположение robots.txt и будет искать его только в корневой папке.

13. Использование устаревших директив

Непонятно, откуда все эти приходит, но есть масса примеров использования в robots.txt устаревших и более неподдерживаемых директив crawl-delay и даже некой мифической noindex. Кратко напомним:

  • директивы ограничены User-agent, Disallow, Allow и Sitemap,
  • спецсимволы – это # (комментарий), $ (конец строки) и * (любой символ).

14. Использование директивы Clean-param

Во-первых, директива Clean-param, поддерживается только Яндексом. Во-вторых, она предписывает роботам Яндекса (читаем внимательно):

  • не учитывать параметры URL’а,
  • передавать вес дублей указанной основной странице,
  • после этого удалять дубли из поиска.

Видимо, в Яндексе что-то знали про блокировку URL’ов с параметрами и решили потешить гуру поисковой оптимизации:

User-agent: Yandex
# Для страницы page.html игнорировать параметр utm_source:
Clean-param: utm_source /page.html

На самом деле, если у вас правильно указаны canonical urls, вам не понадобятся ни блокировка параметров, ни Clean-param, ни другие теории заговора.

15. Отсутствие директивы Sitemap

Файл robots.txt – это первое, что изучает поисковый робот, поэтому будет большой ошибкой не использовать возможность предложить ему XML-карту сайта:

User-agent: *
Disallow:
# Не забываем про карту сайта:
Sitemap: https://webmasters.by/sitemap.xml

Сомнительно, чтобы в 2026 году у вебмастера не было других способов поделиться с поисковиком картой сайта, но так и быстрее и эффективнее. В том числе и для краулингового бюджета.

Заключение

Несмотря на запредельную простоту использования файла robots.txt, в 2026 году все еще находятся кейсы грубейших ошибок, которые препятствуют правильной индексации сайта. Надеемся, что наш скромный гайд помог вам прояснить некоторые спорные моменты и избежать ошибок в дальнейшем.

Комментарии 0
Комментарии отсутствуют

Новый комментарий

Ваш комментарий будет доступен для редактирования 10 минут