Расширенная инструкция по настройке файла robots.txt

kak-sozdat-i-nastrioit-robots.txt

Расширенная инструкция по настройке файла robots.txt

ROBOTS.TXT — файл, который является инструкцией, для поисковых роботов и указывает им где и куда рекомендуется переходить по сайту. 

Все основные поисковые системы функционально поддерживают директивы robots.txt, но некоторые из них требуют указывать дополнительные правила, которые также могут быть полезны. Все эти правила мы рассмотрим в данной статье.

В этом руководстве вы узнаете все способы использования robots.txt на вашем веб-сайте. Это очень просто, но, несмотря на простоту, любые ошибки, которые вы допускаете в файле robots.txt, могут нанести серьезный вред вашему сайту. 

Поэтому, обязательно, прочитайте и детально изучите эту статью, до того, как будете редактировать файл robots.txt.

Если, после прочтения данной статьи вам все еще непонятно, что делать с robots.txt, то рекомендуем обратиться к нам за помощью по этим контактам

Содержание

Что такое файл robots.txt?

Файл robots.txt — это текстовый файл, который читается поисковыми роботами и имеет строгий синтаксис. Эти краулеры также называются роботами — отсюда и название — и синтаксис файла строгий только потому, что он должен быть читаемый ботом. Это означает, что здесь нет места ошибкам — значение или 1, или 0, должно біть точнім, без компромиссов

Robots.txt также называется «Протокол исключения роботов из индекса», является результатом консенсуса среди ранних разработчиков краулер-ботов поисковой системы. Это не официальный стандарт, установленный организациями по стандартизации, но все основные поисковые системы придерживаются его.

Стандарт humans.txt — что делает robots.txt?

Когда-то, некоторые разработчики сели и решили, что, раз сеть предназначена для людей, и поскольку роботы получают файл robots на веб-сайте, у людей, которые его создали, тоже должен быть доступ к файлу. 

Поэтому они создали стандарт humans.txt, который, помимо прочего, позволяет людям узнать, кто работает на веб-сайте.

Поисковые системы индексируют веб-страницы путем связывания страниц, переходя по ссылкам сайта с url A на url B на сайт C и так далее. 

Прежде чем поисковая система обнаруживает любую страницу в домене, с которой она ранее не сталкивалась, она открівает robots.txt сайта. Он сообщает поисковой системе, какие URL на этом сайте разрешено индексировать, а какие не рекомендуется.

Поисковые системы обычно кэшируют содержимое файла robots.txt, но обычно обновляют его несколько раз в день, поэтому изменения будут отражаться довольно быстро.

Где разместить файл robots.txt?

Файл должен всегда находиться в корневом каталоге вашего домена. Поэтому, если ваш домен https://seo-ua.pro , его следует разместить по адресу https://seo-ua.pro/robots.txt .

Также очень важно, чтобы ваш файл назывался именно robots.txt. И никак иначе. Название файла чувствительно к регистру, и если будет другим файл robots просто не будет работать.

Плюсы и минусы использования robots.txt — управление бюджетом сканирования

Обычно считается, что поисковый паук приходит на веб-сайт с заранее заданным «разрешением» на то, сколько страниц или ресурсов он будет сканировать. И сколько времени ему на это понадобится. Специалисты seo, вебмастера  и другие оптимизаторы называют это краулинговым бюджетом сканирования.

Если вы блокируете разделы своего сайта от паука поисковой системы, вы можете разрешить использовать неизрасходованные лимиты бюджета сканирования для других разделов и урл

.

Иногда бывает очень полезно запретить поисковым системам сканировать проблемные разделы вашего сайта. Это касается, особенно тех страниц сайта, где необходимо провести большое количество SEO оптимизации.

После того, как вы привели страницы в порядок, вы можете вернуть их обратно.

Примечание о блокировке параметров GET запроса

Одна из ситуаций, когда бюджет обхода особенно важен, — это когда ваш сайт использует много GET параметров запроса для фильтрации и сортировки. 

Допустим, у вас есть 10 различных параметров запроса, каждый из которых имеет разные значения, которые можно использовать в любой комбинации. Это приводит к сотням, если не тысячам возможных URL, которіе могут попасть в индекс.

Блокировка всех параметров GET запроса от сканирования поможет избежать индексации лишних дублированніх страниц с GET запросами. 

Однако, стоит быть внимательным и убедиться, что поисковая система отображает основные URL-адреса вашего сайта, а в файле robots.txt не заблокированы основные урл, в противном случае они тоже могут быть исключены из индекса поисковой системы

Эта строка блокирует все URL на вашем сайте, содержащие строку запроса GET “?”:

Disallow: / *? *

Блокировка url в robots.txt  не гарантирует удаление страницы из результатов поиска

Даже если вы используете robots.txt, чтобы сообщить пауку, на какие страницы он не может перейти, это не гарантирует 100% блокировки этих страниц от индексации роботом. Вы можете только рекомендовать поисковой системе, какие URL не показывать в результатах поиска. Другими словами, если Google посчитает необходимым проиндексировать url блокировка в robots.txt не помешает его индексации. Для этого нужно применять другие методы закрытия урл от индексации

Если поисковая система найдет достаточно ссылок на этот URL, она включит ее в поисковую выдачу,, она просто не будет знать, что находится на этой странице. Таким образом, ваш результат будет выглядеть следующим образом:

Если вы хотите надежно заблокировать отображение страницы в результатах поиска, вам необходимо использовать мета-тег <meta name=»robots» content=»noindex, nofollow»/> c директивой noindex. Для  этого поисковая система должна иметь возможность доступа к этой странице, поэтому не блокируйте ее паралельно с помощью robots.txt.

Директивы Noindex

Раньше можно было добавлять директивы noindex в ваш robots.txt и удалять URL-адреса из результатов поиска Google теперь єта функция может не поддерживаться, т.е. технически она может не сработать..

Ссылки не будут работать

Если поисковая система не может сканировать страницу, она не может распространять значение ссылки по ссылкам на этой странице. Когда страница блокируется с помощью robots.txt, это тупик. Любое значение ссылки, которая могла бы попасть на эту страницу (и через нее), теряется.

Robots.txt синтаксис

Robots.txt Файл состоит из одного или более блоков директив, каждая начинается со строки агента пользователя. «Пользователь-агент» — это имя конкретного паука, к которому он обращается. Вы можете иметь один блок для всех поисковых систем, используя подстановочный знак для пользовательского агента, или специальные блоки для определенных поисковых систем. Паук поисковой системы всегда будет выбирать блок, который лучше всего соответствует его имени.

Эти блоки выглядят так (не пугайтесь, мы объясним ниже):

User-agent: *

Disallow: /

User-agent: Googlebot

Disallow:

User-agent: bingbot

Disallow: / not-for-bing /

Директивы “Разрешать и запрещать” рекомендуется указывать с учетом регистра, но итак они могут работать, поэтому вам решать, будете ли вы писать их строчными или прописными буквами. Но нужно понимать, что значения в файле чувствительны к регистру. Например:   / foto / не то же самое, что  / Foto/. Нам нравится использовать заглавные буквы в директивах, потому что это облегчает чтение (для людей) файла.

Идентификация робота поисковой системы

Первый бит каждого блока директив является пользователь-агент, который идентифицирует конкретного паука. Поле user-agent сопоставляется с пользовательским агентом этого конкретного паука (обычно более длинным), поэтому, например, наиболее распространенный паук из Google имеет следующий user-agent:

Mozilla / 5.0 (совместимый; Googlebot / 2.1; + http: // www.google.com/bot.html)

Так что, если вы хотите сказать этому пауку, что делать, укажите его по имя пользовательский агент: Googlebot строка поможет.

Большинство поисковых систем имеют несколько пауков. Они будут использовать определенного паука для своего обычного индекса, для своих рекламных программ, для изображений, для видео и т. д.

Поисковые системы выбирают конкретную директиву

Поисковые системы всегда будут выбирать наиболее конкретный блок директив, которые они могут найти. Скажем, у вас есть 3 набора директив: один для *, один для Googlebot и один для Googlebot-News. Если бот приходит от пользователя, агентом которого является Googlebot-Video, он будет следовать ограничениям Googlebot. Бот с пользовательским агентом Googlebot-News будет использовать более конкретные Googlebot-News директивы.

Наиболее распространенные пользовательские агенты для поисковых систем-пауков

Вот список саміх популярных пользовательских агентов, которые вы можете использовать в своем robots.txt файле для соответствия наиболее часто используемым поисковым системам:

Поисковая системаПолевойпользовательский агент
BaiduGeneralbaiduspider
BaiduImagesbaiduspider-image
BaiduМобильныйbaiduspider-mobile
BaiduNewsbaiduspider-news
BaiduВидеоbaiduspider-video
BingGeneralbingbot
BingGeneralmsnbot
BingИзображения и видеоmsnbot-media
BingAdsadidxbot
GoogleGeneralGooglebot
GoogleИзображенияGooglebot-Image
Google длямобильных устройствGooglebot-Mobile
GoogleНовостиGooglebot-News
GoogleВидеоGooglebot-Video
GoogleAdSenseMediapartners-Google
GoogleAdWordsAdsBot-Google
Yahoo!ГенеральныйYahoobot
ЯндексОбщегоЯндекс

Disallow директивы

Вторая строка в любом блоке директив является Disallow. строкой  Вы можете иметь одну или несколько из этих строк, указывающих, к каким частям сайта указанный паук не может получить доступ. 

Пустая Disallow строка означает, что вы ничего не запрещаете, поэтому в основном это означает, что паук может получить доступ ко всем разделам вашего сайта.

В приведенном ниже примере все поисковые системы, которые «воспринимают» robots.txt, не будут сканировать ваш сайт.

User-Agent: *

Disallow: /

В примере ниже применяется, лишь один символ, чтобы все поисковые системы индексировали весь сайт.

User-agent: *

Disallow:

Приведенный ниже пример запретил бы Google сканировать Photo каталог на вашем сайте — и все, что в нем. 

User-agent: googlebot

Disallow: / Photo

Это означает, что все подкаталоги каталога / Photo также не будут разделены. Это помешает Google не сканировать / photo каталог, так как эти строки чувствительны к регистру.

Это директива, также, заблокирует Google доступ к URL-адресам, содержащим / Photo, например / Photography /.

Как использовать подстановочные знаки / и регулярные выражения

«Официально», robots.txt не поддерживает регулярные выражения и подстановочные знаки, однако все основные поисковые системы его понимают. Это означает, что вы можете использовать строки с регулярными выражениями, чтобы блокировать группы файлов:

Disallow: /*.php

Disallow: /copyrighted-images/*.jpg которому

В приведенном выше примере * расширяется до любого имени файла. Обратите внимание, что остальная часть строки по-прежнему чувствительна к регистру, поэтому вторая строка выше не будет блокировать файл с именем /copyrighted-images/example.JPG от сканирования.

Сложные регулярные выражения

Некоторые поисковые системы, такие как Google, допускают более сложные регулярные выражения, но имейте в виду, что некоторые поисковые системы могут не понимать эту логику. Самая полезная функция, которую он добавляет, это $, который указывает на конец URL. В следующем примере вы можете увидеть, как это выглядит:

Disallow: /*.php$

Означает, что /index.php не может быть проиндексирован, но /index.php?p=1 может. Конечно, это полезно только в очень специфических обстоятельствах, а также довольно опасно: легко разблокировать вещи, которые вы на самом деле не хотели разблокировать.

Нестандартные директивы сканирования robots.txt 

Помимо Disallow и User-agent, есть пара других директив сканирования, которые вы можете использовать. Эти директивы поддерживаются не всеми сканерами поисковых систем, поэтому убедитесь, что вы знаете их ограничения.

Разрешить директиву

В оригинале нет определенной спецификации для разрешающей директивы. Но, большинство поисковых систем, понимают ее, и это позволяет использовать простые и очень читаемые директивы, такие как:

Disallow: / wp-admin /

Allow: /wp-admin/admin-ajax.php

Единственный другой способ достижения того же результата без разрешающей директива была бы конкретно запретить каждый файл в администратора.

Директива хоста

Поддерживаемой Яндексом (а не Google, несмотря то что говорят), эта директива позволяет решить хотите ли вы чтобы поисковик показал example.com или www.example.com.Просто указав это следующим образом:

host: example.com

Но поскольку только Яндекс поддерживает host директиву, мы не советуем вам полагаться на нее, тем более что она не позволяет определить схему (http или https). Лучшее решение, которое работает для всех поисковых систем, — это 301 редирект, который перенаправит имена хостов, которые вы укажете на версию, которую хотите. В нашем случае мы перенаправляем www.yoast.com на yoast.com.

Директива crawl-delay — обойти с задержкой 

Yahoo, Bing и Яндекс иногда могут очень активно посещать сайт, тем самы сильно нагружаю сервер, но к счастью все они отвечают требованиям директивы задержки, которая замедляет их скорость обхода. И хотя у этих поисковых систем разные способы чтения директивы, конечный результат в основном одинаков.

Строка, crawl-delay, проинструктирует Yahoo! и Bing ждать 10 секунд после действия сканирования, в то время как Яндекс будет заходить на ваш сайт только один раз каждые 10 секунд. Это семантическая разница, но все же интересно знать. 

Вот пример 

crawl-delay строки:

crawl-delay: 10

Будьте осторожны при использовании crawl-delay директивы. Установив задержку сканирования в 10 секунд, вы разрешаете этим поисковым системам получать доступ к 8640 страницам в день. Это может показаться большим для небольшого сайта, но на больших сайтах это не очень много. С другой стороны, если вы почти не получаете трафик от этих поисковых систем, это хороший способ сэкономить пропускную способность.

Директива для XML Sitemaps

Используя на сайте директиву XML Sitemap вы можете сказать поисковым системам, в частности Bing, Yandex и Google — где найти ваш XML карту сайта. Конечно, вы также можете отправлять свои XML-карты сайтов в каждую поисковую систему, используя соответствующие решения для веб-мастеров, и мы настоятельно рекомендуем вам это делать, потому что программы для поисковых инструментов для веб-мастеров предоставят вам много ценной информации о вашем сайте. 

Если вы не хотите этого делать, добавление сайта строки в ваш файл robots.txt является хорошей быстрой альтернативой.

Проверка robots.txt

Существуют различные инструменты, которые могут помочь вам проверить ваш robots.txt, но когда дело доходит до проверки директив сканирования, мы всегда предпочитаем обращаться к первоисточнику. 

У Google есть инструмент тестирования robots.txt в консоли поиска Google (в меню «Старая версия»), и мы настоятельно рекомендуем использовать именно его:

robots.txt Tester

Обязательно тщательно протестируйте свои изменения, прежде чем вы их запустите! Иначе можно случайно заблокировать весь ваш сайт и вылететь из выдачи в забвение поисковой системы!

Смотрите мой код сказал Google 

В июле 2019 года Google объявил, что делает свой парсер robots.txt с открытым исходным кодом. Это означает, что, если вы действительно хотите разобраться в проблемах, вы можете посмотреть, как работает их код (и даже использовать его самостоятельно или предложить его модификации).

Видео инструкция: Как создать и настроить файл robots.txt

Часто задаваемые вопросы и ответы на них

⛔ Как настроить robots.txt?

Чтобы самостоятельно настроить robots.txt необходимо использовать рекомендуемые правила указания директорий для этого файла, подробнее в нашей статье

⛔ Как закрыть от индексации папку в robots.txt?

Для закрытия от индексации папки в robots.txt используйте директиву Disallow

⛔ Где найти имена пауков поисковіх систем?

Такие имена можно, обычно найти в справках поисковых систем, или на нашем сайте

⛔ Можно ли к вам обратиться для настройки файла роботс?

Да мы можем помочь с настройкой файла robots.txt, а также провести “БЕСПЛАТНО” экспресс-аудит сайта.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *