Google записал новый выпуск разрушителей SEO-легенд, в котором Мартин Сплит рассказал про краулинговый бюджет.
Основные мысли:
— Google хочет просканировать как можно больше контента.
— В то же время нужно не перегрузить сервер.
— Также нет смысла сканировать то, что не меняется.
— Новостные сайты сканируются чаще, чем сайты про историю.
Как Google узнает, что сайт меняется?
— Сохраняется фингерпринт контента и позже сравнивается до и после сканирования.
— Учитывается дата изменения контента. Через микроразметку или элементы даты на странице.
— ETag или Last-Modified, как и другие элементы, где можно задать дату, будут учитываться как подсказки, но не как четкие инструкции.
— Google отслеживает частоту изменений.
— Если автоматически менять Last-Modified в HTTP заголовках и дату в sitemap.xml, при этом без изменений в контенте, то в этом нет смысла, это не поможет, Google не хочет бесполезно тратить ресурсы.
— О краулинговом бюджете должны беспокоиться только большие сайты. С миллионом страниц.
И еще, настройки и скорость:
— Настройки/скорость сервера это не проблема краулингового бюджета, это проблема вашего сервера. Но Google не понимает, это он вас перегрузил запросами или у вас так всегда со скоростью, поэтому скорость сканирования будет снижаться.
— Качество контента это не проблема краулингового бюджета, хотя Google конечно не будет его индексировать, это проблема качества контента.
— Sitemap помогает узнавать о новых урлах и сканировать их быстрее.
— Но быстрое сканирование не всегда решает настоящие проблемы сайта.
Поговорим про Ecommerce
Если говорить про eCommerce, где много маленьких похожих страниц, как Google с этим работает? Мартин предлагает подумать, должны ли похожие страницы вообще существовать? Может имеет смысл небольшие вариации товара (цвет, размер и пр) описать в одной таблице?
При изменениях на сайте Мартин рекомендует делать их постепенно, по одному за раз. А не сразу смена текста, сервера, адресов страниц, домена…
Краулинг и рендеринг
Краулинг и рендеринг происходят не одновременно, так как для рендеринга страницы нужно прокраулить много документов/скриптов/стилей, и снова, при этом не перегрузить сервер. Google кеширует API запросы, если они используют GET, но не кешируют POST-запросы.
Часто задаваемые вопросы и ответы на них
⚫ Влияет ли краулинг на качество контента?✅️ Нет, гугл в любом случае зайдет на страницу, контент может и не понравиться гуглу и страницу может не проиндексировать. Но вопрос контента — это не вопрос краулинга.
⚫ Как часто Google отслеживает изменения на сайте?✅️ Все зависит от самих изменений на сайте, чем реже происходят изменения, тем реже гугл бот посещает сайт и наоборот. Например, на такие сайты как новостники, где контент обновляется постоянно, бот заходит чаще, чем, например на сайты услуг, где тот обновляется реже.
⚫ Как часто надо обновлять контент?✅️ Чем чаще, тем лучше. Важно не просто обновлять контент, а улучшать его, делать сайт полезнее и лучше для пользователя.