www.rookee.ru

10 способов улучшить индексацию сайта и его доступность для сканирования

Рубрика: Теория и статистика | Время на чтение: 15 мин.

Если роботы поисковых систем не смогут обнаружить и просканировать страницы вашего сайта, никакая другая оптимизация не принесёт пользы. Чтобы этого избежать, необходимо максимально облегчить им процесс индексации и обеспечить высокий уровень доступности веб-ресурса для сканирования.

10 способов улучшить индексацию сайта и его доступность для сканирования

А спонсором блога в этом месяце выступает сервис Rookee. Когда требуется комплексное поисковое продвижение, реклама в Telegram или формирование репутации в интернете – на помощь приходят Rookee!

Ключевые слова и контент могут быть двумя главными столпами, на которых строится большинство стратегий поисковой оптимизации сайтов, но далеко не только они имеют значение.

Менее часто обсуждаемый, но не менее важный – не только для пользователей, но и для поисковых ботов – фактор – возможность обнаружения вашего сайта.

В Интернете насчитывается около 50 миллиардов веб-страниц на 1.93 миллиарда сайтов. Ни одна, даже самая большая, команда живых людей в мире не сможет изучить такое количество документов. Поэтому здесь важную роль играют боты поисковых систем, также называемые пауками.

Боты изучают содержание каждой веб-страницы, переходя по ссылкам с сайта на сайт и со страницы на страницу. Эта информация собирается в обширную базу данных, или индекс, URL-адресов, которые затем проходят через алгоритм поисковой системы для ранжирования.

Данный двухэтапный процесс навигации и понимания вашего сайта называется краулингом и индексированием.

Как SEO-специалист, вы, несомненно, уже слышали эти термины, но давайте дадим им определение для ясности:

  1. Доступность для краулинга (crawlability) показывает, насколько хорошо боты поисковых систем могут сканировать и индексировать ваши веб-страницы.
  2. Доступность для индексации (indexability) оценивает способность поисковой системы анализировать ваши веб-страницы и добавлять их в свой индекс.

Как вы, наверное, догадываетесь, оба эти аспекта являются неотъемлемой частью SEO.

Если ваш сайт недоступен для сканирования, например, на нём много битых ссылок и тупиков, поисковые машины не смогут получить доступ ко всему вашему контенту, что исключит его из индекса.

Возможность индексации, с другой стороны, жизненно важна, поскольку страницы, которые не проиндексированы, не будут появляться в результатах поиска. Как поисковая система может ранжировать страницу, которую она не включила в свою базу данных?

Процесс краулинга и индексирования немного сложнее, чем описано здесь, но для целей данной статьи, думаю, этого вполне достаточно.

Как улучшить краулинг и индексацию

Теперь, когда важность сканирования и индексирования вопросов не вызывает, давайте рассмотрим некоторые элементы вашего сайта, которые влияют на эти процессы, и обсудим способы оптимизации под них.

1. Улучшение скорости загрузки страниц

Учитывая миллиарды страниц, которые нужно каталогизировать, у веб-пауков нет целого дня, чтобы ждать, пока ваш сайт соизволит загрузиться. Здесь обычно принято делать отсылку к краулинговому бюджету.

Если страницы вашего сайта не загружаются в течение установленного времени, пауки покинут его. И это приведёт к недостаточному уровню сканирования и индексации. А это, как вы понимаете, не очень хорошо для SEO.

Поэтому хорошей практикой будет следить за скоростью загрузки страниц вашего сайта и улучшать её там, где это возможно. Обязательно используйте для этого Google Search Console и любой доступный SEO-софт.

Отчёт о скорости загрузки в Google Search Console

Если ваш сайт работает медленно, примите меры по устранению проблем. Это может включать модернизацию сервера или хостинга, включение сжатия, минификацию CSS, JavaScript и HTML, а также устранение или уменьшение количества редиректов.

Выяснить, что замедляет время загрузки сайта, можно с помощью отчёта Core Web Vitals. Если вам нужна дополнительная информация, особенно с точки зрения пользователя, Google Lighthouse – инструмент с открытым исходным кодом, который точно поможет.

2. Укрепление структуры внутренней перелинковки

Хорошая структура сайта и внутренняя перелинковка являются основополагающими элементами успешной SEO-стратегии. Неорганизованный сайт трудно просмотреть поисковым системам, поэтому внутренняя перелинковка является одной из самых важных вещей, которые может сделать SEO-специалист.

Но не верьте мне на слово. Вот что сказал по этому поводу Джон Мюллер из Google:

Внутренняя перелинковка очень важна для SEO. Я думаю, что это одна из самых важных вещей, которые вы можете сделать на сайте, чтобы направлять Google и посетителей на страницы, которые считаете важными.

Если у вас плохая внутренняя перелинковка, вы также рискуете получить страницы-сироты или страницы, не имеющие ссылок на другие части вашего сайта. Поскольку на эти страницы нет путей, единственный способ для поисковых систем найти их – карта сайта.

Чтобы устранить эту и другие проблемы, вызванные плохой архитектурой сайта, создайте логичную внутреннюю структуру для вашего проекта.

Главная страница вашего сайта должна ссылаться на внутренние разделы, поддерживаемые страницами, расположенными ниже по пирамиде. Эти подстраницы должны иметь контекстные ссылки там, где это кажется естественным.

Ещё одна вещь, за которой следует следить, – неработающие ссылки, в том числе с опечатками в URL. Это влечёт за собой критичную ошибку 404 (страница не найдена). А неработающие ссылки вредят краулингу.

Дважды проверьте свои URL-адреса, особенно если вы недавно провели миграцию сайта, массовое удаление страниц или изменение структуры. Убедитесь, что вы не ссылаетесь на старые или удалённые URL.

Другие хорошие практики для внутренней перелинковки:

  • достаточный объём контента (контент – всегда король);
  • использование анкорных текстовых ссылок вместо ссылок-картинок;
  • разумное количество ссылок на страницах.

Да, и убедитесь, что вы используете атрибут «follow» для своих внутренних ссылок.

3. Скормите файл Sitemap поисковым системам

Расскажу на примере Google.

Если у вас достаточно времени и вы не запрещали ему это делать, Google, когда-нибудь, пройдётся по вашему сайту. И это замечательно, но это не поможет вам ранжироваться в органическом поиске, пока вы ждёте.

Если вы недавно внесли изменения в контент своего сайта и хотите, чтобы Google сразу же узнал об этом, стоит отправить карту сайта в Google Search Console.

Отчёт о Sitemap в Google Search Console

Карта сайта – это ещё один файл, который находится в корневом каталоге вашего проекта. Он выступает дорожной картой для поисковых систем, включая прямые ссылки на каждую страницу вашего сайта.

Это полезно для индексации, поскольку позволяет Google узнавать о нескольких страницах одновременно. Если для обнаружения страницы в глубине сайта поисковой машине может потребоваться пройти по пяти внутренним ссылкам, то, при отправке XML sitemap, она сможет найти все ваши страницы за одно посещение.

Отправка карты сайта в Google особенно полезна, если у вас «глубокий» сайт, вы часто добавляете новые страницы или контент, или на вашем сайте нет хорошей внутренней перелинковки.

4. Обновление файла Robots.txt

Robots.txt – одна из таких штук, которые лучше делать, чем не делать. Хотя этот файл не является обязательным, 99% современных веб-сайтов используют его. Если вы не знаете, что это такое, то это обычный текстовый файл в корневом каталоге вашего сайта.

Он указывает поисковым системам, как вы хотите, чтобы они сканировали ваш сайт. Его основное назначение – управление трафиком ботов и предотвращение перегрузки сайта запросами.

Это может пригодиться для ограничения количества страниц, которые Google или Яндекс просматривают и индексируют. Например, вам, вероятно, не нужны такие страницы в индексе поисковой системы, как корзина, панель авторизации или теги (хотя тут есть нюансы).

Конечно, этот полезный текстовый файл может также негативно повлиять на краулинг. Стоит просмотреть свой файл robots.txt (или пригласить специалиста, если вы не уверены в своих силах), чтобы выяснить, не блокируете ли вы случайно доступ веб-пауков к вашим страницам.

Анализ файла robots.txt в Яндекс Вебмастере

Некоторые распространённые ошибки в файле robots.txt:

  • robots.txt расположен не в корневом каталоге сайта;
  • неправильное использование спецсимволов;
  • noindex в тексте файла;
  • блокировка скриптов, таблиц стилей и изображений;
  • отсутствие ссылки на карту сайта.

5. Грамотная каноникализация

Канонические теги объединяют сигналы от нескольких URL в один канонический URL. Это может быть хорошим способом указать поисковой системе индексировать нужные вам страницы, пропуская дубликаты и устаревшие версии.

Однако это же открывает двери для вредоносных канонических тегов. Они ссылаются на старые версии страниц, которых больше не существует, что приводит к тому, что поисковые системы индексируют не те страницы и оставляют ваши предпочтительные страницы невидимыми.

Чтобы устранить проблему, используйте инструментарий проверки URL-адресов для сканирования на наличие некорректных тегов и их удаления.

Проверка канонических страниц в GSC

Если ваш сайт ориентирован на международный трафик, то есть вы направляете пользователей в разных странах на разные канонические страницы, вам необходимо иметь канонические теги для каждого языка. Это гарантирует, что ваши страницы будут проиндексированы на каждом языке, на котором работает ваш сайт.

6. Аудит сайта

После выполнения всех, описанных выше, шагов, настаёт время для одной заключительной вещи, которая поможет вам убедиться, что ваш сайт оптимизирован для краулинга и индексирования: SEO-аудит.

Начинается аудит с проверки процента страниц, проиндексированных поисковой системой.

Проверка коэффициента индексации

Коэффициент индексации – это количество страниц в индексе поисковой системы, делённое на количество страниц на нашем сайте.

Вы можете узнать, сколько страниц находится в индексе Google, с помощью Google Search Console, перейдя на вкладку «Страницы», в разделе «Индекс», и проверив количество страниц на сайте из панели администратора CMS.

Отчёт об индексировании страниц в GSC

Вполне вероятно, что на вашем сайте есть страницы, которые вы не хотите индексировать, поэтому это число, скорее всего, не будет равно 100%. Но если показатель индексируемости ниже 90%, значит, у вас есть проблемы, которые необходимо изучить.

Вы можете получить неиндексируемые URL из Search Console и провести для них аудит. Это может помочь вам понять, что является причиной проблемы.

Ещё одним полезным инструментом аудита сайта, включённым в Google Search Console, является всё тот же инструмент проверки URL. Он позволяет увидеть, что видят пауки Google. Затем эту информацию можно сравнить с реальными веб-страницами, чтобы понять, что Google не может отрендерить.

Аудит недавно опубликованных страниц

Каждый раз, когда вы создаёте новые страницы на своём сайте или обновляете наиболее важные страницы, вы должны убедиться, что они индексируются. Зайдите в Google Search Console и проверьте, что все они отображаются.

Если у вас всё ещё есть проблемы, аудит также может дать вам представление о том, какие другие части вашей SEO-стратегии не работают, так что это двойная выгода. Масштабируйте процесс аудита с помощью таких SEO-инструментов, как:

7. Проверка низкокачественного или дублирующегося контента

Если поисковая система посчитает, что ваш контент не представляет ценности для пользователей, она может решить, что его не стоит индексировать.

Такой контент может быть плохо написан (грамматические и орфографические ошибки), являться шаблонным, не уникальным для вашего сайта, или не содержать внешних сигналов о его ценности и авторитетности.

Чтобы найти малополезный контент, определите, какие страницы вашего сайта не индексируются, а затем просмотрите целевые запросы для них. Дают ли они качественные ответы на вопросы поисковиков? Если нет, замените или обновите их.

В Яндекс Вебмастере эту проблему можно обнаружить в отчёте «Страницы в поиске», который находится в разделе «Индексирование», перейдя на вкладку «Исключённые».

Отчёт об исключённых из индекса страницах в Яндекс Вебмастере

Дублированный контент – ещё одна причина, по которой боты могут зависнуть при просмотре вашего сайта. По сути, это происходит потому, что ваша структура кода запутала роботов, и они не знают, какую версию индексировать. Это может быть вызвано такими вещами, как ID сессий, избыточные элементы контента и проблемы с пагинацией.

Иногда это приводит к появлению предупреждения в Google Search Console, сообщающего, что Google встречает больше URL-адресов, чем считает нужным. Если вы не получили такого предупреждения, проверьте результаты сканирования на наличие таких вещей, как дублирование или отсутствие тегов, или URL-адреса с лишними символами, которые могут создавать дополнительную работу для веб-пауков.

8. Устранение цепочек редиректов и внутренних перенаправлений

При развитии веб-сайтов, редиректы являются естественным побочным продуктом, направляя посетителей со страницы на более новую или более релевантную. Хотя они часто встречаются на большинстве сайтов, если вы неправильно обращаетесь с ними, то можете непреднамеренно саботировать собственную индексацию.

Существует несколько ошибок, которые можно допустить при создании редиректов, но одна из самых распространённых – цепочки перенаправлений. Это происходит, когда между ссылкой, на которую кликнули, и конечным пунктом есть более одного перенаправления. Поисковым системам такое не нравится.

В более экстремальных случаях вы можете создать петлю редиректов, в которой одна страница перенаправляет на другую страницу, которая перенаправляет на другую страницу и так далее, пока, в конечном итоге, ссылка не вернётся на самую первую страницу. Другими словами, вы создали бесконечную петлю, которая никуда не ведёт.

Пример отчёта о редиректах на сайте

Проверить редиректы вашего сайта можно с помощью таких инструментов, как: 

9. Исправление битых ссылок

Аналогичным образом, неработающие ссылки могут разрушить доступность вашего сайта для краулеров. Вы должны регулярно проверять свой сайт на отсутствие битых ссылок, поскольку они не только ухудшают результаты SEO, но и разочаровывают пользователей.

Существует несколько способов поиска битых ссылок на сайте, включая ручную проверку (шапки, футера, навигации, внутритекстовых ссылок и т.д.), а также использование Яндекс Вебмастера, Google Search Console, Analytics или Screaming Frog для поиска 404 ошибок.

После того как вы обнаружили неработающие ссылки, у вас есть три варианта их исправления:

  1. Перенаправление
  2. Обновление
  3. Удаление

10. IndexNow

IndexNow – это относительно новый протокол, который позволяет одновременно передавать URL-адреса разным поисковым системам по API. Он работает, как усиленная версия отправки XML sitemap, предупреждая поисковые системы о новых URL-адресах и изменениях на вашем сайте.

По сути, это означает, что поисковые машины заранее получают дорожную карту вашего сайта. Они попадают на ваш сайт с нужной им информацией, поэтому нет необходимости постоянно перепроверять карту сайта. И в отличие от XML sitemap, IndexNow позволяет информировать поисковые системы о страницах с кодом состояния, отличающимся от 200.

Внедрить IndexNow очень просто, для этого нужно только сгенерировать ключ API, разместить его в своём каталоге или где-то в другом месте, и отправить URL-адреса в рекомендуемом формате.

Подводя итог

Если вы внимательно прочитали пост, то уже должны хорошо понимать, что такое индексация и краулинг вашего сайта. Вы также должны понимать, насколько важны эти два фактора для ранжирования в поисковой выдаче.

Если пауки поисковой системы не могут просканировать и проиндексировать ваш сайт, не имеет значения, сколько ключевых слов, обратных ссылок и тегов вы используете – вы не появитесь в результатах поиска.

Вот почему необходимо регулярно проверять свой сайт на наличие всего, что может сбить ботов с пути, ввести их в заблуждение или направить по ложному следу.

Обзаведитесь хорошим набором инструментов и приступайте к анализу. Будьте усердны и внимательны к деталям, и вскоре веб-краулеры будут размножаться на вашем сайте, как пауки.

Успехов!

ПОНРАВИЛСЯ ПОСТ? ПОДЕЛИСЬ ССЫЛКОЙ С ДРУЗЬЯМИ!

Получать новые публикации по электронной почте:

Skyeng

СТАТЬИ ИЗ РУБРИКИ:

5 1 голос
Рейтинг статьи
Подписаться
Уведомить о
guest

5 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Алексей
Алексей
22 дней назад

Для меня уж очень “аспирант-ская” мысль. Расшифруйте, что вы имеете ввиду в разделе о перелинковке

==
Другие хорошие практики для внутренней перелинковки:

  • достаточный объём контента (контент – всегда король);

==
?

Спасибо

Аспирант
22 дней назад
Ответить на  Алексей

Здравствуйте. В данном случае подразумеваю, что для каждой страницы необходим определённый объём текста, чтобы поисковые системы хотели её проиндексировать (а в дальнейшем и хорошо ранжировать).
Например, если публиковать на информационном сайте страницы по 200 символов контента, то ни Яндекс, ни Google не будут их индексировать, с большой долей вероятности. А это приведёт к тому, что внутренние ссылки с таких страниц не будут служить вспомогательным мостиком для индексации других страниц.

Алексей
Алексей
22 дней назад
Ответить на  Аспирант

Я так и понял…
Но подумал, что в разделе “Перелинковка” есть ещё какой-то, более скрытый. смысл 😉

seoonly.ru
21 дней назад

не разбазаривать краулинговый бюджет попусту(с)

Аспирант
21 дней назад
Ответить на  seoonly.ru

Важно об этом помнить! =)

5
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x