Robots.txt и 301 редирект через .htaccess для WordPress

Рубрика: Теория

301 редиректДовольно часто веб-мастеры сталкиваются с ситуацией, когда из Яндекса выпадают практически все страницы сайта кроме главной. Особенно это явление хорошо знакомо строителям сеток сателлитов. И больше чем в половине случаев виноват сам вебмастер.

Чаще всего бывает так: Яндекс определяет основным адрес сайта с www (или же это было прописано в Host файла robots.txt), а владелец сайта устанавливает 301 редирект с него на адрес без www. В таком случае индексирующий робот пытается проиндексировать сайт по адресу с www. Но, пытаясь попасть на сайт с www, поисковик перенаправляется на сайт без www при помощи серверного 301 редиректа. Таким образом, страница, с которой установлен редирект, не индексируется, а заменяется на ту, на которую этот редирект ведёт. Данное явление принято называть «склейкой». При повторных попытках индексации, робот продолжает перенаправляться на сайт без www, который, по мнению поисковика, является дополнительным зеркалом. В результате соединение разрывается по таймауту и сайт не индексируется. Частично уже об этом упоминалось в статье — 6 ошибок в SEO, которые нужно перестать допускать.

Рассмотрим более подробно, для чего нужен 301 редирект и файл robots.txt.

Robots.txt для WordPress

Этот файл должен располагаться в корневом каталоге сайта. Весьма подробную информацию о нём вы можете получить по ссылке — A Standard for Robot Exclusion. Robots.txt предназначен для всех поисковых систем. Основным его предназначением является запрет индексации каких-либо разделов или файлов вашего сайта.

Файл robots.txt составлен не правильно если:

  1. Он превышает по объёму 256 Кбайт
  2. При его скачивании сервер отдаёт любой HTTP-код отличный от 200
  3. Он не является текстовым файлом
  4. Он не существует

Во всех этих случаях считается по умолчанию, что к индексации сайт разрешён полностью.

Пример файла robots.txt

Файла robots.txt

Как правило, файл состоит из нескольких блоков, т.к. Яндекс поддерживает расширенный набор функций для него. Каждый отдельный блок используется своей поисковой системой, название которой прописывается после «User-agent: «. Любой путь указывается в файле относительно корневого каталога сайта. Если после названия папки поставить слэш, то к индексации будет запрещена только эта папка, если же слэш не ставить, то к индексации будут запрещены все файлы, начинающиеся с названия папки.

Когда индексирующий робот анализирует файл robots.txt, первым делом он ищет указания именно для своей поисковой системы в соответствующем разделе, например: «User-agent: Yandex«. Если такого раздела в файле нет, то робот руководствуется общими правилами для всех поисковиков, прописанными в блоке «User-agent: *«. Блоки для разных поисковых систем разделяются в файле между собой пустой строкой.

Существуют две противоположные по функциям директивы: «Disallow» и «Allow«. Первая запрещает к индексации папки/файлы, указанные в ней, вторая — разрешает. Но здесь есть разные решения и исключения:

Disallow: / — полный запрет индексации сайта.

Allow: / — разрешение индексации всего сайта.

Disallow: — разрешает индексацию сайта

Allow: — запрещает индексацию сайта

Кроме того, если в файле robots.txt присутствуют две, противоречащие друг другу команды, то действует та, которая выше, т.е. ближе к началу блока.

Директива «Sitemap:» указывает на место расположения карты сайта в формате xml. Директиву «Host:» понимает только робот Яндекса. Она указывает на то, как следует индексировать сайт: с www или без.

Проверить, правильно ли составлен файл robots.txt можно при помощи инструментов для веб-мастера Яндекса или Google.

301 редирект через .htaccess для WordPress

Главная страница вашего сайта может быть проиндексирована по достаточно большому количеству адресов:

seo-aspirant.ru

www.seo-aspirant.ru

www.seo-aspirant.ru/index.htm

seo-aspirant.ru/index.htm

Существуют и другие форматы адреса главной страницы. При этом поисковая система может считать, что все эти адреса принадлежат разным сайтам и все их индексировать. Именно поэтому, например, PageRank вашего сайта без www может иметь одно значение, а с www — совершенно другое. Если контент на вашем сайте по всем таким адресам одинаковый, то поисковый робот обычно автоматически склеивает все их, считая основным адресом только один. Все остальные адреса главной являются дополнительными зеркалами сайта. Как уже было сказано выше, Яндексу помогает определить главное зеркало сайта директива «Host:» в файле robots.txt. Но, по словам представителей Яндекса, эта директива носит лишь рекомендательный характер и порой склейки сайта таким способом можно ждать на протяжении многих месяцев. Для Google этот вопрос решается намного проще: достаточно указать главное зеркало в панели инструментов веб-мастера.

Склейка — это очень важный процесс. Ведь обратные ссылки на сайт с www и без — считаются отдельно. Если у вас сайт не склеен, то ссылочный вес считается раздельно для всех зеркал. А при смене главного зеркала ссылочный вес теряется на несколько месяцев. Чтобы избежать проблем с зеркалами при склейке, достаточно установить 301 редирект в .htaccess.

Как работает 301 редирект было описано в самом начале статьи. Самое важное в этом вопросе — ещё перед тем, как создавать сайт, определиться, какой адрес вы хотите сделать основным (с www или без). Для установки 301 редиректа достаточно открыть файл .htaccess (он находится в корневом каталоге сайта) в текстовом редакторе.

Пример файла .htaccess

Файл .htaccess

В данном примере главным зеркалом выбран адрес с www, на который ведёт редирект. Такой шаблонный редирект хорош тем, что если пользователь наберёт в адресной строке браузера адрес абсолютно любой страницы сайта без www, то он будет автоматически перенаправлен на эту страницу с www. Точно так же это работает и для роботов поисковых систем.

Не забывайте прописывать в robots.txt, .htaccess и панелях веб-мастера одинаковые адреса во избежание выпадения сайта из индекса.

ПОДЕЛИСЬ С ДРУЗЬЯМИ:

Статьи из рубрики:

Хотите оставить комментарий к статье Robots.txt и 301 редирект через .htaccess для WordPress?
  • maxamuz

    Спасибо. Всё толково и понятно изложено. Буду разбираться…

  • Nickolan1

    Доброго времени суток!

    Ситуация такая: Есть главный сайт и целая куча зеркал. Причем при правке
    роботса одного из сайтов – автоматически эти изменения происходят в
    роботсе всех остальных. Т.е. закрывая зеркала я перекрываю основной
    сайт. Подскажите, как тут быть. 301 редирект не хочу настраивать, т.к.
    зеркала приносят трафик из гугла хороший. Настройка же редиректа удалит
    зеркала из гугла. Спасибо!

    • Если с «открытыми» зеркалами сайт нормально работает и получает достаточно трафика, то может и не стоит их трогать? Или есть какая-то необходимость в этом?

      • Nickolan1

        Необходимость есть, т.к. зеркала мешают нормальной индексации сайта, а также признаются первоисточниками.

        • Есть несколько вариантов. Например, можно проставить со всех страничек зеркал прямые ссылки на аналогичные странички основного сайта, как бы в качестве ссылки на первоисточник.

          Если на зеркалах точно такая же информация, как и на основном сайте (полная копия), то можно все зеркала удалить. Со временем поисковики проиндексируют все страницы основного сайта и он будет получать тот же самый трафик по тем же самым НЧ-запросам.

          Ещё можно попробовать написать в техподдержку хостинга, на котором расположен сайт и узнать, могут ли они помочь с автоматическим изменением роботса.

          • Nickolan1

            Спасибо огромное за ответ !

Тайные знания
RSS лента Подписаться на обновления через Facebook Подписаться по e-mail Следуй за мной в Twitter

Получать на email:


Я зарабатываю на
Cityads - партнёрская система с оплатой за результат (CPA). Лью покупной и "бесплатный" трафик со своих и чужих сайтов.
Admitad - партнёрская сеть, изначально ориентированная на e-commerce.
Sape - покупаю ссылки для продвижения клиентских сайтов. Продаю ссылки с собственных сателлитов.
DoktorDick - проверенная временем фарма-партнёрка под РУ-трафик.
Advertur - рекламная RTB-сеть. Аналог контекстной рекламы РСЯ и Google AdSense.
PokerStrategy - играю в покер. Просто хобби.
Тематика
Bing blogspot CPA CPC Facebook Google Mobile PPV PR SEM SMM Twitter WordPress YouTube Адалт Безопасность Благотворительность Блогосфера ВКонтакте Гемблинг Гостевой пост Дейтинг Дизайн Дорвеи Инвестиции Интервью Интернет Инфографика Маркетинг Отдых Отчёт Переводы Подкасты Покер Психология Софт Ссылки Техника Торренты Траф Фарма Фриланс Халява Яндекс тИЦ
Статистика