Что хотят роботы поисковых систем

Как говорят математики – “существует необходимое, но недостаточное условие”. Что это для SEO? Что бы поисковый робот не ругался :) Если роботу изначально “не нравится” Ваш сайт – то дальнейшие усилия по продвижению не имеют смысла.

Что хотят роботы поисковых систем

Подробнее про хотелки роботов можно прочитать в Вебмастере.

Яндекс.Вебмастер любезно предоставляет список (скан первой части), что именно проверяет робот (конечно, список не полные и время от времени он меняется).

Что хотят роботы поисковых систем

Далее попробуем оценить со стороны этого здравого смысла, ЧТО НАДО и ЧТО НЕ НАДО делать, что бы поисковые машины хорошо относились к сайту. В целом любая поисковая машина/робот пытаются оценить два основных параметра сайта (используя самые разнообразные алгоритмы):

А) насколько сайт интересен для пользователей

А.1. Не надо делать страницы с объемом текста менее 2000 знаков и оригинальностью ниже 90% (методом копи/паста). Вполне очевидно, что пользователю на этих страницах нечего читать (или текст уже есть в интернете) – вот поисковые машины и не будут такие страницы нормально индексировать, робот читать не умеет, но умеет анализировать.

А.2. Не надо вставлять картинки ссылкой с чужих сайтов, картинка должна храниться на сервере/хостинге Вашего сайта. Если поисковая машина видит, что ВСЕ картинки на странице не Ваши (а в виде ссылок на чужие сайты) – значит опять копи/паста и опять плохо.

А.3. Плохая юзабилити сайта (сайтом пользоваться невозможно, кривая и непонятная навигация), т.е. посетитель не понимает, что ему дальше нажимать. Это хорошо видно в отчетах любого счетчика – если средняя глубина просмотра Вашего сайта 2,0-2,5 – это означает только одно = Ваш сайт никому не интересен. Т.е. посетитель зашел на сайт (1 страница), что-то там нажал, перешел на 2-ю страницу и ушел. И смысла заниматься раскруткой нет, пока не будет решен вопрос с глубиной просмотра, так как все с таким трудом полученные визиты ни к чему не приведут (2 страницы просмотра и уход с сайта).

А.4. 2000 знаков на страницу – это порядка 4-5 абзацев, т.е. где-то 2-3 раздела. Если выделить разделы жирным шрифтом и отступами – для пользователя это будет хорошо, но робот поисковой машины не оценит. Выделять названия разделов надо через тэги <h3> или <h4>, тогда робот понимается, что с точки зрения пользователя текст читаемый.

А.5. На страницах обязательно должна быть внутренняя перелинковка на другие страницы сайта, т.е. переходы между страницами не только через элементы меню. Это облегчает навигацию для пользователя (и роботы это оценивают хорошо).

А.6. Посадочная страница, она же landing page. Проблема в том, что для хорошей индексации страницы нужна хорошая текстовая страница от 2000 знаков, а для хорошей конверсии (т.е. переход пользователя на страницу заказа по кнопке КУПИТЬ) нужна страница с минимальным текстом крупным шрифтом и большой кнопкой. Поэтому делается два основных варианта – для рекламы используется отдельная посадочная страница, оптимизированная под высокую конверсию ИЛИ на видимой части экрана делается часть страницы для заказа, а ниже на на 2-3 экрана – подробное описание на 2000 символов :)

Б) насколько сайтом занимаются разработчики

Б.1. Не обновлять информацию на сайте. Если информация не обновляется, сайт не меняется – он начинает в выдаче показываться все ниже и ниже, роботы видят, что сайтом не занимаются, новой информации на нем не появляется. Как неплохой вариант – новости, которые показываются на всех страницах. Одна новость в месяц – и роботы видят обновления всех страниц. Т.е. раздел “Новости” на сайте – это не для людей, это для роботов.

Б.2. Заполненность всех мета-тэгов “TITLE” “KEYWORDS” “DESCRIPTION”. Да, сейчас часть этих тэгов напрямую не участвует в алгоритмах индексирования – но если тэги не заполнены, роботы “видят”, что сайт сделан спустя рукава, не все данные заполнены.

ВАЖНО: тэг DESCRIPTION используется (частично) поисковыми машинами для формирования снипета и (тоже частично) кнопками “Поделиться” для передачи информации о странице в социальные сети. Если у Вас этот тэг пустой – роботы посмотрят на Ваш сайт “плохо”.

Б.3. Низкая скорость загрузки сайта. Очевидно, что если сайт грузится медленно (менее 70 баллов по сервису Google), то нет особого смысла показывать сайт пользователям.

Б.4. Роботы не очень любят одинаковые тексты на разных страницах (как в интернете, так и внутри одного сайта). Что у нас на сайте одинаковое на всех страницах? Правильно – меню, значит, надо запретить роботам его видеть. Это делается через специальные тэги, которые запрещают индексацию части html страницы:

для Яндекса <!– noindex –> пункты меню <!–/ noindex –> (несмотря на обертку как комментарий. Яндекс понимает, и тэг получается валидный)

для Google можно закрыть для робота переход по ссылке (например, непроверенные ссылки или вход для регистрации), <a href=”/signin.php” rel=”nofollow”>Войти</a> Яндекс тоже понимает этот тэг. Это также отпугнет спамеров (и повысит доверие роботов), которые пытаются размещать ссылки в комментариях, если они будут видеть, что незнакомая ссылка закрыта для индексации.

Б.5. Установка счетчиков на сайт, как минимум от Яндекса и Google. Поисковые системы будут “видеть”, что разработчики сайта занимаются анализом статистики и значит, что сайтом занимаются.

Б.6. Регистрация сайта в Вебмастере Яндекса и Google. Аналогично – разработчикам интересна аналитика индексации.

Б.7 Наличие на страницах сайта ОДНОГО комплекта тэгов h1. Тэгами h1 выделяется заголовок страницы. Это в помощь роботам. представьте себе обычный сайт – меню вверху, меню сбоку, колонка  с комментариями, внизу новости и в центре наша страница с информацией. Теперь посмотрите на код этой страницы – как бедным роботам понять, где основная информация… Иногда в выдаче в снипете видна часть меню сайта, а не основная информацию. Это как раз, когда робот не разобрался. А с тэгом h1 поисковый робот сразу “понимает”, что далее идет основная информация.

Б.8. Актуальность информации на сайте. Да, роботы читать не умеют – но они смотрят на последнюю дату/время обновления страницы (получают информацию от сервера) и сравнивают размер страницы (было/есть сейчас). Как сделать все страницы сайта с актуальными обновлениями?

Блок “новости” – вот наше решение. Внизу (чуть выше футера) в три/шесть колонок на всех страницах выводится блок новостей. Выкладка  одной новости обновляет все страницы. Да, там внизу, новости читать особо никто не будет – но так это и делается не для людей. а для роботов. Робот “видит”, что у всех страниц стоит актуальная дата последнего изменения и да и размер всех страниц немного изменился.

В) Отсутствие дублей страниц сайта

Дубли страниц бывают разные

В.1 Дубли с www и без www

Эти дубли появляются от сервера хостинга (прямо указано в записях домена, что нужно с www), так как исторически сложилось, что сайт должен начинаться с www, хотя у самого домена никакого www нет. Более подробно здесь. В принципе поисковые машины это хорошо “знают” и умеют склеивать два этих дубля в одну страницу.

B.2 Еще есть дубли от хостинга, когда сайт открывается по некоторым техническим адресам.

Нужно писать в поддержку хостинга, что бы они более корректно настроили свой сервер. Иногда это нигде не указано в документации на хостинге и случайно обнаруживается в выдаче поисковых машин.

В.3 Дубли страниц от CMS

Вот тут много работы для вебмастера, у каждой CMS свои нюансы, больше всего копий страниц генерирует Joomla.

Г) Отсутствие дублей метатэгов

Необходимо проверять сайт на наличие дублей title (название страницы) и description (краткое описание страницы – частично используется поисковыми машинами для создания  снипета). Для проверки можно использовать Гугль вебмастер (естественно только для уже проиндексированных страниц) или специализированные программы типа Xenu или Netpeak Spider

Д) Роботы хотят узнать, как сайт выглядит для пользователя

Не очевидная вещь. Роботам поисковых систем недостаточно текста с сайта – они хотят видеть и таблицу стилей и картинки. Но в в большинстве CMS индексация служебных каталогов заблокирована в файле robots.txt  Информацию, что хочет увидеть робот – можно увидеть в Гугль вебмастер.

Для основных CMS в файле robots.txt надо разрешить (или закомментировать или удалить запрет) следующие строки.

для 1C Bitrix

# Disallow: /bitrix/ – в папке хранятся шаблоны сайта

# Disallow: /upload/ – в папке хранятся изображения

для WordPress

# Disallow: /wp-includes/ – и шаблоны и изображения

для Joomla

# Disallow: /images/ – изображения

# Disallow: /media/ – изображения

# Disallow: /templates/ – макеты сайта


Вы можете сохранить ссылку на эту страницу себе на компьютер в виде htm файла