Индексация всех страниц сайта выполняется автоматически. Но если Вы хотите использовать сайт активно - то это Ваша головная боль, необходимо подправлять робота, что бы он все делал правильно (именно с Вашей точки зрения).

1. Все страницы для индексации должны быть указаны в файле Sitemap

2. Все запрещенные страницы для индексации должны быть указаны в файле robots.txt

3. Все страницы с конфиденциальной информацией должны быть спрятаны в отдельном каталоге, запрещены к индексации в файле robots.txt и каталог должен быть закрыт на уровне сервера логином и паролем.

4. Если Вы видите в вебмастере Яндекса страницы "Найдено по внутренней ссылке" - значит, Яндекс нашел страницу. на которую есть ссылка на Вашем сайте и этой страницы нет в Sitemap - ищите ошибку или в формировании url страницы или в формировании Sitemap

5. Не забывайте запрещать несуществующие страницы в robots.txt - Яндекс удаляет из индекса несуществующие страницы автоматически через 3-6 месяцев, Гугль держит такие страницы в индексе более года

6. Не забывайте удалять из индекса Гугля несуществующие страницы (например, Вы выложили новый сайт на домен, а от старого осталась гора мусора):

- смотрим ошибки сканирования в Гугль

- заносим несуществующие страницы в robots.txt

- загружаем robots.txt на сайт, уведомляем Гугль

- идем в "удалить url-адреса". приписываем там адреса для удаления (или конкретные страницы или каталог в целом)

- Гугль удаляет страницы из своего индекса (т.е. страниц физически уже нет, но есть информация о них в индексе) при соблюдении ТРЕХ условий:

  а) оставлять заявку на удаление могут пользователи с полным доступом или владельцы сайта

  б) страница, указанная в заявке, должна быть запрещена к индексации в robots.txt

  в) наличие самой заявки на удаление

6. проверяем одинаковость title & description на всех страницах сайта, они должны быть разные (при одинаковой информации в тэгах на разных страницах Гугль упрячет их в inde[ supliment и не будет показывать их в выдаче)

В идеале на сайте не должно быть повторов тэгов, странице в индексе совпадают с файлом Sitemap, общее число страниц в индексах поисковых машин совпадает с общим числом страниц на сайте.

Вот должно быть как-то так, декабрь окончательный вариант (вариант отчета для себя):

 

Анализируйте, что сообщает сервер роботу при его заходе на сайт. На всех существующих страницах робот должен получать код 200 - что все в порядке и страница доступна. Если появляются кода запрещение доступа или коды отсутствующих страниц - надо разбираться.

Основные HTTP-коды сервера:

200 - ОК

301 - перемещен окончательно

302 - найден

304 - не изменен

401 - пользователь не авторизован

403 - доступ запрещен

404 - страница не найдена

500 - ошибка сервиса

501 - не реализовано

502 - плохой шлюз

503 - сервер не отвечает

 

  • Файл Sitemap (1044)

    Файл sitemap нужен для роботов поисковых систем, что бы они "понимали", какие страницы нужно индексировать. В противном случае очень долго будет проиндексирована только одна главная страница. По ссылкам с нее роботы пойдут намного позже (страниц и сайтов стало много и робота на всех не хватает). Файл sitemap влияет только на индексацию сайта и...

  • Файл robots.txt (895)

    Основная задача этого файла - сообщать роботам поисковых систем, что можно и что нельзя индексировать на сайте. Точнее - это рекомендация роботам.По факту поисковые машины все равно индексируют запрещенные страницы, но не показывают их в выдаче. Иногда происходит сбой и запрещенные страницы...

  • Вебмастер (827)

    Нас в первую очередь интересует продвижение сайта - а не сам сайт. Другими словами - мы будет уделять больше внимания тем поисковым машинам, которые являются лидерами в поиске на рынке России. И в первую очередь сайт будет "причесываться" именно для этих поисковых роботов.По статистике на 2015г:1. Яндекс -...

  • Индексация и коды сервера (796)

    Индексация всех страниц сайта выполняется автоматически. Но если Вы хотите использовать сайт активно - то это Ваша головная боль, необходимо подправлять робота, что бы он все делал правильно (именно с Вашей точки зрения). 1. Все страницы для индексации должны быть указаны в файле Sitemap 2. Все...

  • Индексирование сайта (784)

    Несмотря на все громкие заявления ПС = на первом месте для хорошей индексации идут ссылки, все остальное (юзабилити, глубина просмотра, объем сайта слабо влияет на индексацию). Т.е. если у Вас есть супер новый хороший сайт - без наличия ссылок на его страницы со стороны других сайтов нормальной...

  • Поисковая машина Яндекс (668)

    Поисковая машина Яндекс https://www.yandex.ru/ - для поискаВебмастер Яндекс https://webmaster.yandex.ru/ - для владельцев сайтовМетрика Яндекс https://metrika.yandex.ru/ - статистика посещений сайтаПоисковые алгоритмыФильтрыТиЦ - тематический индекс цитирования

  • Поисковая машина Google (640)

    Поисковая машина Гугль для российского сегмента находится здесь www.google.ruДля международного сегмента находится здесь www.google.comЕсть проблема - гугль все равно Вас переадресует на российский вариант, определив Ваше расположение. Если Вы хотите искать без привязки к территории, то нужно использовать вариант...

  • Update (260)

    Многие слышали про какие-то загадочные апдейты у Яндекса и у Гугль. Так сказать - иконы сеошников. Так что это?Ответ простой. Все изменения по нашему сайту (число проиндексированных страниц, число ссылок и прочая) - мы видим пока только в Вебмастере :) Это никак не отражается на поисковой выдаче....