Индексация всех страниц сайта выполняется автоматически. Но если Вы хотите использовать сайт активно – то это Ваша головная боль, необходимо подправлять робота, что бы он все делал правильно (именно с Вашей точки зрения).
1. Все страницы для индексации должны быть указаны в файле Sitemap
2. Все запрещенные страницы для индексации должны быть указаны в файле robots.txt
3. Все страницы с конфиденциальной информацией должны быть спрятаны в отдельном каталоге, запрещены к индексации в файле robots.txt и каталог должен быть закрыт на уровне сервера логином и паролем.
4. Если Вы видите в вебмастере Яндекса страницы “Найдено по внутренней ссылке” – значит, Яндекс нашел страницу. на которую есть ссылка на Вашем сайте и этой страницы нет в Sitemap – ищите ошибку или в формировании url страницы или в формировании Sitemap
5. Не забывайте запрещать несуществующие страницы в robots.txt – Яндекс удаляет из индекса несуществующие страницы автоматически через 3-6 месяцев, Гугль держит такие страницы в индексе более года
6. Не забывайте удалять из индекса Гугля несуществующие страницы (например, Вы выложили новый сайт на домен, а от старого осталась гора мусора):
– смотрим ошибки сканирования в Гугль
– заносим несуществующие страницы в robots.txt
– загружаем robots.txt на сайт, уведомляем Гугль
– идем в “удалить url-адреса”. приписываем там адреса для удаления (или конкретные страницы или каталог в целом)
– Гугль удаляет страницы из своего индекса (т.е. страниц физически уже нет, но есть информация о них в индексе) при соблюдении ТРЕХ условий:
а) оставлять заявку на удаление могут пользователи с полным доступом или владельцы сайта
б) страница, указанная в заявке, должна быть запрещена к индексации в robots.txt
в) наличие самой заявки на удаление
6. проверяем одинаковость title & description на всех страницах сайта, они должны быть разные (при одинаковой информации в тэгах на разных страницах Гугль упрячет их в inde[ supliment и не будет показывать их в выдаче)
В идеале на сайте не должно быть повторов тэгов, странице в индексе совпадают с файлом Sitemap, общее число страниц в индексах поисковых машин совпадает с общим числом страниц на сайте.
Вот должно быть как-то так, декабрь окончательный вариант (вариант отчета для себя):
Анализируйте, что сообщает сервер роботу при его заходе на сайт. На всех существующих страницах робот должен получать код 200 – что все в порядке и страница доступна. Если появляются кода запрещение доступа или коды отсутствующих страниц – надо разбираться.
Основные HTTP-коды сервера:
200 – ОК
301 – перемещен окончательно
302 – найден
304 – не изменен
401 – пользователь не авторизован
403 – доступ запрещен
404 – страница не найдена
500 – ошибка сервиса
501 – не реализовано
502 – плохой шлюз
503 – сервер не отвечает