Индексация и коды сервера

Индексация всех страниц сайта выполняется автоматически. Но если Вы хотите использовать сайт активно – то это Ваша головная боль, необходимо подправлять робота, что бы он все делал правильно (именно с Вашей точки зрения).

Индексация и коды сервера

1. Все страницы для индексации должны быть указаны в файле Sitemap

2. Все запрещенные страницы для индексации должны быть указаны в файле robots.txt

3. Все страницы с конфиденциальной информацией должны быть спрятаны в отдельном каталоге, запрещены к индексации в файле robots.txt и каталог должен быть закрыт на уровне сервера логином и паролем.

4. Если Вы видите в вебмастере Яндекса страницы “Найдено по внутренней ссылке” – значит, Яндекс нашел страницу. на которую есть ссылка на Вашем сайте и этой страницы нет в Sitemap – ищите ошибку или в формировании url страницы или в формировании Sitemap

5. Не забывайте запрещать несуществующие страницы в robots.txt – Яндекс удаляет из индекса несуществующие страницы автоматически через 3-6 месяцев, Гугль держит такие страницы в индексе более года

6. Не забывайте удалять из индекса Гугля несуществующие страницы (например, Вы выложили новый сайт на домен, а от старого осталась гора мусора):

– смотрим ошибки сканирования в Гугль

– заносим несуществующие страницы в robots.txt

– загружаем robots.txt на сайт, уведомляем Гугль

– идем в “удалить url-адреса”. приписываем там адреса для удаления (или конкретные страницы или каталог в целом)

– Гугль удаляет страницы из своего индекса (т.е. страниц физически уже нет, но есть информация о них в индексе) при соблюдении ТРЕХ условий:

а) оставлять заявку на удаление могут пользователи с полным доступом или владельцы сайта

б) страница, указанная в заявке, должна быть запрещена к индексации в robots.txt

в) наличие самой заявки на удаление

6. проверяем одинаковость title & description на всех страницах сайта, они должны быть разные (при одинаковой информации в тэгах на разных страницах Гугль упрячет их в inde[ supliment и не будет показывать их в выдаче)

В идеале на сайте не должно быть повторов тэгов, странице в индексе совпадают с файлом Sitemap, общее число страниц в индексах поисковых машин совпадает с общим числом страниц на сайте.

Вот должно быть как-то так, декабрь окончательный вариант (вариант отчета для себя):

Индексация и коды сервера

Анализируйте, что сообщает сервер роботу при его заходе на сайт. На всех существующих страницах робот должен получать код 200 – что все в порядке и страница доступна. Если появляются кода запрещение доступа или коды отсутствующих страниц – надо разбираться.

Основные HTTP-коды сервера:

200 – ОК

301 – перемещен окончательно

302 – найден

304 – не изменен

401 – пользователь не авторизован

403 – доступ запрещен

404 – страница не найдена

500 – ошибка сервиса

501 – не реализовано

502 – плохой шлюз

503 – сервер не отвечает


Вы можете сохранить ссылку на эту страницу себе на компьютер в виде htm файла