G|Translate: English EN Français FR Deutsch DE Italiano IT Русский RU Español ES

Индексация и коды сервера

Нам важен твой голос!

Индексация всех страниц сайта выполняется автоматически. Но если Вы хотите использовать сайт активно — то это Ваша головная боль, необходимо подправлять робота, что бы он все делал правильно (именно с Вашей точки зрения).

Индексация и коды сервера

1. Все страницы для индексации должны быть указаны в файле Sitemap

2. Все запрещенные страницы для индексации должны быть указаны в файле robots.txt

3. Все страницы с конфиденциальной информацией должны быть спрятаны в отдельном каталоге, запрещены к индексации в файле robots.txt и каталог должен быть закрыт на уровне сервера логином и паролем.

4. Если Вы видите в вебмастере Яндекса страницы «Найдено по внутренней ссылке» — значит, Яндекс нашел страницу. на которую есть ссылка на Вашем сайте и этой страницы нет в Sitemap — ищите ошибку или в формировании url страницы или в формировании Sitemap

5. Не забывайте запрещать несуществующие страницы в robots.txt — Яндекс удаляет из индекса несуществующие страницы автоматически через 3-6 месяцев, Гугль держит такие страницы в индексе более года

6. Не забывайте удалять из индекса Гугля несуществующие страницы (например, Вы выложили новый сайт на домен, а от старого осталась гора мусора):

— смотрим ошибки сканирования в Гугль

— заносим несуществующие страницы в robots.txt

— загружаем robots.txt на сайт, уведомляем Гугль

— идем в «удалить url-адреса». приписываем там адреса для удаления (или конкретные страницы или каталог в целом)

— Гугль удаляет страницы из своего индекса (т.е. страниц физически уже нет, но есть информация о них в индексе) при соблюдении ТРЕХ условий:

а) оставлять заявку на удаление могут пользователи с полным доступом или владельцы сайта

б) страница, указанная в заявке, должна быть запрещена к индексации в robots.txt

в) наличие самой заявки на удаление

6. проверяем одинаковость title & description на всех страницах сайта, они должны быть разные (при одинаковой информации в тэгах на разных страницах Гугль упрячет их в inde[ supliment и не будет показывать их в выдаче)

В идеале на сайте не должно быть повторов тэгов, странице в индексе совпадают с файлом Sitemap, общее число страниц в индексах поисковых машин совпадает с общим числом страниц на сайте.

Вот должно быть как-то так, декабрь окончательный вариант (вариант отчета для себя):

Индексация и коды сервера

Анализируйте, что сообщает сервер роботу при его заходе на сайт. На всех существующих страницах робот должен получать код 200 — что все в порядке и страница доступна. Если появляются кода запрещение доступа или коды отсутствующих страниц — надо разбираться.

Основные HTTP-коды сервера:

200 — ОК

301 — перемещен окончательно

302 — найден

304 — не изменен

401 — пользователь не авторизован

403 — доступ запрещен

404 — страница не найдена

500 — ошибка сервиса

501 — не реализовано

502 — плохой шлюз

503 — сервер не отвечает


Вы можете сохранить ссылку на эту страницу себе на компьютер в виде htm файла



Вы будете видеть наш сайт у себя в ленте


Нажмите "Подписаться"


Нажмите "Нравится" или напишите сообщение



Почитать в разделе: ИНДЕКСИРОВАНИЕ САЙТА

  • Всего статей в разделе: 6
  • Показано статей в списке: 5
  • Сортировка: название по алфавиту

Update поиска

Многие слышали про какие-то загадочные апдейты у Яндекса и у Гугль. Так сказать - иконы сеошников. Так что это? Ответ простой. Все изменения по нашему сайту (число проиндексированных страниц, число ссылок и прочая) - мы видим пока только в Вебмастере :) Это никак не отражается на поисковой выдаче. С определенным периодом все эти изменения становятся доступны в выдаче - и посещаемость сайта резко меняется. Вот скан из Вебмастера Гугль - хорошо видна вертикальная линия с отметкой "Обновление". Это как раз все изменения по сайту были выложены для участия в поисковой выдаче. Все радуются. Скажем, после обновления можно увидеть результат работы сеошников над сайтом. Пока...
(Читать полностью...)

Поисковая машина Google

Поисковая машина Гугль для российского сегмента находится здесь www.google.ru Для международного сегмента находится здесь www.google.com Search Google Есть проблема - гугль все равно Вас переадресует на российский вариант, определив Ваше расположение. Если Вы хотите искать без привязки к территории, то нужно использовать вариант www.google.com/ncr (и Вы останетесь в домене .com) Наиболее известные сервисы Гугль для вебмастеров: Вебмастер - https://www.google.ru/webmasters/ Контекстная реклама...
(Читать полностью...)

Поисковая машина Яндекс

Поисковая машина Яндекс https://www.yandex.ru/ - для поиска Поиск Яндекс Поисковые алгоритмы Фильтры Показ сайта в выдаче зависит от Индекса сайта (ранее у Яндекс был Тиц - тематический индекс цитирования). Индекс сайта -  это показатель того, насколько полезен ваш сайт для пользователей с точки зрения Яндекса. Какие конкретно параметры влияют на X - является тайной Яндекса. ВАЖНО! Яндекс.Вебмастер достаточно сильный формалист (в отличии от Гугль). Смотрите все позиции, на которые робот ругается. Иначе не будет хороших позиций в выдаче. Например: - недостаточно фавикон разместить в корне сайта, гугль его видит, браузер...
(Читать полностью...)

Файл robots.txt

Основная задача этого файла - сообщать роботам поисковых систем, что можно и что нельзя индексировать на сайте. Точнее - это рекомендация роботам. По факту поисковые машины все равно индексируют запрещенные страницы, но не показывают их в выдаче. Иногда происходит сбой и запрещенные страницы оказываются в выдаче. Если Вам необходимо действительно что-то полностью на сайте закрыть от роботов (и людей) - надо на уровне хостинга закрыть папку логином и паролем. Также записи в этом файле используются для удаления страниц из индекса Гугль. Гугль (в отличии от Яндекса) удаляет страницы из индекса при наличии двух условий: - запрос на удаление страницы - страница должна быть...
(Читать полностью...)

Файл Sitemap.xml

Файл sitemap.xml нужен для роботов поисковых систем, что бы они "понимали", какие страницы нужно индексировать. Без файла sitemap.xml в первую очередь проиндексирована только одна главная страница. По ссылкам с нее роботы пойдут намного позже (страниц и сайтов стало много и робота на всех не хватает). Файл sitemap влияет только на индексацию сайта и никак не влияет на показ сайта в поисковой выдаче (т.е. роботы про сайт знают, а уж как его показывать в выдаче - это их дело). Официальный сайт правил находится здесь sitemap.org (версия на русском языке) Общие требования к файлу sitemap.xml ВАЖНО: название файла может быть любым и находиться он может в любой папке -> нужно...
(Читать полностью...)