Файл sitemap нужен для роботов поисковых систем, что бы они "понимали", какие страницы нужно индексировать. В противном случае очень долго будет проиндексирована только одна главная страница. По ссылкам с нее роботы пойдут намного позже (страниц и сайтов стало много и робота на всех не хватает). Файл sitemap влияет только на индексацию сайта и никак не влияет на показ сайта в поисковой выдаче (т.е. роботы про сайт знают, а уж как его показывать в выдаче - это их дело).

Официальный сайт находится здесь sitemap.org (версия на русском языке)

Теперь подробнее:
- формат файла может быть как xml (предпочтительнее) и txt - в любом случае это простой текстовый файл, который можно открыть "блокнотом"
- необходимо использовать кодировку utf-8
- файл может содержать как список страниц так и список других файлов sitemap (индекс)
- файл может называться как угодно, вида mysitemap.xml (например, часть систем создания сайтов формируют свой файл sitemap и не дают возможности его изменить, можно сделать свой файл mysitemap.xml и "скормить" его роботам)
- файл может располагаться в любой папке сайта
- расположение файла указывается в файле robots.txt
все ссылки, перечисленные в файле Sitemap, должны находиться в том же домене, что и сам Sitemap
- ссылки в файле Sitemap должны указывать на страницы, находящиеся в том же каталоге (или его подкаталогах), что и сам файл Sitemap
- ссылки, указанные в файле Sitemap, должны использовать тот же протокол (например, HTTP), по которому доступен файл Sitemap

Пример файла sitemap для данного сайта http://seotable.ru/sitemap.xml

Ф
айл sitemap можно проверить на валидность.
Для определения элементов и атрибутов, которые могут появляться в файлах Sitemap, используются следующие XML-схемы:

Для файлов Sitemap: http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd
Для файлов индекса Sitemap: http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd

Основные xml тэги для файла sitemap, который содержит информацию о страницах сайта:

Атрибут Статус  Описание
<urlset> обязательный

Инкапсулирует этот файл и указывает стандарт текущего протокола.

<url> обязательный

Родительский тег для каждой записи URL-адреса. Остальные теги являются дочерними для этого тега.

<loc> обязательный

URL-адрес страницы. Этот URL-адрес должен начинаться с префикса (например, HTTP) и заканчиваться косой чертой, если Ваш веб-сервер требует этого. Длина этого значения не должна превышать 2048 символов.

<lastmod> необязательно

Дата последнего изменения файла. Эта дата должна быть в формате W3C Datetime. Этот формат позволяет при необходимости опустить сегмент времени и использовать формат ГГГГ-ММ-ДД.

Обратите внимание, что этот тег не имеет отношения к заголовку "If-Modified-Since (304)", который может вернуть сервер, поэтому поисковые системы могут по-разному использовать информацию из этих двух источников.

<changefreq> необязательно

Вероятная частота изменения этой страницы. Это значение предоставляет общую информацию для поисковых систем и может не соответствовать точно частоте сканирования этой страницы. Допустимые значения:

  • always
  • hourly
  • daily
  • weekly
  • monthly
  • yearly
  • never

Значение"всегда" должно использоваться для описания документов, которые изменяются при каждом доступе к этим документам. Значение "никогда" должно использоваться для описания архивных URL-адресов.

Имейте в виду, что значение для этого тега рассматривается как подсказка, а не как команда. Несмотря на то, что сканеры поисковой системы учитывают эту информацию при принятии решений, они могут сканировать страницы с пометкой "ежечасно" менее часто, чем указано, а страницы с пометкой "ежегодно" – более часто, чем указано. Сканеры могут периодически сканировать страницы с пометкой "никогда", чтобы отслеживать неожиданные изменения на этих страницах.

<priority> необязательно

Приоритетность URL относительно других URL на Вашем сайте. Допустимый диапазон значений — от 0,0 до 1,0. Это значение не влияет на процедуру сравнения Ваших страниц со страницами на других сайтах — оно только позволяет указать поисковым системам, какие страницы, по Вашему мнению, более важны для сканеров.

Приоритет страницы по умолчанию — 0,5.

Следует учитывать, что приоритет, который Вы назначили странице, не влияет на положение Ваших URL на страницах результатов той или иной поисковой системы. Поисковые системы используют эту информацию при обработке URL, которые относятся к одному и тому же сайту, поэтому можно использовать этот тег для увеличения вероятности присутствия в поисковом индексе Ваших самых важных страниц.

Кроме того, следует учитывать, что назначение высокого приоритета всем URL на Вашем сайте не имеет смысла. Поскольку приоритетность – величина относительная, этот параметр используется для того, чтобы определить очередность обработки URL в пределах сайта.



Основные xml тэги для файла sitemap, который содержит информацию о других файлах sitemap (индекс):

Атрибут  Статус Описание
<sitemapindex> обязательный Инкапсулирует информацию о всех файлах Sitemap в этом файле.
<sitemap> обязательный Инкапсулирует информацию об отдельном файле Sitemap.
<loc> обязательный

Указывает местоположение файла Sitemap.

Этим местоположением может быть файл Sitemap, файл Atom, файл RSS или простой текстовый файл.

<lastmod> необязательно

Указывает время изменения соответствующего файла Sitemap. Не соответствует времени изменения ни одной из страниц в этом файле Sitemap. Значение тега "lastmod" должно быть представлено в формате W3C Datetime.

Предоставляя отметку времени последнего изменения, Вы позволяете сканерам поисковой системы извлекать только часть файлов Sitemap в индексе, то есть сканер может извлекать только те файлы Sitemap, которые были изменены после определенной даты. Этот механизм частичного извлечения файлов Sitemap позволяет быстро обнаруживать новые URL на сайтах больших размеров.


И самый главный вопрос - а создать файл sitemap? Вариантов несколько:
- через внешнюю программу
- через плагин к CMS
- через встроенный генератор, например в CMS 1C-Bitrix создаются и индексные файл и файлы с указанием на страницы
  • Файл Sitemap (1196)

    Файл sitemap нужен для роботов поисковых систем, что бы они "понимали", какие страницы нужно индексировать. В противном случае очень долго будет проиндексирована только одна главная страница. По ссылкам с нее роботы пойдут намного позже (страниц и сайтов стало много и робота на всех не хватает). Файл sitemap влияет только на индексацию сайта и...

  • Файл robots.txt (961)

    Основная задача этого файла - сообщать роботам поисковых систем, что можно и что нельзя индексировать на сайте. Точнее - это рекомендация роботам.По факту поисковые машины все равно индексируют запрещенные страницы, но не показывают их в выдаче. Иногда происходит сбой и запрещенные страницы...

  • Вебмастер (890)

    Нас в первую очередь интересует продвижение сайта - а не сам сайт. Другими словами - мы будет уделять больше внимания тем поисковым машинам, которые являются лидерами в поиске на рынке России. И в первую очередь сайт будет "причесываться" именно для этих поисковых роботов.По статистике на 2015г:1. Яндекс -...

  • Индексация и коды сервера (851)

    Индексация всех страниц сайта выполняется автоматически. Но если Вы хотите использовать сайт активно - то это Ваша головная боль, необходимо подправлять робота, что бы он все делал правильно (именно с Вашей точки зрения). 1. Все страницы для индексации должны быть указаны в файле Sitemap 2. Все...

  • Индексирование сайта (848)

    Несмотря на все громкие заявления ПС = на первом месте для хорошей индексации идут ссылки, все остальное (юзабилити, глубина просмотра, объем сайта слабо влияет на индексацию). Т.е. если у Вас есть супер новый хороший сайт - без наличия ссылок на его страницы со стороны других сайтов нормальной...

  • Поисковая машина Google (734)

    Поисковая машина Гугль для российского сегмента находится здесь www.google.ruДля международного сегмента находится здесь www.google.comЕсть проблема - гугль все равно Вас переадресует на российский вариант, определив Ваше расположение. Если Вы хотите искать без привязки к территории, то нужно использовать вариант...

  • Поисковая машина Яндекс (721)

    Поисковая машина Яндекс https://www.yandex.ru/ - для поискаВебмастер Яндекс https://webmaster.yandex.ru/ - для владельцев сайтовМетрика Яндекс https://metrika.yandex.ru/ - статистика посещений сайтаПоисковые алгоритмыФильтрыТиЦ - тематический индекс цитирования

  • Update (308)

    Многие слышали про какие-то загадочные апдейты у Яндекса и у Гугль. Так сказать - иконы сеошников. Так что это?Ответ простой. Все изменения по нашему сайту (число проиндексированных страниц, число ссылок и прочая) - мы видим пока только в Вебмастере :) Это никак не отражается на поисковой выдаче....