G|Translate: English EN Français FR Deutsch DE Italiano IT Русский RU Español ES

Файл robots.txt

Основная задача этого файла – сообщать роботам поисковых систем, что можно и что нельзя индексировать на сайте.
Точнее – это рекомендация роботам.

По факту поисковые машины все равно индексируют запрещенные страницы, но не показывают их в выдаче. Иногда происходит сбой и запрещенные страницы оказываются в выдаче.

Файл robots.txt

Если Вам необходимо действительно что-то полностью на сайте закрыть от роботов (и людей) – надо на уровне хостинга закрыть папку логином и паролем.

Также записи в этом файле используются для удаления страниц из индекса Гугль. Гугль (в отличии от Яндекса) удаляет страницы из индекса при наличии двух условий:

– запрос на удаление страницы

– страница должна быть явно запрещена к индексации в robots.txt

Яндекс удаляет отсутствующие страницы где-то через 3 месяца (при получении регулярной ошибки 404)

Главное:

– файл только один

– файл располагается в корневой директории сайта

– названия файла в нижнем регистре robots.txt

– файл в кодировке ANSI

– размер файла не более 32 Кб (иначе роботы будут считать его отсутствующим и иметь разрешение на индексацию всего)

Примечание: также поисковыми роботами (запреты и разрешения) можно управлять прямо на странице сайта с помощью метатэгов robots.

Позволяет решать следующие проблемы:

– если у Вас CMS генерирует дубли страниц (т.е. одна и та же страницами под разными url) – Вы можете или искать/найти в каком месте CMS работает с ошибкой или запретить индексацию дублей по “маске” в этом файле

– немного помогает продвижению сайта, запрещая роботам индексировать мусор (роботы мусор не любят) и заодно снижая нагрузку на сайт в связи с уменьшением заходов роботов

– помогает при смене содержимого сайта при том же доменном имени – можно указать, что теперь такие-то страницы не надо индексировать, т.к. они отсутствующие (если оставить все как есть, страницы старого сайта будут еще долго висеть в индексе, робот будет получать ошибку 404, но все равно потом приходить еще и еще)

– помогает удалять отсутствующие страницы из индекса поисковых систем – для выполнения запроса на удаление url НЕОБХОДИМ запрет индексации этих страниц в файле robots.txt

– прячет от роботов служебные зоны сайта (регистрация на сайте, каталог картинок и прочее), например разделы, закрытые паролем. Если это не сделать, робот будет пытаться их индексировать с выдачей ошибки 301 (доступ запрещен)

– явно указывает роботам, где находится/находятся файлы sitemap.xml (где прописаны страницы для индексирования)

– указывает роботам основное зеркало сайта – с www или без него

 

Структура файла:

Секция User-agent: *

Вместо * может быть указан конкретный поисковый робот. Любая секция продолжается либо до начала следующей секции, либо до конца файла robots.txt. Согласно стандарту, между соседними секциями должна вставляться хотя бы одна пустая строка. Каждая секция должна начинаться с директивы User-agent и содержать значение User-agent того робота, к которому относится данная секция.

Основные директивы в секции:

Disallow – запретить

Allow – разрешить (нет в базовом стандарте robots.txt, есть в расширенном стандарте, сейчас практически все роботы поисковых систем поддерживают расширенный стандарт)

Sitemap – указывает расположение файла Sitemap.xml Файлов может быть несколько и они могут лежать в разных директориях.

Host – указывает основное зеркало сайта

Варианты:

User-agent: *
Disallow: /

# запретить индексировать все на сайте

 

User-agent: *
Allow: /main
Disallow: /

# разрешить индексацию всего, что начинается на main и запретить все остальное

Внимание: не допустимы пустые переводы строки между User-agent, Disallow, Allow.

Вот так делать нельзя – роботы будут считать это ошибкой

User-agent: *

Allow: /main

Disallow: /

Sitemap: http://www.site.ru/sitemap.xml

# указание на расположение файла sitemap.xml

 

Host: site.ru (понимает только Яндекс, для Гугль основное зеркало задается через инструменты ВебМастера)

# указание на основное зеркало сайта

 

Спецсимволы:

# комментарий

* как обычно – любые символы

Символ * означает любое количество любых символов, например, под маску /doc* подходит как /doc1, так и /doc291, /doc/ или просто /doc. По умолчанию, при интерпретации роботом к указанному пути приписывается символ *. Например, следующие директивы полностью идентичны:

Disallow: /doc
Disallow: /doc*

Обратите внимание на слэши – у Вас может быть директория /doc/ и поддиректории к ней /doc/charter1/ и т.д. Если поставить только

Disallow: /doc/ – Вы запретите только индексацию одной этой папки, для запрещения всех подпапок надо указать
Disallow: /doc

 

$ запрещает использование * на конце директивы

User-agent: *
Disallow: /doc$

Чтобы избежать при интерпретации «автоматического дописывания» символа * в конце пути, служит другой специальный символ – $. Этот символ означает конец подстроки сравнения. Таким образом, следующий блок будет запрещать /doc, но не будет запрещать пути /doc1 или /doc291.

Обратите внимание – поисковые роботы хотят “видеть”, как выглядит сайт для человека. Вот здесь подробнее – https://seotable.ru/seo-chto-eto.html

Если Вы запрещаете определенные разделы сайта для индексации – запрещайте только контент. Картинки (на которые есть ссылки с основных страниц сайта) должны быть видны для роботов. Если Вы запрещаете для индексации папку, где хранится и контент и картинки – роботы будут ругаться.

Как пример – делаем баннерную рекламу на своем сайте.

Сами баннеры (в виде картинок) + соответствующие файлы html с переадресацией на конечную страницу. Вот такого вида:

папка “banner”
banner1.gif
banner1.html
banner2.gif
banner2.html
banner3.gif
banner3.html

И все они живут в отдельной папке “banner” в корне сайта.

Зачем делать отдельные файлы html, почему бы сразу с баннера не сделать ссылку на рекламируемый ресурс? Удобно для статистики – в практически пустых файлах html “живет” переадресация и счетчики. Т.е мы можете анализировать статистику, сколько раз кликали по конкретному баннеру.

Но поисковым роботам такие пустые страницы не нравятся, будем их запрещать.

Вариант 1 – запрещаем конкретные страницы

User-agent: *
Disallow: /banner/banner1.htm
Disallow: /banner/banner2.htm
Disallow: /banner/banner3.htm

Вариант 2 – помещаем код в подпапку code, картинки остаются в старой папке

папка “banner”
banner1.gif
banner2.gif
banner3.gif
папка “code”
banner1.html
banner2.html
banner3.html

Запрещаем только подпапку с кодом

User-agent: *
Disallow: /banner/code

Второй вариант более универсальный, Вы можете добавлять баннеры без внесения изменений в robots.txt


Вы можете сохранить ссылку на эту страницу себе на компьютер в виде htm файла





Почитать в разделе: ИНДЕКСИРОВАНИЕ САЙТА

  • Всего статей в разделе: 6
  • Показано статей в списке: 5
  • Сортировка: название по алфавиту

Update поиска

Многие слышали про какие-то загадочные апдейты у Яндекса и у Гугль. Так сказать - иконы сеошников. Так что это? Ответ простой. Все изменения по нашему сайту (число проиндексированных страниц, число ссылок и прочая) - мы видим пока только в Вебмастере :) Это никак не отражается на поисковой выдаче. С определенным периодом все эти изменения становятся доступны в выдаче - и посещаемость сайта резко меняется. Вот скан из Вебмастера Гугль - хорошо видна вертикальная линия с отметкой "Обновление". Это как раз все изменения по сайту были выложены для участия в поисковой выдаче. Все радуются. Скажем, после обновления можно увидеть результат работы сеошников над сайтом. Пока...
(Читать полностью...)

Индексация и коды сервера

Индексация всех страниц сайта выполняется автоматически. Но если Вы хотите использовать сайт активно - то это Ваша головная боль, необходимо подправлять робота, что бы он все делал правильно (именно с Вашей точки зрения). 1. Все страницы для индексации должны быть указаны в файле Sitemap 2. Все запрещенные страницы для индексации должны быть указаны в файле robots.txt 3. Все страницы с конфиденциальной информацией должны быть спрятаны в отдельном каталоге, запрещены к индексации в файле robots.txt и каталог должен быть закрыт на уровне сервера логином и паролем. 4. Если Вы видите в вебмастере Яндекса страницы "Найдено по внутренней ссылке" - значит, Яндекс нашел...
(Читать полностью...)

Поисковая машина Google

Поисковая машина Гугль для российского сегмента находится здесь www.google.ru Для международного сегмента находится здесь www.google.com Search Google Есть проблема - гугль все равно Вас переадресует на российский вариант, определив Ваше расположение. Если Вы хотите искать без привязки к территории, то нужно использовать вариант www.google.com/ncr (и Вы останетесь в домене .com) Наиболее известные сервисы Гугль для вебмастеров: Вебмастер - https://www.google.ru/webmasters/ Контекстная реклама...
(Читать полностью...)

Поисковая машина Яндекс

Поисковая машина Яндекс https://www.yandex.ru/ - для поиска Поиск Яндекс Поисковые алгоритмы Фильтры Показ сайта в выдаче зависит от Индекса сайта (ранее у Яндекс был Тиц - тематический индекс цитирования). Индекс сайта -  это показатель того, насколько полезен ваш сайт для пользователей с точки зрения Яндекса. Какие конкретно параметры влияют на X - является тайной Яндекса. ВАЖНО! Яндекс.Вебмастер достаточно сильный формалист (в отличии от Гугль). Смотрите все позиции, на которые робот ругается. Иначе не будет хороших позиций в выдаче. Например: - недостаточно фавикон разместить в корне сайта, гугль его видит, браузер...
(Читать полностью...)

Файл Sitemap.xml

Файл sitemap.xml нужен для роботов поисковых систем, что бы они "понимали", какие страницы нужно индексировать. Без файла sitemap.xml в первую очередь проиндексирована только одна главная страница. По ссылкам с нее роботы пойдут намного позже (страниц и сайтов стало много и робота на всех не хватает). Файл sitemap влияет только на индексацию сайта и никак не влияет на показ сайта в поисковой выдаче (т.е. роботы про сайт знают, а уж как его показывать в выдаче - это их дело). Официальный сайт правил находится здесь sitemap.org (версия на русском языке) Общие требования к файлу sitemap.xml ВАЖНО: название файла может быть любым и находиться он может в любой папке -> нужно...
(Читать полностью...)