G|Translate: English EN Français FR Deutsch DE Italiano IT Русский RU Español ES

Файл robots.txt

Нам важен твой голос!

Основная задача этого файла – сообщать роботам поисковых систем, что можно и что нельзя индексировать на сайте.
Точнее – это рекомендация роботам.

По факту поисковые машины все равно индексируют запрещенные страницы, но не показывают их в выдаче. Иногда происходит сбой и запрещенные страницы оказываются в выдаче.

Файл robots.txt

Если Вам необходимо действительно что-то полностью на сайте закрыть от роботов (и людей) – надо на уровне хостинга закрыть папку логином и паролем.

Также записи в этом файле используются для удаления страниц из индекса Гугль. Гугль (в отличии от Яндекса) удаляет страницы из индекса при наличии двух условий:

– запрос на удаление страницы

– страница должна быть явно запрещена к индексации в robots.txt

Яндекс удаляет отсутствующие страницы где-то через 3 месяца (при получении регулярной ошибки 404)

Главное:

– файл только один

– файл располагается в корневой директории сайта

– названия файла в нижнем регистре robots.txt

– файл в кодировке ANSI

– размер файла не более 32 Кб (иначе роботы будут считать его отсутствующим и иметь разрешение на индексацию всего)

Примечание: также поисковыми роботами (запреты и разрешения) можно управлять прямо на странице сайта с помощью метатэгов robots.

Позволяет решать следующие проблемы:

– если у Вас CMS генерирует дубли страниц (т.е. одна и та же страницами под разными url) – Вы можете или искать/найти в каком месте CMS работает с ошибкой или запретить индексацию дублей по “маске” в этом файле

– немного помогает продвижению сайта, запрещая роботам индексировать мусор (роботы мусор не любят) и заодно снижая нагрузку на сайт в связи с уменьшением заходов роботов

– помогает при смене содержимого сайта при том же доменном имени – можно указать, что теперь такие-то страницы не надо индексировать, т.к. они отсутствующие (если оставить все как есть, страницы старого сайта будут еще долго висеть в индексе, робот будет получать ошибку 404, но все равно потом приходить еще и еще)

– помогает удалять отсутствующие страницы из индекса поисковых систем – для выполнения запроса на удаление url НЕОБХОДИМ запрет индексации этих страниц в файле robots.txt

– прячет от роботов служебные зоны сайта (регистрация на сайте, каталог картинок и прочее), например разделы, закрытые паролем. Если это не сделать, робот будет пытаться их индексировать с выдачей ошибки 301 (доступ запрещен)

– явно указывает роботам, где находится/находятся файлы sitemap.xml (где прописаны страницы для индексирования)

– указывает роботам основное зеркало сайта – с www или без него

 

Структура файла:

Секция User-agent: *

Вместо * может быть указан конкретный поисковый робот. Любая секция продолжается либо до начала следующей секции, либо до конца файла robots.txt. Согласно стандарту, между соседними секциями должна вставляться хотя бы одна пустая строка. Каждая секция должна начинаться с директивы User-agent и содержать значение User-agent того робота, к которому относится данная секция.

Основные директивы в секции:

Disallow – запретить

Allow – разрешить (нет в базовом стандарте robots.txt, есть в расширенном стандарте, сейчас практически все роботы поисковых систем поддерживают расширенный стандарт)

Sitemap – указывает расположение файла Sitemap.xml Файлов может быть несколько и они могут лежать в разных директориях.

Host – указывает основное зеркало сайта

Варианты:

User-agent: *
Disallow: /

# запретить индексировать все на сайте

 

User-agent: *
Allow: /main
Disallow: /

# разрешить индексацию всего, что начинается на main и запретить все остальное

Внимание: не допустимы пустые переводы строки между User-agent, Disallow, Allow.

Вот так делать нельзя – роботы будут считать это ошибкой

User-agent: *

Allow: /main

Disallow: /

Sitemap: http://www.site.ru/sitemap.xml

# указание на расположение файла sitemap.xml

 

Host: site.ru (понимает только Яндекс, для Гугль основное зеркало задается через инструменты ВебМастера)

# указание на основное зеркало сайта

 

Спецсимволы:

# комментарий

* как обычно – любые символы

Символ * означает любое количество любых символов, например, под маску /doc* подходит как /doc1, так и /doc291, /doc/ или просто /doc. По умолчанию, при интерпретации роботом к указанному пути приписывается символ *. Например, следующие директивы полностью идентичны:

Disallow: /doc
Disallow: /doc*

Обратите внимание на слэши – у Вас может быть директория /doc/ и поддиректории к ней /doc/charter1/ и т.д. Если поставить только

Disallow: /doc/ – Вы запретите только индексацию одной этой папки, для запрещения всех подпапок надо указать
Disallow: /doc

 

$ запрещает использование * на конце директивы

User-agent: *
Disallow: /doc$

Чтобы избежать при интерпретации «автоматического дописывания» символа * в конце пути, служит другой специальный символ – $. Этот символ означает конец подстроки сравнения. Таким образом, следующий блок будет запрещать /doc, но не будет запрещать пути /doc1 или /doc291.

Обратите внимание – поисковые роботы хотят “видеть”, как выглядит сайт для человека. Вот здесь подробнее – https://seotable.ru/seo-chto-eto.html

Если Вы запрещаете определенные разделы сайта для индексации – запрещайте только контент. Картинки (на которые есть ссылки с основных страниц сайта) должны быть видны для роботов. Если Вы запрещаете для индексации папку, где хранится и контент и картинки – роботы будут ругаться.

Как пример – делаем баннерную рекламу на своем сайте.

Сами баннеры (в виде картинок) + соответствующие файлы html с переадресацией на конечную страницу. Вот такого вида:

папка “banner”
banner1.gif
banner1.html
banner2.gif
banner2.html
banner3.gif
banner3.html

И все они живут в отдельной папке “banner” в корне сайта.

Зачем делать отдельные файлы html, почему бы сразу с баннера не сделать ссылку на рекламируемый ресурс? Удобно для статистики – в практически пустых файлах html “живет” переадресация и счетчики. Т.е мы можете анализировать статистику, сколько раз кликали по конкретному баннеру.

Но поисковым роботам такие пустые страницы не нравятся, будем их запрещать.

Вариант 1 – запрещаем конкретные страницы

User-agent: *
Disallow: /banner/banner1.htm
Disallow: /banner/banner2.htm
Disallow: /banner/banner3.htm

Вариант 2 – помещаем код в подпапку code, картинки остаются в старой папке

папка “banner”
banner1.gif
banner2.gif
banner3.gif
папка “code”
banner1.html
banner2.html
banner3.html

Запрещаем только подпапку с кодом

User-agent: *
Disallow: /banner/code

Второй вариант более универсальный, Вы можете добавлять баннеры без внесения изменений в robots.txt

Подпишитесь в VKontakte - нажмите кнопку
Подпишитесь в Telegram - нажмите кнопку
Наша группа ODNOKLASSNIKI

Вы можете сохранить ссылку на эту страницу себе на компьютер в виде htm файла




Запрос на размещение Вашего рекламного поста (тема и email будут добавлены автоматически в письмо)

В Вашем браузере должна быть настроена обработка ссылок mailto

site_post@bk.ru

или просто скопируйте адрес e-mail



Почитать в разделе

ИНДЕКСИРОВАНИЕ САЙТА

Несмотря на все громкие заявления ПС = на первом месте для хорошей индексации идут ссылки, все остальное (юзабилити, глубина просмотра, объем сайта слабо влияет на индексацию). Т.е. если у Вас есть супер новый хороший сайт - без наличия ссылок на его страницы со стороны других сайтов нормальной индексации не будет (точнее нормального показа в выдаче). Яндекс все проиндексирует (но не покажет это все), Гугль проиндексирует порядка 30% (и тоже не все покажет). Где можно взять ссылки для нового сайта? - ручная работа на всех форумах, регистрация, ссылка, переписка с сисадминами других сайтов = в результате ссылка на Ваш сайт (это как раз то, что Вы видите бессмысленную рекламу, немного...
(Читать полностью...)

  • Всего статей в разделе: 8
  • Показано статей в списке: 7
  • Сортировка: название по алфавиту

Update поиска

Многие слышали про какие-то загадочные апдейты у Яндекса и у Гугль. Так сказать - иконы сеошников. Так что это? Ответ простой. Все изменения по нашему сайту (число проиндексированных страниц, число ссылок и прочая) - мы видим пока только в Вебмастере :) Это никак не отражается на поисковой выдаче. С определенным периодом все эти изменения становятся доступны в выдаче - и посещаемость сайта резко меняется. Вот скан из Вебмастера Гугль - хорошо видна вертикальная линия с отметкой "Обновление". Это как раз все изменения по сайту были выложены для участия в поисковой выдаче. Все радуются. Скажем, после обновления можно увидеть результат работы сеошников над сайтом. Пока...
(Читать полностью...)

Индексация и коды сервера

Индексация всех страниц сайта выполняется автоматически. Но если Вы хотите использовать сайт активно - то это Ваша головная боль, необходимо подправлять робота, что бы он все делал правильно (именно с Вашей точки зрения). 1. Все страницы для индексации должны быть указаны в файле Sitemap 2. Все запрещенные страницы для индексации должны быть указаны в файле robots.txt 3. Все страницы с конфиденциальной информацией должны быть спрятаны в отдельном каталоге, запрещены к индексации в файле robots.txt и каталог должен быть закрыт на уровне сервера логином и паролем. 4. Если Вы видите в вебмастере Яндекса страницы "Найдено по внутренней ссылке" - значит, Яндекс нашел...
(Читать полностью...)

Кто такой User Agent?

User agent - кто это? Не кто - а что. При обращении к Вашему сайту (точнее серверу, на котором находится Ваш сайт) - сервер получает много информации о запросе. Это может быть запрос от: браузера по отображение сайта заход поискового бота запрос программы на проверку ответа сервера запрос программы, которая маскируется под браузер И каждый такой запрос оставляет следы на сервере: ссылка, с которой был переход IP-адрес и тот самый User Agent - идентификатор того, кто обратился В целом поле с указанием user agent можно подделать, чем и пользуются спамеры и хакеры. Но официальные программы работают честно. Данные посетителя (это текстовая инфомация) хранятся в...
(Читать полностью...)

Поисковая машина Google

Поисковая машина Гугль для российского сегмента находится здесь www.google.ru Для международного сегмента находится здесь www.google.com Search Google Есть проблема - гугль все равно Вас переадресует на российский вариант, определив Ваше расположение. Если Вы хотите искать без привязки к территории, то нужно использовать вариант www.google.com/ncr (и Вы останетесь в домене .com) Наиболее известные сервисы Гугль для вебмастеров: Вебмастер - https://www.google.ru/webmasters/ Контекстная реклама - https://www.google.ru/adwords/ Анализ сайта на быстродействие - https://developers.google.com/speed/pagespeed/insights/ Основные ключевые слова Гугль для поиска: Ключевое слово Как...
(Читать полностью...)

Поисковая машина Яндекс

Поисковая машина Яндекс https://www.yandex.ru/ - для поиска Поиск Яндекс Поисковые алгоритмы Фильтры Показ сайта в выдаче зависит от Индекса сайта (ранее у Яндекс был Тиц - тематический индекс цитирования). Индекс сайта -  это показатель того, насколько полезен ваш сайт для пользователей с точки зрения Яндекса. Какие конкретно параметры влияют на X - является тайной Яндекса. ВАЖНО! Яндекс.Вебмастер достаточно сильный формалист (в отличии от Гугль). Смотрите все позиции, на которые робот ругается. Иначе не будет хороших позиций в выдаче. Например: - недостаточно фавикон разместить в корне сайта, гугль его видит, браузер показывает - а робот Яндекс не видит...хочет еще и явно код...
(Читать полностью...)

Счетчики и их основные показатели

Счетчики, установленные на сайт, позволяют анализировать много параметров Вашего сайта.    Что такое счетчик: это скрипт, который фиксирует заход на сайт поисковые машины просят устанавливать вызов скрипта как можно ранее (в секции <HEAD></HEAD>) сейчас это практически не влияет на скорость загрузки страницы, т.к. это асинхронный код Основные показатели сайта от счетчиков Базовые параметры: посещения - все заходы на сайт, включая повторные визиты - по уникальным посетителям, т.е. для одного и того же визитера с двумя заходами будет 2 посещения и 1 визит новые посетители - заходы на сайт новых визитеров (контроль по IP, кукам и прочем...
(Читать полностью...)

Файл Sitemap.xml

Файл sitemap.xml нужен для роботов поисковых систем, что бы они "понимали", какие страницы нужно индексировать. Без файла sitemap.xml в первую очередь проиндексирована только одна главная страница. По ссылкам с нее роботы пойдут намного позже (страниц и сайтов стало много и робота на всех не хватает). Файл sitemap влияет только на индексацию сайта и никак не влияет на показ сайта в поисковой выдаче (т.е. роботы про сайт знают, а уж как его показывать в выдаче - это их дело). Может быть ситуация: сами страницы URL есть а на сайте на них ссылок нет Как это может быть?  А это нормальный интернет-магазин. Проблема в том, что есть основная страница товара...
(Читать полностью...)

X

    Пожалуйста, докажите, что вы человек, выбрав самолет.