Разработка сайтов и оптимизация  
   
 
 
Контакты  Разработка сайтов Портфолио Мы
 TengyStudio » Robots.txt

Robots.txt

Файл robots.txt используется в основном для запретов индексации страниц сайта поисковыми системами.

Файл robots.txt размещается в корневой директории сайта таким образом чтобы он был доступен по адресу

Основной хост - www.tengy.ru

Для корректной индексации сайта поисковыми системами (индексация всех страниц сайта либо с префиксом www т.е. www.tengy.ru, либо без префикса www т.е. tengy.ru) и для того чтобы у ресурса не было зеркал на других доменах, указываем основной Host в файле robots.txt следующим образом:

User-agent: *
Disallow:
Host: www.tengy.ru

Роботы поисковых систем Яндекс и Google следуют стандарту обработки robots.txt, но для правильной интерпретации директивы Host большинством роботов директива Host должна быть прописана в файле после директив Disallow или Allow.

Нужно обратить особое внимание на синтаксис строк в файле robots.txt, при наличии лишних символов директива Host не учитывается.
Наиболее распространенные ошибки:

Host: www.tengy.ru/
Host: www.tengy.ru:8080
Host: http://www.tengy.ru

Запрет индексации страниц и директорий

Для запрета индексации страниц и директорий сайта используется директива Disallow .
Например, запрет индексации содержимого папки templates в корневой директории сайта:
User-agent: *
Disallow: /templates/
Host: www.tengy.ru

Помимо служебных директорий желательно закрывать от индексации страницы с дублированным контентом.
«Не создавайте несколько копий страницы под разными URL-адресами. Многие сайты содержат текстовые версии страниц и версии для печати, имеющие такое же содержание, как и соответствующие страницы с графикой. Чтобы обеспечить включение выбранной вами страницы в результаты поиска, необходимо блокировать доступ наших сканеров к копиям с помощью файла robots.txt ... » Источник: Google

Пример запрета индексации динамических страниц:
User-agent: *
Disallow: /*?
Host: www.tengy.ru

Пример запрета индексации результатов поиска и версий для печати:
User-agent: *
Disallow: /templates/
Disallow: /*print*
Disallow: /index.php?do=search*
Host: www.tengy.ru

Необходимо учесть, что robots.txt не является обязательным к исполнению, и если Вам нужны гарантии того, что некоторые страницы сайта не попадут в индекс, их нужно закрывать паролем. Даже в случае отсутствия на сайте внутренних ссылок на страницу и закрытия ее в файле robots.txt страница может попасть в индекс поисковых систем за счет внешних ссылок.

При заходе на сайт роботы поисковых систем проверяют наличие файла robots.txt и, если файл существует, робот ищет строку, начинающуюся с User-agent:

Записи, расположенные под строкой User-agent: * содержат директивы для всех роботов, записи под строкой User-agent: Yandex - для робота Яндекса, записи под строкой User-agent: Googlebot - для робота Google, записи под строкой User-agent: StackRambler - для робота Рамблера, записи под строкой User-agent: Slurp - для Yahoo! и т.д. (см. также статью имена роботов поисковых систем)

Если робот обнаружил свое имя, например User-agent: User-agent: Yandex, то директивы написанные для других роботов учитывать он не будет. Таким образом мы можем создать разные директивы для роботов поисковых систем, например:

User-agent: Yandex
Disallow: /templates/
Disallow: /*print*
Disallow: /index.php?do=search*
Host: www.tengy.ru

User-Agent: Googlebot
Disallow: /templates/
Disallow: /*print*
Disallow: /index.php?do=search*
Disallow: /scripts/
Host: www.tengy.ru

Таким образом мы запрещаем индексацию всего содержимого папки scripts для Google. Например, внешние ссылки прописываем в файле link.js и размещаем файл в директории scripts. Это служит для закрытия внешних ссылок от индексации роботом Google после отмены атрибута rel=nofollow.

Также при написании robots.txt необходимо помнить, что его размер не должен превышать 256 Кб, в противном случае он полностью игнорируется роботами.

Анализ robots.txt для Яндекса

Адрес сайта:

 

При цитировании материалов сайта ссылка на Tengy Studio обязательна.

 

 
 
 
Создание и продвижение сайтов
Tengy Studio © 2002-
Карта сайта E-mail
Rambler's Top100