1. Skype консультант
  2. Задать вопрос
  3. Поиск
вместе с вами 18 лет
Как усилить результаты продвижения? где найти точки роста
Многоканальный телефон в Москве +7 (495)229-31-41 Перезвоните мне
Robots.txt

Robots.txt

21 Сен 2018

Robots.txt

Стандарт исключений для роботов или Robots.txt — это файл, представленный инструкцией для поисковых роботов, который заносится в коренную папку сайта и предназначен для контроля поведения роботов, а именно для ограничения доступа и запрещения индексирования определенной части сайта.

Первые robots.txt появились в середине девяностых годов, которые ознаменовались быстрым развитием поисковых сервисов во Всемирной паутине. Такое развитие значительно усложняло и мешало качественной оптимизации сайтов в первую очередь из-за того, что поисковые машины обрабатывали абсолютно все сайты, что занимало большое количество времени. Именно эта проблема стала толчком для создания нового уникального средства для выборочной индексации.

robots-txt-4.png

Начиная с января 1994 года был заключен договор, согласно которому большая часть поисковых роботов использует уникальный инструмент — стандарт исключений для роботов при написании рабочих файлов, его называют robots.txt.

Создание robots.txt

Главным правилом для создания файла стандарта исключения для роботов, то есть robots.txt, является полный доступ к коренному каталогу вашего сайта и домена. Если же вы не имеете подобного доступа, то лучше всего обратиться к поставщику услуг по веб-хостингу.

Для создания и проверки вашего robots.txt можно использовать несколько методов. Если мы говорим о стандарте исключения для поисковой системы Google, то лучшим вариантом станет использование инструмента проверки файлов robots.txt, с его помощью вы сможете не только создать правильный стандарт, но и незамедлительно проверить его работу.

При создании robots.txt для поискового сервиса Яндекс, следует выполнить следующие действия:

  • Создать текстовый документ с названием robots.txt, после чего заполнить его по стандартным правилам, которые можно найти в специальном разделе Яндекс.Помощь;
  • После создания стандарта проверить его работу на сервисе Яндекс.Вебмастер, в меню анализа robots.txt;
  • Добавить созданный и проверенный файл в корневую папку вашего сайта.

robots-txt-3.jpg

Кроме этого, вы можете самостоятельно написать правильный стандарт вручную для любой поисковой системы, используя нужные директивы, то есть команды, в самом простом текстовом документе. Главное запомнить, что для одного сайта нужен всего один файл robots.txt, помещенный в коренную директорию. Именно там прописываются нужные команды для всех поисковых систем.

Для правильного написания стандарта используется две обязательные команды:

  • User-agent — директива, определяющая для какого бота будет адресовано послание;
  • Disallow — команда, определяющая директорию сайта, которую запрещено индексировать, то есть, поисковые системы не будут ее видеть.

Самый простой файл robots.txt будет выглядеть так:

User-agent: *
Disallow: /file.html # название конкретного файла, на который налаживается запрет для индексации;
Disallow: /directory admin/ # директория, в которой находится файл file.html

Прописывая * после директивы User-agent, вы зададите правила для всех роботов поисковых систем. Чтобы определить поисковую систему Yandex или Google, то стоит прописывать User-agent: Yandex/Googlebot.

Символ # служит для обозначения комментариев, то есть, все что написано после этого символа и до первого переноса строки не учитывается в robots.txt.

Если же вы не хотите ставить никаких ограничений на индексацию и хотите убрать все запреты, то robots.txt будет выглядеть:

User-agent: *
Disallow:

Синтаксис файла robots.txt

В любом файле robots.txt, независимо от сложности, используется две ключевые команды, а именно:

  • User-agent, то есть робот поисковой системы;
  • Disallow, директива, сообщающая роботу user-agent какие URL адреса не нужно индексировать.

robots-txt-4.jpg

Чтобы позволить роботу User-agent сканировать и индексировать определенный адрес URL, который является дочерним к запрещенному разделу, стоит использовать команду Allow.

Все поисковые системы User-agent можно найти в базе данных поисковых роботов.

Все поисковые роботы в системе работают следуя правилам установленным клиентом, но это не мешает тому, что можно задать отдельные команды для каждого по отдельности:

User-agent: [имя робота поисковой системы, например, Yandex или Googlebot]
Disallow: [ URL, который стоит заблокировать ]
Allow: [дочерний URL, который входит в каталог запрещенного раздела ]

Директивы для правильной работы Robots.txt:

Директива — термин, который используется в программировании для обозначения указаний или команд. Поэтому для написания правильного стандарта robots.txt нужно знать особенности написания директив и выполнять их строго по инструкции.

Директивы Allow и Disallow

Директива Disallow используется для запрещения индексации и доступа роботам. Эту директиву можно использовать как ко всему сайту, так и к определенным разделам. Для правильного написания директивы стоит ввести:

User-agent: *
Disallow: / # блокирует доступ ко всему сайту
User-agent: *
Disallow: /cgi-bin # блокирует доступ к страницам, # начинающимся с '/cgi-bin'

Следуя стандартам перед директивой User-agent необходимо вставлять одину пустую строку.

robots-txt-6.jpg

Директива Allow используется для разрешения доступа роботам и индексации сайта. Так же, как и директива Disallow, Allow можно использовать как для всего сайта, так и для определенных разделов, для этого стоит ввести:

User-agent: *
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц
# начинающихся с '/cgi-bin'

Важно помнить! При использовании директив User-agent, Disallow и Allow, между ними нельзя вставлять пустые переводы строк, это собьет всю работу robots.txt.

Основные директивы из блока User-agent (Allow/Disallow) следует сортировать в соответствии с длинной префикса URL, от меньшего к большему, в таком случае их применение будет последовательным и правильным. В случае когда для одной страницы сайта подходит несколько директив, поисковые роботы будут выбирать последнюю в сортированном списке. То есть, порядок использования директив в стандарте исключения для роботов не влияет на использования команд роботами. Для правильного написания директивы стоит вводить:

# Исходный robots.txt:
User-agent: *
Allow: /reestr
Disallow: /
# Сортированный robots.txt:
User-agent: *
Disallow: /
Allow: /reestr # разрешает скачивать только страницы,
# начинающиеся с '/reestr'

Второй пример:

# Исходный robots.txt:
User-agent: *
Allow: /
Allow: /reestr/knigi
Disallow: /reestr

# Сортированный robots.txt:
User-agent: *
Allow: /
Disallow: /reestr
Allow: /reestr/knigi
# запрещает скачивать страницы, начинающиеся с '/reestr',
# но разрешает скачивать страницы, начинающиеся с '/reestr/knigi'.

Если же директивы Allow и Disallow имеют одинаковую длину префикса URL, то роботы будут отдавать предпочтение директиве Allow.

Если же вы не вводите директивы с параметрами, то робот будет учитывать код следующим образом:

User-agent: *
Disallow: # то же, что и Allow: /

User-agent: *
Allow: # то же, что и Disallow: /

Другие директивы

Host

Директива, использующаяся для поисковой системы Yandex. Основной задачей Host является создание основного зеркала сайта. Директива создана для того, чтобы не делать постраничный редирект файлов во время склеивания сайтов. Поисковая система будет видеть команду на том сайте, который нужно склеить.

Если www.glavnoye-zerkalo.ru главное зеркало сайта, то robots.txt для всех сайтов из группы зеркал выглядит так :

User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.glavnoye-zerkalo.ru

Пример корректно составленного robots.txt, при обработке которого директива Host учитывается:

User-Agent: *
Disallow:
Host: www.myhost.ru

Кроме этого, директива Host — межсекционная, поэтому ее использование не зависит от расположения.

Стоит запомнить, что для каждого файла robots.txt стоит прописывать только одну директиву Host.

Пример:

Host: host.ru # используется
User-agent: *
Disallow: /cgi-bin

User-agent: Yandex
Disallow: /cgi-bin
Host: www.host.ru # не используется

При некорректном введении директива игнорируется.

Примеры игнорируемых директив Host :

Host: www.myhost-.com
Host: www.-myhost.com
Host: www.myhost.com:100000
Host: www.my_host.com
Host: .my-host.com:8000
Host: my-host.com.
Host: my..host.com
Host: www.myhost.com:8080/
Host: 213.180.194.129
Host: www.firsthost.ru,www.secondhost.com
Host: www.firsthost.ru www.secondhost.com

Примеры использования директивы Host. Если domen.host.ru является главным зеркалом www.domen.host.com, тогда корректное использование директивы Host такое:

User-Agent: *
Disallow:
Host: domen.host.ru

Sitemap

При использовании описания структуры сайта с добавлением Sitemap — файла, с точной информацией о страницах сайта, которые подлежат индексированию — добавляйте в robots.txt специальную директиву Sitemap. Эта директива укажет путь к файлу:

User-agent: *
Allow: /
Sitemap: http://example.com/site_structure/my_sitemaps1.xml
Sitemap: http://example.com/site_structure/my_sitemaps2.xml

Если у вас несколько файлов, к которым стоит указать путь, то прописывайте директиву Sitemap к каждому файлу.

С помощью директивы роботы запомнят путь к файлу и обработают данные, которые будут использоваться в дальнейшем при формировании сессий.

Clean-param

При наличии в адресах страниц динамических параметров, которые не будут влиять на содержание страниц (например: идентификаторы сессии), следует использовать директиву Clean-param.

С помощью директивы поисковые роботы не будут постоянно перезагружать дублирующуюся информацию, а скорость обхода сайта увеличится, уменьшая нагрузку на сервер.

Пример страниц с динамическим параметром:

www.example.com/some_dir/get_file.pl?ref=site_1&file_id=123
www.example.com/some_dir/get_file.pl?ref=site_2&file_id=123
www.example.com/some_dir/get_file.pl?ref=site_3&file_id=123

Использование параметра ref нужно для отслеживания ресурса, с которого был сделан запрос, при этом не меняя содержимое.

То есть, все три адреса будут показывать файл file_id=123, а директива будет выглядеть следующим образом:

User-agent: Yandex
Disallow:
Clean-param: ref /some_dir/get_file.p

Поисковые роботы сведут все страницы в одну:

www.example.com/some_dir/get_file.pl?ref=site_1&file_id=123

Если же на вашем сайте существует доступная страница без параметров, то поисковые роботы сведут все именно к ней. Другие страницы сайта будут обходиться чаще, так как нет необходимости обходить страницы с параметрами.

Crawl-delay

Директива будет полезна в том случае, если ваш сервер нагружен и не успевает обрабатывать запросы на загрузку страниц. Добавляя директиву в robots.txt, вы задаете роботу период времени в секундах, чтобы определить время между окончанием загрузки одной страницы и началом загрузки другой.

Для совместимости с роботами, директиву crawl-delay вводят после директив Disallow и Allow:

User-agent: Yandex
Crawl-delay: 2 # задает таймаут в 2 секунды

User-agent: *
Disallow: /search
Crawl-delay: 4.5 # задает таймаут в 4.5 секунды

Правильный robots.txt для WordPress

WordPress — это популярная система для управления содержимым сайта. Ее особенность заключается в том, что все содержимое сайта будет показано с открытым исходным кодом. Сфера применения WordPress колеблется от простых блогов, до сложных многогранных сайтов.

robots-txt-7.jpg

Для применения robots.txt в WordPress стоит создать текстовый документ, в который вписывается следующий код, с добавлением собственных URL:

  1. Для всех поисковых систем:
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /new-admin
    Disallow: /new-includes
    Disallow: /new-content/plugins
    Disallow: /new-content/cache
    Disallow: /new-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /tag
  2. Для Яндекса:
    User-agent: Yandex
    Disallow: /cgi-bin
    Disallow: /new-admin
    Disallow: /new-includes
    Disallow: /new-content/plugins
    Disallow: /new-content/cache
    Disallow: /new-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /tag
    Host: new.ru
    Sitemap: http://new.ru/sitemap.xml.gz
    Sitemap: http://new.ru/sitemap.xml

Проверка robots.txt

Когда вы полностью составили свой robots.txt его стоит проверить на ошибки и правильную работу. Хорошим средством для этого послужат специальные сервисы от известных поисковых систем Google или Yandex. 

Для проверки в Google ВебМастер следует зайти в свой аккаунт и перейти на страницу сканирования. Далее, нажать на вкладку проверки robots.txt.

Вебмастер поможет вам увидеть ваши ошибки и недочеты, а также сразу исправить их не выходя из редактора. Кроме этого, в Вебмастере вы сможете проверить правильность применения директив Allow и Disallow.

Можно воспользоваться проверочной системой Яндекс ВебМастер. Этот сервис практически не имеет отличий от предыдущего, за исключением одной — здесь не нужно заходить на свой аккаунт и подтверждать то, что вы являетесь владельцем сайта. Также вам необязательно вносить все URL по одному для проверки запрета индексации, достаточно написать весь список страниц за один раз.


Возврат к алфавитному указателю

Остались вопросы?

Заполните форму ниже или просто позвоните нам +7 (495) 229-31-41

наверх