Как создать правильный файл robots.txt, настройка, директивы
Файл robots.txt — текстовый файл в формате .txt, ограничивающий поисковым роботам доступ к содержимому на http-сервере.
Как определение, Robots.txt — это стандарт исключений для роботов, который был принят консорциумом W3C 30 января 1994 года, и который добровольно использует большинство поисковых систем. Файл robots.txt состоит из набора инструкций для поисковых роботов, которые запрещают индексацию определенных файлов, страниц или каталогов на сайте. Рассмотрим описание robots.txt для случая, когда сайт не ограничивает доступ роботам к сайту.
Простой пример:
User-agent: * Allow: /
Здесь роботс полностью разрешает индексацию всего сайта.
Файл robots.txt необходимо загрузить в корневой каталог вашего сайта, чтобы он был доступен по адресу:
ваш_сайт.ru/robots.txt
Для размещения файла в корне сайта обычно необходим доступ через FTP. Однако, некоторые системы управления (CMS) дают возможность создать robots.txt непосредственно из панели управления сайтом или через встроенный FTP-менеджер.
Если файл доступен, то вы увидите содержимое в браузере.
Для чего нужен robots.txt
Сформированный файл для сайта является важным аспектом поисковой оптимизации. Зачем нужен robots.txt? Например, в SEO robots.txt нужен для того, чтобы исключать из индексации страницы, не содержащие полезного контента и многое другое. Как, что, зачем и почему исключается уже было описано в статье про запрет индексации страниц сайта, здесь не будем на этом останавливаться. Нужен ли файл robots.txt всем сайтам? И да и нет. Если использование подразумевает исключение страниц из поиска, то для небольших сайтов с простой структурой и статичными страницами подобные исключения могут быть лишними. Однако, и для небольшого сайта могут быть полезны некоторые директивы, например директива Host или Sitemap, но об этом ниже.
Как создать robots.txt
Поскольку это текстовый файл, нужно воспользоваться любым текстовым редактором, например Блокнотом. Как только вы открыли новый текстовый документ, вы уже начали создание robots.txt, осталось только составить его содержимое, в зависимости от ваших требований, и сохранить в виде текстового файла с названием robots в формате txt. Все просто, и создание файла не должно вызвать проблем даже у новичков. О том, как составить и что писать в роботсе на примерах покажу ниже.
Cоздать robots.txt онлайн
Вариант для ленивых: скачать в уже в готовом виде. Создание robots txt онлайн предлагает множество сервисов, выбор за вами. Главное — четко понимать, что будет запрещено и что разрешено, иначе создание файла robots.txt online может обернуться трагедией, которую потом может быть сложно исправить. Особенно, если в поиск попадет то, что должно было быть закрытым. Будьте внимательны — проверьте свой файл роботс, прежде чем выгружать его на сайт. Все же пользовательский файл robots.txt точнее отражает структуру ограничений, чем тот, что был сгенерирован автоматически и скачан с другого сайта. Читайте дальше, чтобы знать, на что обратить особое внимание при редактировании robots.txt.
Редактирование robots.txt
После того, как вам удалось создать файл robots.txt онлайн или своими руками, вы можете редактировать robots.txt. Изменить его содержимое можно как угодно, главное — соблюдать некоторые правила и синтаксис robots.txt. В процессе работы над сайтом, файл роботс может меняться, и если вы производите редактирование robots.txt, то не забывайте выгружать на сайте обновленную, актуальную версию файла со всем изменениями. Далее рассмотрим правила настройки файла, чтобы знать, как изменить файл robots.txt и «не нарубить дров».
Правильная настройка robots.txt
Правильная настройка robots.txt позволяет избежать попадания частной информации в результаты поиска крупных поисковых систем. Однако, не стоит забывать, что команды robots.txt не более чем руководство к действию, а не защита. Роботы надежных поисковых систем, вроде Яндекс или Google, следуют инструкциям robots.txt, однако прочие роботы могут легко игнорировать их. Правильное понимание и применение robots.txt — залог получения результата.
Чтобы понять, как сделать правильный robots txt
Правильный robots.txt начинается с директивы User-agent, которая указывает, к какому роботу обращены конкретные директивы.
Примеры User-agent в robots.txt:
# Указывает директивы для всех роботов одновременно User-agent: * # Указывает директивы для всех роботов Яндекса User-agent: Yandex # Указывает директивы для только основного индексирующего робота Яндекса User-agent: YandexBot # Указывает директивы для всех роботов Google User-agent: Googlebot
Учитывайте, что подобная настройка файла robots.txt указывает роботу использовать только директивы, соответствующие user-agent с его именем.
Пример robots.txt с несколькими вхождениями User-agent:
# Будет использована всеми роботами Яндекса User-agent: Yandex Disallow: /*utm_ # Будет использована всеми роботами Google User-agent: Googlebot Disallow: /*utm_ # Будет использована всеми роботами кроме роботов Яндекса и Google User-agent: * Allow: /*utm_
Директива User-agent создает лишь указание конкретному роботу, а сразу после директивы User-agent должна идти команда или команды с непосредственным указанием условия для выбранного робота. В примере выше используется запрещающая директива «Disallow», которая имеет значение «/*utm_». Таким образом, закрываем все страницы с UTM-метками. Правильная настройка robots.txt запрещает наличие пустых переводов строки между директивами «User-agent», «Disallow» и директивами следующими за «Disallow» в рамках текущего «User-agent».
Пример неправильного перевода строки в robots.txt:
User-agent: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=
Пример правильного перевода строки в robots.txt:
User-agent: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=
Как видно из примера, указания в robots.txt поступают блоками, каждый из которых содержит указания либо для конкретного робота, либо для всех роботов «*».
Кроме того, важно соблюдать правильный порядок и сортировку команд в robots.txt при совместном использовании директив, например «Disallow» и «Allow». Директива «Allow» — разрешающая директива, является противоположностью команды robots.txt «Disallow» — запрещающей директивы.
Пример совместного использования директив в robots.txt:
User-agent: * Allow: /blog/page Disallow: /blog
Данный пример запрещает всем роботам индексацию всех страниц, начинающихся с «/blog», но разрешает индексации страниц, начинающиеся с «/blog/page».
Прошлый пример robots.txt в правильной сортировке:
User-agent: * Disallow: /blog Allow: /blog/page
Сначала запрещаем весь раздел, потом разрешаем некоторые его части.
Еще один правильный пример robots.txt с совместными директивами:
User-agent: * Allow: / Disallow: /blog Allow: /blog/page
Обратите внимание на правильную последовательность директив в данном robots.txt.
Директивы «Allow» и «Disallow» можно указывать и без параметров, в этом случае значение будет трактоваться обратно параметру «/».
Пример директивы «Disallow/Allow» без параметров:
User-agent: * Disallow: # равнозначно Allow: / Disallow: /blog Allow: /blog/page
Как составить правильный robots.txt и как пользоваться трактовкой директив — ваш выбор. Оба варианта будут правильными. Главное — не запутайтесь.
Для правильного составления robots.txt необходимо точно указывать в параметрах директив приоритеты и то, что будет запрещено для скачивания роботам. Более полно использование директив «Disallow» и «Allow» мы рассмотрим чуть ниже, а сейчас рассмотрим синтаксис robots.txt. Знание синтаксиса robots.txt приблизит вас к тому, чтобы
Синтаксис robots.txt
Роботы поисковых систем добровольно следуют командам robots.txt — стандарту исключений для роботов, однако не все поисковые системы трактуют синтаксис robots.txt одинаково. Файл robots.txt имеет строго определённый синтаксис, но в то же время написать robots txt не сложно, так как его структура очень проста и легко понятна.
Вот конкретные список простых правил, следуя которым, вы исключите частые ошибки robots.txt:
- Каждая директива начинается с новой строки;
- Не указывайте больше одной директивы в одной строке;
- Не ставьте пробел в начало строки;
- Параметр директивы должен быть в одну строку;
- Не нужно обрамлять параметры директив в кавычки;
- Параметры директив не требуют закрывающих точки с запятой;
- Команда в robots.txt указывается в формате — [Имя_директивы]:[необязательный пробел][значение][необязательный пробел];
- Допускаются комментарии в robots.txt после знака решетки #;
- Пустой перевод строки может трактоваться как окончание директивы User-agent;
- Директива «Disallow: » (с пустым значением) равнозначна «Allow: /» — разрешить все;
- В директивах «Allow», «Disallow» указывается не более одного параметра;
- Название файла robots.txt не допускает наличие заглавных букв, ошибочное написание названия файла — Robots.txt или ROBOTS.TXT;
- Написание названия директив и параметров заглавными буквами считается плохим тоном и если по стандарту, robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файлов и директорий;
- Если параметр директивы является директорией, то перед название директории всегда ставится слеш «/», например: Disallow: /category
- Слишком большие robots.txt (более 32 Кб) считаются полностью разрешающими, равнозначными «Disallow: »;
- Недоступный по каким-либо причинам robots.txt может трактоваться как полностью разрешающий;
- Если robots.txt пустой, то он будет трактоваться как полностью разрешающий;
- В результате перечисления нескольких директив «User-agent» без пустого перевода строки, все последующие директивы «User-agent», кроме первой, могут быть проигнорированы;
- Использование любых символов национальных алфавитов в robots.txt не допускается.
Поскольку разные поисковые системы могут трактовать синтаксис robots.txt по-разному, некоторые пункты можно опустить. Так например, если прописать несколько директив «User-agent» без пустого перевода строки, все директивы «User-agent» будут восприняты корректно Яндексом, так как Яндекс выделяет записи по наличию в строке «User-agent».
В роботсе должно быть указано строго только то, что нужно, и ничего лишнего. Не думайте, как прописать в robots txt все, что только можно и чем его заполнить. Идеальный robots txt — это тот, в котором меньше строк, но больше смысла. «Краткость — сестра таланта». Это выражение здесь как нельзя кстати.
Как проверить robots.txt
Для того, чтобы проверить robots.txt на корректность синтаксиса и структуры файла, можно воспользоваться одной из онлайн-служб. К примеру, Яндекс и Google предлагают собственные сервисы анализа сайта для вебмастеров, которые включают анализ robots.txt:
Проверка файла robots.txt в Яндекс.Вебмастер: http://webmaster.yandex.ru/robots.xml
Проверка файла robots.txt в Google: https://www.google.com/webmasters/tools/siteoverview?hl=ru
Для того, чтобы проверить robots.txt онлайн необходимо загрузить robots.txt на сайт в корневую директорию. Иначе, сервис может сообщить, что не удалось загрузить robots.txt. Рекомендуется предварительно проверить robots.txt на доступность по адресу где лежит файл, например: ваш_сайт.ru/robots.txt.
Кроме сервисов проверки от Яндекс и Google, существует множество других онлайн валидаторов robots.txt.
Robots.txt vs Яндекс и Google
Есть субъективное мнение, что указание отдельного блока директив «User-agent: Yandex» в robots.txt Яндекс воспринимает более позитивно, чем общий блок директив с «User-agent: *». Аналогичная ситуация robots.txt и Google. Указание отдельных директив для Яндекс и Google позволяет управлять индексацией сайта через robots.txt. Возможно, им льстит персонально обращение, тем более, что для большинства сайтов содержимое блоков robots.txt Яндекса, Гугла и для других поисковиков будет одинаково. За редким исключением, все блоки «User-agent» будут иметь стандартный для robots.txt набор директив. Так же, используя разные «User-agent» можно установить запрет индексации в robots.txt для Яндекса, но, например не для Google.
Отдельно стоит отметить, что Яндекс учитывает такую важную директиву, как «Host», и правильный robots.txt для яндекса должен включать данную директиву для указания главного зеркала сайта. Подробнее директиву «Host» рассмотрим ниже.
Запретить индексацию: robots.txt Disallow
Disallow — запрещающая директива, которая чаще всего используется в файле robots.txt. Disallow запрещает индексацию сайта или его части, в зависимости от пути, указанного в параметре директивы Disallow.
Пример как в robots.txt запретить индексацию сайта:
User-agent: * Disallow: /
Данный пример закрывает от индексации весь сайт для всех роботов.
В параметре директивы Disallow допускается использование специальных символов * и $:
* — любое количество любых символов, например, параметру /page* удовлетворяет /page, /page1, /page-be-cool, /page/kak-skazat и т.д. Однако нет необходимости указывать * в конце каждого параметра, так как например, следующие директивы интерпретируются одинаково:
User-agent: Yandex Disallow: /page
User-agent: Yandex Disallow: /page*
$ — указывает на точное соответствие исключения значению параметра:
User-agent: Googlebot Disallow: /page$
В данном случае, директива Disallow будет запрещать /page, но не будет запрещать индексацию страницы /page1, /page-be-cool или /page/kak-skazat.
Если закрыть индексацию сайта robots.txt, в поисковые системы могут отреагировать на так ход ошибкой «Заблокировано в файле robots.txt» или «url restricted by robots.txt» (url запрещенный файлом robots.txt). Если вам нужно запретить индексацию страницы, можно воспользоваться не только robots txt, но и аналогичными html-тегами:
- <meta name=»robots» content=»noindex»/> — не индексировать содержимое страницы;
- <meta name=»robots» content=»nofollow»/> — не переходить по ссылкам на странице;
- <meta name=»robots» content=»none»/> — запрещено индексировать содержимое и переходить по ссылкам на странице;
- <meta name=»robots» content=»noindex, nofollow»/> — аналогично content=»none».
Разрешить индексацию: robots.txt Allow
Allow — разрешающая директива и противоположность директиве Disallow. Эта директива имеет синтаксис, сходный с Disallow.
Пример, как в robots.txt запретить индексацию сайта кроме некоторых страниц:
User-agent: * Disallow: / Allow: /page
Запрещается индексировать весь сайт, кроме страниц, начинающихся с /page.
Disallow и Allow с пустым значением параметра
Пустая директива Disallow:
User-agent: * Disallow:
Не запрещать ничего или разрешить индексацию всего сайта и равнозначна:
User-agent: * Allow: /
Пустая директива Allow:
User-agent: * Allow:
Разрешить ничего или полный запрет индексации сайта, равнозначно:
User-agent: * Disallow: /
Главное зеркало сайта: robots.txt Host
Директива Host служит для указания роботу Яндекса главного зеркала Вашего сайта. Из всех популярных поисковых систем, директива Host распознаётся только роботами Яндекса. Директива Host полезна в том случае, если ваш сайт доступен по нескольким доменам, например:
mysite.ru mysite.com
Или для определения приоритета между:
mysite.ru www.mysite.ru
Роботу Яндекса можно указать, какое зеркало является главным. Директива Host указывается в блоке директивы «User-agent: Yandex» и в качестве параметра, указывается предпочтительный адрес сайта без «http://».
Пример robots.txt с указанием главного зеркала:
User-agent: Yandex Disallow: /page Host: mysite.ru
В качестве главного зеркала указывается доменное имя mysite.ru без www. Таки образом, в результатах поиска буде указан именно такой вид адреса.
User-agent: Yandex Disallow: /page Host: www.mysite.ru
В качестве основного зеркала указывается доменное имя www.mysite.ru.
Директива Host в файле robots.txt может быть использована только один раз, если же директива Хост будет указана более одного раза, учитываться будет только первая, прочие директивы Host будут игнорироваться.
Если вы хотите указать главное зеркало для робота Google, воспользуйтесь сервисом Google Инструменты для вебмастеров.
Карта сайта: robots.txt sitemap
При помощи директивы Sitemap, в robots.txt можно указать расположение на сайте файла карты сайта sitemap.xml.
Пример robots.txt с указанием адреса карты сайта:
User-agent: * Disallow: /page Sitemap: http://www.mysite.ru/sitemap.xml
Указание адреса карты сайта через директиву Sitemap в robots.txt позволяет поисковому роботу узнать о наличии карты сайта и начать ее индексацию.
Директива Clean-param
Директива Clean-param позволяет исключить из индексации страницы с динамическими параметрами. Подобные страницы могут отдавать одинаковое содержимое, имея различные URL страницы. Проще говоря, будто страница доступна по разным адресам. Наша задача убрать все лишние динамические адреса, которых может быть миллион. Для этого исключаем все динамические параметры, используя в robots.txt директиву Clean-param.
Синтаксис директивы Clean-param:
Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Путь]
Рассмотрим на примере страницы со следующим URL:
www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3
Пример robots.txt Clean-param:
Clean-param: parm1&parm2&parm3 /page.html # только для page.html
или
Clean-param: parm1&parm2&parm3 / # для всех
Директива Crawl-delay
Данная инструкция позволяет снизить нагрузку на сервер, если роботы слишком часто заходят на ваш сайт. Данная директива актуальна в основном для сайтов с большим объемом страниц.
Пример robots.txt Crawl-delay:
User-agent: Yandex Disallow: /page Crawl-delay: 3
В данном случае мы «просим» роботов яндекса скачивать страницы нашего сайта не чаще, чем один раз в три секунды. Некоторые поисковые системы поддерживают формат дробных чисел в качестве параметра директивы Crawl-delay robots.txt.
Комментарии в robots.txt
Комментарий в robots.txt начинаются с символа решетки — #, действует до конца текущей строки и игнорируются роботами.
Примеры комментариев в robots.txt:
User-agent: * # Комментарий может идти от начала строки Disallow: /page # А может быть продолжением строки с директивой # Роботы # игнорируют # комментарии Host: www.mysite.ru
В заключении
Файл robots.txt — очень важный и нужный инструмент взаимодействия с поисковыми роботами и один из важнейших инструментов SEO, так как позволяет напрямую влиять на индексацию сайта. Используйте роботс правильно и с умом.
Если у вас есть вопросы — пишите в комментариях.
Рекомендуйте статью друзьям и не забывайте подписываться на блог.
Новые интересные статьи каждый день.
Сервис проверки файла Robots.txt — БЕСПЛАТНЫЙ онлайн-инструмент [2021] года со 100%-й точностью
Что такое валидатор файла robots.txt?
Инструмент проверки Robots.txt создан для того, чтобы показать, правильно ли составлен ваш файл robots.txt, нет ли в нем ошибок. Robots.txt — этот файл, который является частью вашего веб-сайта и описывает правила индексации для роботов поисковых машин, чтобы веб-сайт индексировался правильно, и первыми на сайте индексировались самые важные данные.Это очень простой инструмент, который создает отчет уже через несколько секунд сканирования: вам просто ввести в поле URL своего веб-сайта, через слэш /robots.txt (например, yourwebsite.com/robots.txt), а затем нажать на кнопку “проверить”. Наш инструмент для тестирования файлов robots.txt находит все ошибки (опечатки, синтаксические и “логические”) и выдает советы по оптимизации файла robots.txt.
Зачем нужно проверять файл robots.txt?
Проблемы с файлом robots.txt или его отсутствие могут негативно отразиться на SEO-оптимизации сайта: ваш сайт может не выдаваться на странице результатов выдачи поисковых машин (SERP). Это происходит из-за того, что нерелевантный контент может обходиться до или вместо важного контента.Проверить свой файл перед тем, как обходить контент важно, чтобы вы смогли избежать проблем, когда весь контент на сайте индексируется, а не только самый релевантный. Например, вы хотите, чтобы доступ к основному контенту вашего веб-сайта пользователи получали только после того, как заполнят форму подписки или войдут в свою учетную запись, но вы не исключаете ее в правилах файла robot.txt, и поэтому она может проиндексироваться.
Что означают ошибки и предупреждения?
Есть определенный список ошибок, которые могут повлиять на эффективность файла robots.txt, а также вы можете увидеть при проверке файла список определенных рекомендаций. Это вещи, которые могут повлиять на SEO-оптимизацию сайта, и которые нужно исправить. Предупреждения менее критичны, и это просто советы о том, как улучшить ваш сайт robots.txt.Ошибки, которые вы можете увидеть:
Invalid URL: эта ошибка сообщает о том, что файл robots.txt на сайте отсутствует.
Potential wildcard error: технически это больше предупреждение, чем сообщение об ошибке. Это сообщение обычно означает, что в вашем файле robots.txt содержится символ (*) в поле Disallow (например, Disallow: /*.rss). Это проблема приемлемого использования синтаксиса: Google не запрещает использование символов в поле Disallow, но это не рекомендуется.
Generic and specific user-agents in the same block of code: это синтаксическая ошибка в файле robots.txt, которую нужно исправить, чтобы избежать проблем с индексацией контента на вашем веб-сайте.
Предупреждения, которые вы можете увидеть:
Allow: / : порядок разрешения не повредит и не повлияет на ваш веб-сайт, но это не стандартная практика. Самые крупные поисковые машины, включая Google и Bing, примут эту директиву, но не все программы-кроулеры будут такими же неразборчивыми. Если говорить начистоту, то всегда лучше сделать файл robots.txt совместимым со всеми программами-индексаторами, а не только с самыми популярными.
Field name capitalization: несмотря на то, что имена полей не чувствительны к регистру, некоторые индексаторы могут требовать писать их заглавными буквами, так что хорошей идеей будет делать это по умолчанию — специально для самых привередливых программ.
Sitemap support: во многих файлах robots.txt содержатся данные о карте сайта, но это не считается хорошим решением. Однако, Google и Bing поддерживают эту возможность.
Как исправить ошибки в файле Robots.txt?
Насколько просто будет исправить ошибки в файле robots.txt? Зависит от платформы, которую вы используете. Если это WordPress, то лучше воспользоваться плагином типа WordPress Robots.txt Optimization или Robots.txt Editor. Если вы подключили свой веб-сайт к веб-службе Google Search Console, вы сможете редактировать свой файл robots.txt прямо в ней.Некоторые конструкторы веб-сайтов типа Wix не дают возможности редактировать файл robots.txt напрямую, но позволяют добавлять неиндексируемые теги для определенных страниц.
Файл robots.txt: полное руководство | SEO-портал
Стандарт robots.txt отличается оригинальным синтаксисом. Существуют общие для всех роботов директивы (правила), а также директивы, понятные только роботам определенных поисковых систем.
Стандартные директивы
Директивами для robots.txt называются правила, состоящие из названия и значения (параметра), идущего после знака двоеточия. Например:
# Директива User-agent со значением Yandex: User-agent: Yandex
Регистр символов в названиях директив не учитывается.
Для большинства директив стандарта в качестве значения применяется URL-префикс (часть URL-адреса). Например:
User-agent: Yandex # URL-префикс в качестве значения: Disallow: /admin/
Регистр символов учитывается роботами при обработке URL-префиксов.
Директива User-agent
Правило User-agent
указывает, для каких роботов составлены следующие под ним инструкции.
Значения User-agent
В качестве значения директивы User-agent
указывается конкретный тип робота или символ *
. Например:
# Последовательность инструкций для робота YandexBot: User-agent: YandexBot Disallow: /
Основные типы роботов, указываемые в User-agent
:
- Yandex
- Подразумевает всех роботов Яндекса.
- YandexBot
- Основной индексирующий робот Яндекса
- YandexImages
- Робот Яндекса, индексирующий изображения.
- YandexMedia
- Робот Яндекса, индексирующий видео и другие мультимедийные данные.
- Подразумевает всех роботов Google.
- Googlebot
- Основной индексирующий робот Google.
- Googlebot-Image
- Робот Google, индексирующий изображения.
Регистр символов в значениях директивы User-agent не учитывается.
Обработка User-agent
Чтобы указать, что нижеперечисленные инструкции составлены для всех типов роботов, в качестве значения директивы User-agent
применяется символ *
(звездочка). Например:
# Последовательность инструкций для всех роботов: User-agent: * Disallow: /
Перед каждым последующим набором правил для определённых роботов, которые начинаются с директивы User-agent
, следует вставлять пустую строку.
User-agent: * Disallow: / User-agent: Yandex Allow: /
При этом нельзя допускать наличия пустых строк между инструкциями для конкретных роботов, идущими после User-agent
:
# Нужно: User-agent: * Disallow: /administrator/ Disallow: /files/ # Нельзя: User-agent: * Disallow: /administrator/ Disallow: /files/
Обязательно следует помнить, что при указании инструкций для конкретного робота, остальные инструкции будут им игнорироваться:
# Инструкции для робота YandexImages: User-agent: YandexImages Disallow: / Allow: /images/ # Инструкции для всех роботов Яндекса, кроме YandexImages User-agent: Yandex Disallow: /images/ # Инструкции для всех роботов, кроме роботов Яндекса User-agent: * Disallow:
Директива Disallow
Правило Disallow
применяется для составления исключающих инструкций (запретов) для роботов. В качестве значения директивы указывается URL-префикс. Первый символ /
(косая черта) задает начало относительного URL-адреса. Например:
# Запрет сканирования всего сайта: User-agent: * Disallow: / # Запрет сканирования конкретной директории: User-agent: * Disallow: /images/ # Запрет сканирования всех URL-адресов, начинающихся с /images: User-agent: * Disallow: /images
Применение директивы Disallow
без значения равносильно отсутствию правила:
# Разрешение сканирования всего сайта: User-agent: * Disallow:
Директива Allow
Правило Allow
разрешает доступ и применяется для добавления исключений по отношению к правилам Disallow
. Например:
# Запрет сканирования директории, кроме одной её поддиректории: User-agent: * Disallow: /images/ # запрет сканирования директории Allow: /images/icons/ # добавление исключения из правила Disallow для поддиректории
При равных значениях приоритет имеет директива Allow:
User-agent: * Disallow: /images/ # запрет доступа Allow: /images/ # отмена запрета
Директива Sitemap
Добавить ссылку на файл Sitemap в можно с помощью одноименной директивы.
В качестве значения директивы Sitemap
в указывается прямой (с указанием протокола) URL-адрес карты сайта:
User-agent: * Disallow: # Директив Sitemap может быть несколько: Sitemap: https://seoportal.net/sitemap-1.xml Sitemap: https://seoportal.net/sitemap-2.xml
Директива Sitemap
является межсекционной и может размещаться в любом месте robots.txt. Удобнее всего размещать её в конце файла, отделяя пустой строкой.
Следует учитывать, что robots.txt является общедоступным, и благодаря директиве Sitemap
злоумышленники могут получить доступ к новым страницам раньше поисковых роботов, что может повлечь за собой воровство контента.
Использование директивы Sitemap в robots.txt может повлечь воровство контента сайта.
Регулярные выражения
В robots.txt могут применяться специальные регулярные выражения в URL-префиксах с помощью символов *
и $
.
Символ /
Символ /
(косая черта) является разделителем URL-префиксов, отражая степень вложенности страниц. Важно понимать, что URL-префикс с символом /
на конце и аналогичный префикс, но без косой черты, поисковые роботы могут воспринимать как разные страницы:
# разные запреты: Disallow: /catalog/ # запрет для вложенных URL (/catalog/1), но не для /catalog Disallow: /catalog # запрет для /catalog и всех URL, начинающихся с /catalog, в том числе: # /catalog1 # /catalog1 # /catalog1/2
Символ *
Символ *
(звездочка) предполагает любую последовательность символов. Он неявно приписывается к концу каждого URL-префикса директив Disallow
и Allow
:
User-agent: Googlebot Disallow: /catalog/ # запрет всех URL-адресов, начинающихся с "/catalog/" Disallow: /catalog/* # то же самое
Символ *
может применяться в любом месте URL-префикса:
User-agent: Googlebot Disallow: /*catalog/ # запрещает все URL-адреса, содержащие "/catalog/": # /1catalog/ # /necatalog/1 # images/catalog/1 # /catalog/page.htm # и др. # но не /catalog
Символ $
Символ $
(знак доллара) применяется для отмены неявного символа *
в окончаниях URL-префиксов:
User-agent: Google Disallow: /*catalog/$ # запрещает все URL-адреса, заканчивающиеся символами "catalog/": # /1/catalog/ # но не: # /necatalog/1 # /necatalog # /catalog
Символ $
(доллар) не отменяет явный символ *
в окончаниях URL-префиксов:
User-agent: Googlebot Disallow: /catalog/* # запрет всех URL-адресов, начинающихся с "/catalog/" Disallow: /catalog/*$ # то же самое # Но: Disallow: /catalog/ # запрет всех URL-адресов, начинающихся с "/catalog/" Disallow: /catalog/$ # запрет только URL-адреса "/catalog/"
Директивы Яндекса
Роботы Яндекса способны понимать три специальных директивы:
- Host (устарела),
- Crawl-delay,
- Clean-param.
Директива Host
Директива Host является устаревшей и в настоящее время не учитывается. Вместо неё необходимо настраивать редирект на страницы главного зеркала.
Директива Crawl-delay
Если сервер сильно нагружен и не успевает отрабатывать запросы на загрузку, воспользуйтесь директивой Crawl-delay. Она позволяет задать поисковому роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.
Яндекс.Помощь
Правило Crawl-delay
следует размещать в группу правил, которая начинается с директивы User-Agent
, но после стандартных для всех роботов директив Disallow
и Allow
:
User-agent: * Disallow: Crawl-delay: 1 # задержка между посещениями страниц 1 секунда
В качестве значений Crawl-delay
могут использоваться дробные числа:
User-agent: * Disallow: Crawl-delay: 2.5 # задержка между посещениями страниц 2.5 секунд
Директива Clean-param
Директива Clean-param
помогает роботу Яндекса верно определить страницу для индексации, URL-адрес которой может содержать различные параметры, не влияющие на смысловое содержание страницы.
Если адреса страниц сайта содержат динамические параметры, которые не влияют на их содержимое (например: идентификаторы сессий, пользователей, рефереров и т. п.), вы можете описать их с помощью директивы Clean-param.
Яндекс.Помощь
В качестве значения правила Clean-param
указывается параметр и URL-префикс адресов, для которых не следует учитывать данный параметр. Параметр и URL-префикс должны быть разделены пробелом:
User-agent: * Disallow: # Указывает на отсутствие значимости параметра id в URL-адресе с index.htm # (например, в адресе seoportal.net/index.htm?id=1 параметр id не станет учитываться, # а в индекс, вероятно, попадёт страница с URL-адресом seoportal.net/index.htm): Clean-param: id index.htm
Для указания 2-х и более незначительных параметров в одном правиле Clean-param
применяется символ &
:
User-agent: * Disallow: # Указывает на отсутствие значимости параметров id и num в URL-адресе с index.htm Clean-param: id&num index.htm
Директива Clean-param
может быть указана в любом месте robots.txt. Все указанные правила Clean-param
будут учтены роботом Яндекса:
User-agent: * Allow: / # Для разных страниц с одинаковыми параметрами в URL-адресах: Clean-param: id index Clean-param: id admin
Все о файле «robots.txt» по-русски — как составить robots.txt
Файл robots.txt
Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Если вы – вебмастер, вы должны знать назначение и синтаксис robots.txt.
Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.
Создание robots.txt
Файл с указанным расширением – простой текстовый документ. Он создается с помощью обычного блокнота, программ Notepad или Sublime, а также любого другого редактора текстов. Важно, что в его названии должен быть нижний регистр букв – robots.txt.
Также существует ограничение по количеству символов и, соответственно, размеру. Например, в Google максимальный вес установлен как 500 кб, а у Yandex – 32 кб. В случае их превышения корректность работы может быть нарушена.
Создается документ в кодировке UTF-8, и его действие распространяется на протоколы HTTP, HTTPS, FTP.
При написании содержимого файла запрещается использование кириллицы. Если есть необходимость применения кириллических доменов, необходимо прибегать к помощи Punycode. Кодировка адресов отдельных страниц должна происходить в соответствии с кодировкой структуры сайта, которая была применена.
После того как файл создан, его следует запустить в корневой каталог. При этом используется FTP-клиент, проверяется возможность доступа по ссылке https://site.com./robots.txt и полнота отображения данных.
Важно помнить, что для каждого поддомена сайта оформляется свой файл с ограничениями.
Описание robots.txt
Чтобы правильно написать robots.txt, предлагаем вам изучить разделы этого сайта. Здесь собрана самая полезная информация о синтаксисе robots.txt, о формате robots.txt, примеры использования, а также описание основных поисковых роботов Рунета.
- Как работать с robots.txt — узнайте, что вы можете сделать, чтобы управлять роботами, которые посещают ваш веб-сайт.
- Роботы Рунета — разделы по роботам поисковых систем, популярных на просторах Рунета.
- Частые ошибки в robots.txt — список наиболее частых ошибок, допускаемых при написании файла robots.txt.
- ЧаВо по веб-роботам — часто задаваемые вопросы о роботах от пользователей, авторов и разработчиков.
- Ссылки по теме — аналог оригинального раздела «WWW Robots Related Sites», но дополненый и расширенный, в основном по русскоязычной тематике.
Где размещать файл robots.txt
Робот просто запрашивает на вашем сайте URL «/robots.txt», сайт в данном случае – это определенный хост на определенном порту.
На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. Если вы хотите иметь возможность создавать файлы robots.txt в поддиректориях, то вам нужен способ программно собирать их в один файл robots.txt, расположенный в корне сайта. Вместо этого можно использовать Мета-тег Robots.
Не забывайте, что URL-ы чувствительны к регистру, и название файла «/robots.txt» должно быть написано полностью в нижнем регистре.
Как видите, файл robots.txt нужно класть исключительно в корень сайта.
Что писать в файл robots.txt
В файл robots.txt обычно пишут нечто вроде:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
В этом примере запрещена индексация трех директорий.
Затметьте, что каждая директория указана на отдельной строке – нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.
Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*» не поддерживаются.
Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации. Вот несколько примеров:
Запретить весь сайт для индексации всеми роботами
User-agent: *
Disallow: /
Разрешить всем роботам индексировать весь сайт
User-agent: *
Disallow:
Или можете просто создать пустой файл «/robots.txt».
Закрыть от индексации только несколько каталогов
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Запретить индексацию сайта только для одного робота
User-agent: BadBot
Disallow: /
Разрешить индексацию сайта одному роботу и запретить всем остальным
User-agent: Yandex
Disallow:
User-agent: *
Disallow: /
Запретить к индексации все файлы кроме одного
Это довольно непросто, т.к. не существует инструкции “Allow”. Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию:
User-agent: *
Disallow: /docs/
Либо вы можете запретить все запрещенные к индексации файлы:
User-agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html
Инфографика
Проверка
Оценить правильность созданного документа robots.txt можно с помощью специальных проверочных ресурсов:
- Анализ robots.txt. – при работе с Yandex.
- robots.txt Tester – для Google.
Важно помнить, что неправильно созданный или прописанный документ может являться угрозой для посещаемости и ранжирования сайта.
О сайте
Этот сайт — некоммерческий проект. Значительная часть материалов — это переводы www.robotstxt.org, другая часть — оригинальные статьи. Мы не хотим ограничиваться только robots.txt, поэтому в некоторых статьях описаны альтернативные методы «ограничения» роботов.
Зачем вам нужен файл robots.txt, и как его создать?
Файл robots.txt, он же стандарт исключений для роботов — это текстовый файл, в котором хранятся определенные указания для роботов поисковых систем.Прежде, чем сайт попадает в поисковую выдачу и занимает там определенное место, его исследуют роботы. Именно они передают информацию поисковым системам, и далее ваш ресурс отображается в поисковой строке.
Robots.txt выполняет важную функцию — он может защитить весь сайт или некоторые его разделы от индексации. Особенно это актуально для интернет-магазинов и других ресурсов, через которые совершаются онлайн-оплаты. Вам же не хочется, чтобы кредитные счета ваших клиентов вдруг стали известны всему интернету? Для этого и существует файл robots.txt.
Про директивы
Поисковые роботы по умолчанию сканируют все ссылки подряд, если только не установить им ограничений. Для этого в файле robots.txt составляют определенные команды или инструкции к действию. Такие инструкции называются директивами.Главная директива-приветствие, с которой начинается индексация файла — это user-agent
Она может выглядеть так:User-agent: Yandex
Или так:User-agent: *
Или вот так:
User-agent: GoogleBot
User-agent обращается к конкретному роботу, и дальнейшие руководства к действию будут относиться только к нему.
Так, в первом случае инструкции будут касаться только роботов Яндекс, во втором — роботов всех поисковых систем, в последнем — команды предназначены главному роботу Google.
Резонно спросить: зачем обращаться к роботам по отдельности? Дело в том, что разные поисковые “посланцы” по разному подходят к индексации файла. Так, роботы Google беспрекословно соблюдают директиву sitemap (о ней написано ниже), в то время как роботы Яндекса относятся к ней нейтрально. А вот директива clean-param, которая позволяет исключать дубли страниц, работает исключительно для поисковиков Яндекс.
Однако, если у вас простой сайт с несложными разделами, рекомендуем не делать исключений и обращаться ко всем роботам сразу, используя символ *.
Вторая по значимости директива — disallow
Она запрещает роботам сканировать определенные страницы. Как правило, с помощью disallow закрывают административные файлы, дубликаты страниц и конфиденциальные данные.
На наш взгляд, любая персональная или корпоративная информация должна охраняться более строго, то есть требовать аутентификации. Но, все же, в целях профилактики рекомендуем запретить индексацию таких страниц и в robots.txt.
Директива может выглядеть так:
User-agent: *
Disallow: /wp-admin/
Или так:
User-Agent: Googlebot
Disallow: */index.php
Disallow: */section.php
В первом примере мы закрыли от индексации системную панель сайта, а во втором запретили роботам сканировать страницы index.php и section.php. Знак * переводится для роботов как “любой текст”, / — знак запрета.
Следующая директива — allow
В противовес предыдущей, это команда разрешает индексировать информацию.
Может показаться странным: зачем что-то разрешать, если поисковой робот по умолчанию готов всё сканировать? Оказывается, это нужно для выборочного доступа. К примеру, вы хотите запретить раздел сайта с названием /korobka/.
Тогда команда будет выглядеть так:
User-agent: *
Disallow: /korobka/
Но в то же время в разделе коробки есть сумка и зонт, который вы не прочь показать другим пользователям.
Тогда:
User-agent: *
Disallow: /korobka/
Allow: /korobka/sumka/
Allow: /korobka/zont/
Таким образом, вы закрыли общий раздел korobka, но открыли доступ к страницам с сумкой и зонтом.
Sitemap — еще одна важная директива. По названию можно предположить, что эта инструкция как-то связана с картой сайта. И это верно.
Если вы хотите, чтобы при сканировании вашего сайта поисковые роботы в первую очередь заходили в определенные разделы, нужно в корневом каталоге сайта разместить вашу карту — файл sitemap. В отличие от robots.txt, этот файл хранится в формате xml.
Если представить, что поисковой робот — это турист, который попал в ваш город (он же сайт), логично предположить, что ему понадобится карта. С ней он будет лучше ориентироваться на местности и знать, какие места посетить (то есть проиндексировать) в первую очередь. Директива sitemap послужит роботу указателем — мол, карта вон там. А дальше он уже легко разберется в навигации по вашему сайту.
Как создать и проверить robots.txt
Стандарт исключений для роботов обычно создают в простом текстовом редакторе (например, в Блокноте). Файлу дают название robots и сохраняют формате txt.Далее его надо поместить в корневой каталог сайта. Если вы все сделаете правильно, то он станет доступен по адресу “название вашего сайта”/robots.txt.
Самостоятельно прописать директивы и во всем разобраться вам помогут справочные сервисы. Воспользуйтесь любыми на выбор: Яндекс или Google. С их помощью за 1 час даже неопытный пользователь сможет разобраться в основах.
Когда файл будет готов, его обязательно стоит проверить на наличие ошибок. Для этого у главных поисковых систем есть специальные веб-мастерские. Сервис для проверки robots.txt от Яндекс:
https://webmaster.yandex.ru/tools/robotstxt/
Сервис для проверки robots.txt от Google:
https://www.google.com/webmasters/tools/home?hl=ru
Когда забываешь про robots.txt
Как вы уже поняли, файл robots совсем не сложно создать. Однако, многие даже крупные компании почему-то забывают добавлять его в корневую структуру сайта. В результате — попадание нежелательной информации в просторы интернета или в руки мошенников плюс огромный общественный резонанс.Так, в июле 2018 года СМИ говорили об утечке в Сбербанке: в поисковую выдачу Яндекс попала персональная информация клиентов банка — со скриншотами паспортов, личными счетами и номерами билетов.
Не стоит пренебрегать элементарными правилами безопасности сайта и ставить под сомнение репутацию своей компании. Лучше не рисковать и позаботиться о правильной работе robots.txt. Пусть этот маленький файл станет вашим надежным другом в деле поисковой оптимизации сайтов.
Как создать файл Robots.txt: настройка, проверка, индексация
В SEO мелочей не бывает. Иногда на продвижение сайта может оказать влияние всего лишь один небольшой файл — Robots.txt. Если вы хотите, чтобы ваш сайт зашел в индекс, чтобы поисковые роботы обошли нужные вам страницы, нужно прописать для них рекомендации.
«Разве это возможно?», — спросите вы. Возможно. Для этого на вашем сайте должен быть файл robots.txt. Как правильно составить файл роботс, настроить и добавить на сайт – разбираемся в этой статье.
Получайте до 18% от расходов на контекст и таргет!Рекомендуем: Click.ru – маркетплейс рекламных платформ:
- Более 2000 рекламных агентств и фрилансеров уже работают с сервисом.
- Подключиться можно самому за 1 день.
- Зарабатывайте с первого потраченного рубля, без начальных ограничений, без входного барьера.
- Выплаты на WebMoney, на карту физическому лицу, реинвестирование в рекламу.
- У вас остаются прямые доступы в рекламные кабинеты, рай для бухгалтерии по документообороту и оплатам.
Читайте также: Как проиндексировать сайт в Яндексе и Google
Что такое robots.txt и для чего нужен
Robots.txt – это обычный текстовый файл, который содержит в себе рекомендации для поисковых роботов: какие страницы нужно сканировать, а какие нет.
Важно: файл должен быть в кодировке UTF-8, иначе поисковые роботы могут его не воспринять.
Зайдет ли в индекс сайт, на котором не будет этого файла? Зайдет, но роботы могут «выхватить» те страницы, наличие которых в результатах поиска нежелательно: например, страницы входа, админпанель, личные страницы пользователей, сайты-зеркала и т.п. Все это считается «поисковым мусором»:
Если в результаты поиска попадёт личная информация, можете пострадать и вы, и сайт. Ещё один момент – без этого файла индексация сайта будет проходить дольше.
В файле Robots.txt можно задать три типа команд для поисковых пауков:
- сканирование запрещено;
- сканирование разрешено;
- сканирование разрешено частично.
Все это прописывается с помощью директив.
Как создать правильный файл Robots.txt для сайта
Файл Robots.txt можно создать просто в программе «Блокнот», которая по умолчанию есть на любом компьютере. Прописывание файла займет даже у новичка максимум полчаса времени (если знать команды).
Также можно использовать другие программы – Notepad, например. Есть и онлайн сервисы, которые могут сгенерировать файл автоматически. Например, такие как CY-PR.com или Mediasova.
Вам просто нужно указать адрес своего сайта, для каких поисковых систем нужно задать правила, главное зеркало (с www или без). Дальше сервис всё сделает сам.
Лично я предпочитаю старый «дедовский» способ – прописать файл вручную в блокноте. Есть ещё и «ленивый способ» — озадачить этим своего разработчика 🙂 Но даже в таком случае вы должны проверить, правильно ли там всё прописано. Поэтому давайте разберемся, как составить этот самый файл, и где он должен находиться.
Это интересно: Как увеличить посещаемость сайта
Где должен находиться файл Robots
Готовый файл Robots.txt должен находиться в корневой папке сайта. Просто файл, без папки:
Хотите проверить, есть ли он на вашем сайте? Вбейте в адресную строку адрес: site.ru/robots.txt. Вам откроется вот такая страничка (если файл есть):
Файл состоит из нескольких блоков, отделённых отступом. В каждом блоке – рекомендации для поисковых роботов разных поисковых систем (плюс блок с общими правилами для всех), и отдельный блок со ссылками на карту сайта – Sitemap.
Внутри блока с правилами для одного поискового робота отступы делать не нужно.
Каждый блок начинается директивой User-agent.
После каждой директивы ставится знак «:» (двоеточие), пробел, после которого указывается значение (например, какую страницу закрыть от индексации).
Нужно указывать относительные адреса страниц, а не абсолютные. Относительные – это без «www.site.ru». Например, вам нужно запретить к индексации страницу www.site.ru/shop. Значит после двоеточия ставим пробел, слэш и «shop»:
Disallow: /shop.
Звездочка (*) обозначает любой набор символов.
Знак доллара ($) – конец строки.
Вы можете решить – зачем писать файл с нуля, если его можно открыть на любом сайте и просто скопировать себе?
Для каждого сайта нужно прописывать уникальные правила. Нужно учесть особенности CMS. Например, та же админпанель находится по адресу /wp-admin на движке WordPress, на другом адрес будет отличаться. То же самое с адресами отдельных страниц, с картой сайта и прочим.
Читайте также: Как найти и удалить дубли страниц на сайте
Настройка файла Robots.txt: индексация, главное зеркало, диррективы
Как вы уже видели на скриншоте, первой идет директива User-agent. Она указывает, для какого поискового робота будут идти правила ниже.
User-agent: * — правила для всех поисковых роботов, то есть любой поисковой системы (Google, Yandex, Bing, Рамблер и т.п.).
User-agent: Googlebot – указывает на правила для поискового паука Google.
User-agent: Yandex – правила для поискового робота Яндекс.
Для какого поискового робота прописывать правила первым, нет никакой разницы. Но обычно сначала пишут рекомендации для всех роботов.
Рекомендации для каждого робота, как я уже писала, отделяются отступом.
Disallow: Запрет на индексацию
Чтобы запретить индексацию сайта в целом или отдельных страниц, используется директива Disallow.
Например, вы можете полностью закрыть сайт от индексации (если ресурс находится на доработке, и вы не хотите, чтобы он попал в выдачу в таком состоянии). Для этого нужно прописать следующее:
User-agent: *
Disallow: /
Таким образом всем поисковым роботам запрещено индексировать контент на сайте.
А вот так можно открыть сайт для индексации:
User-agent: *
Disallow:
Потому проверьте, стоит ли слеш после директивы Disallow, если хотите закрыть сайт. Если хотите потом его открыть – не забудьте снять правило (а такое часто случается).
Чтобы закрыть от индексации отдельные страницы, нужно указать их адрес. Я уже писала, как это делается:
User-agent: *
Disallow: /wp-admin
Таким образом на сайте закрыли от сторонних взглядов админпанель.
Что нужно закрывать от индексации в обязательном порядке:
- административную панель;
- личные страницы пользователей;
- корзины;
- результаты поиска по сайту;
- страницы входа, регистрации, авторизации.
Можно закрыть от индексации и отдельные типы файлов. Допустим, у вас на сайте есть некоторые .pdf-файлы, индексация которых нежелательна. А поисковые роботы очень легко сканируют залитые на сайт файлы. Закрыть их от индексации можно следующим образом:
User-agent: *
Disallow: /*. pdf$
Как отрыть сайт для индексации
Даже при полностью закрытом от индексации сайте можно открыть роботам путь к определённым файлам или страницам. Допустим, вы переделываете сайт, но каталог с услугами остается нетронутым. Вы можете направить поисковых роботов туда, чтобы они продолжали индексировать раздел. Для этого используется директива Allow:
User-agent: *
Allow: /uslugi
Disallow: /
Главное зеркало сайта
До 20 марта 2018 года в файле robots.txt для поискового робота Яндекс нужно было указывать главное зеркало сайта через директиву Host. Сейчас этого делать не нужно – достаточно настроить постраничный 301-редирект.
Что такое главное зеркало? Это какой адрес вашего сайта является главным – с www или без. Если не настроить редирект, то оба сайта будут проиндексированы, то есть, будут дубли всех страниц.
Карта сайта: robots.txt sitemap
После того, как прописаны все директивы для роботов, необходимо указать путь к Sitemap. Карта сайта показывает роботам, что все URL, которые нужно проиндексировать, находятся по определённому адресу. Например:
Sitemap: site.ru/sitemap.xml
Когда робот будет обходить сайт, он будет видеть, какие изменения вносились в этот файл. В итоге новые страницы будут индексироваться быстрее.
Читайте по теме: Как сделать карту сайта
Директива Clean-param
В 2009 году Яндекс ввел новую директиву – Clean-param. С ее помощью можно описать динамические параметры, которые не влияют на содержание страниц. Чаще всего данная директива используется на форумах. Тут возникает много мусора, например id сессии, параметры сортировки. Если прописать данную директиву, поисковый робот Яндекса не будет многократно загружать информацию, которая дублируется.
Прописать эту директиву можно в любом месте файла robots.txt.
Параметры, которые роботу не нужно учитывать, перечисляются в первой части значения через знак &:
Clean-param: sid&sort /forum/viewforum.php
Эта директива позволяет избежать дублей страниц с динамическими адресами (которые содержат знак вопроса).
Директива Crawl-delay
Эта директива придёт на помощь тем, у кого слабый сервер.
Приход поискового робота – это дополнительная нагрузка на сервер. Если у вас высокая посещаемость сайта, то ресурс может попросту не выдержать и «лечь». В итоге робот получит сообщение об ошибке 5хх. Если такая ситуация будет повторяться постоянно, сайт может быть признан поисковой системой нерабочим.
Представьте, что вы работаете, и параллельно вам приходится постоянно отвечать на звонки. Ваша продуктивность в таком случае падает.
Так же и с сервером.
Вернемся к директиве. Crawl-delay позволяет задать задержку сканирования страниц сайта с целью снизить нагрузку на сервер. Другими словами, вы задаете период, через который будут загружаться страницы сайта. Указывается данный параметр в секундах, целым числом:
Crawl-delay: 2
Комментарии в robots.txt
Бывают случаи, когда вам нужно оставить в файле комментарий для других вебмастеров. Например, если ресурс передаётся в работу другой команде или если над сайтом работает целая команда.
В этом файле, как и во всех других, можно оставлять комментарии для других разработчиков.
Делается это просто – перед сообщением нужно поставить знак решетки: «#». Дальше вы можете писать свое примечание, робот не будет учитывать написанное:
User-agent: *
Disallow: /*. xls$
#закрыл прайсы от индексации
Как проверить файл robots.txt
После того, как файл написан, нужно узнать, правильно ли. Для этого вы можете использовать инструменты от Яндекс и Google.
Через Яндекс.Вебмастер robots.txt можно проверить на вкладке «Инструменты – Анализ robots.txt»:
На открывшейся странице указываем адрес проверяемого сайта, а в поле снизу вставляем содержимое своего файла. Затем нажимаем «Проверить». Сервис проверит ваш файл и укажет на возможные ошибки:
Также можно проверить файл robots.txt через Google Search Console, если у вас подтверждены права на сайт.
Для этого в панели инструментов выбираем «Сканирование – Инструмент проверки файла robots.txt».
На странице проверки вам тоже нужно будет скопировать и вставить содержимое файла, затем указать адрес сайта:
Потом нажимаете «Проверить» — и все. Система укажет ошибки или выдаст предупреждения.
Останется только внести необходимые правки.
Если в файле присутствуют какие-то ошибки, или появятся со временем (например, после какого-то очередного изменения), инструменты для вебмастеров будут присылать вам уведомления об этом. Извещение вы увидите сразу, как войдете в консоль.
Это интересно: 20 самых распространённых ошибок, которые убивают ваш сайт
Частые ошибки в заполнении файла robots.txt
Какие же ошибки чаще всего допускают вебмастера или владельцы ресурсов?
1. Файла вообще нет. Это встречается чаще всего, и выявляется при SEO-аудите ресурса. Как правило, на тот момент уже заметно, что сайт индексируется не так быстро, как хотелось бы, или в индекс попали мусорные страницы.
2. Перечисление нескольких папок или директорий в одной инструкции. То есть вот так:
Allow: /catalog /uslugi /shop
Называется «зачем писать больше…». В таком случае робот вообще не знает, что ему можно индексировать. Каждая инструкция должна иди с новой строки, запрет или разрешение на индексацию каждой папки или страницы – это отдельная рекомендация.
3. Разные регистры. Название файла должно быть с маленькой буквы и написано маленькими буквами – никакого капса. То же самое касается и инструкций: каждая с большой буквы, все остальное – маленькими. Если вы напишете капсом, это будет считаться уже совсем другой директивой.
4. Пустой User-agent. Нужно обязательно указать, для какой поисковой системы идет набор правил. Если для всех – ставим звездочку, но никак нельзя оставлять пустое место.
5. Забыли открыть ресурс для индексации после всех работ – просто не убрали слеш после Disallow.
6. Лишние звездочки, пробелы, другие знаки. Это просто невнимательность.
Регулярно заглядывайте в инструменты для вебмастеров и вовремя исправляйте возможные ошибки в своем файле robots.txt.
Удачного вам продвижения!
Как правильно создать robots.txt для сайта – полное руководство
От автора: поисковые роботы могут стать вашими друзьями, либо врагами. Все зависит от того, какие вы им дадите команды. Сегодня разберемся, как правильно создать robots.txt для сайта.
Создание самого файла
Robots.txt – это файл с инструкциями для поисковых роботов. Он создается в корне сайта. Вы можете прямо сейчас создать его на своем рабочем столе при помощи блокнота, как создается любой текстовый файл.
Для этого жмем правой кнопкой мыши по пустому пространству, выбираем Создать – Текстовый документ (не Word). Он откроется с помощью обычного блокнота. Назовите его robots, расширение у него и так уже правильное – txt. Это все, что касается создания самого файла.
Как составить robots.txt
Теперь остается заполнить файл нужными инструкциями. Собственно, у команд для роботов простейший синтаксис, намного проще, чем в любом языке программирования. Вообще заполнить файл можно двумя способами:
Практический курс по верстке адаптивного сайта с нуля!
Изучите курс и узнайте, как верстать современные сайты на HTML5 и CSS3
Узнать подробнееПосмотреть у другого сайта, скопировать и изменить под структуру своего проекта.
Написать самому
О первом способе я уже писал в предыдущей статье. Он подходит, если у сайтов одинаковые движки и нет существенной разницы в функционале. Например, все сайты на wordpress имеют одинаковую структуру, однако могут быть различные расширения, вроде форума, интернет-магазина и множества дополнительных каталогов. Если вы хотите знать, как изменить robots.txt читайте эту статью, можно также ознакомиться с предыдущей, но и в этой будет сказано достаточно много.
Например, у вас на сайте есть каталог /source, где хранятся исходники к тем статьям, что вы пишите на блог, а у другого веб-мастера нет такой директории. И вы, к примеру, хотите закрыть папку source от индексации. Если вы скопируете robots.txt у другого ресурса, то там такой команды не будет. Вам придется дописывать свои инструкции, удалять ненужное и т.д.
Так что в любом случае полезно знать основы синтаксиса инструкций для роботов, который вы сейчас и разберем.
Как писать свои инструкции роботам?
Первое, с чего начинается файл, это с указания того, к каким именно поисковым машинам обращены инструкции. Это делается так:
User-agent: Yandex Или User-agent: Googlebot
User-agent: Yandex Или User-agent: Googlebot |
Никаких точек с запятой в конце строчки ставить не нужно, это вам не программирование). В общем, тут понятно, что в первом случае инструкции будет читать только бот Яндекса, во втором – только Гугла. Если команды должны быть выполнены всеми роботами, пишут так: User-agent:
Команды
Отлично. С обращением к роботам мы разобрались. Это несложно. Вы можете представить это на простом примере. У вас есть трое младших братьев, Вася, Дима и Петя, а вы главный. Родители ушли и сказали вам, чтобы вы следили за ними.
Все трое чего-то просят у вас. Представь, что нужно дать им ответ так, как будто пишешь инструкции поисковым роботам. Это будет выглядеть примерно так:
User-agent: Vasya Allow: пойти на футбол User-agent: Dima Disallow: пойти на футбол (Дима в прошлый раз разбил стекло соседям, он наказан) User-agent: Petya Allow: сходить в кино (Пете уже 16 и он вообще в шоке, что должен у тебя еще и разрешения спрашивать, ну да ладно, пусть идет).
User-agent: Vasya Allow: пойти на футбол User-agent: Dima Disallow: пойти на футбол (Дима в прошлый раз разбил стекло соседям, он наказан) User-agent: Petya Allow: сходить в кино (Пете уже 16 и он вообще в шоке, что должен у тебя еще и разрешения спрашивать, ну да ладно, пусть идет). |
Таким образом, Вася радостно зашнуровывает кроссовки, Дима с опущенной головой смотрит в окно на брата, который уже думает, сколько голов забьет сегодня (Дима получил команду disallow, то есть запрет). Ну а Петя отправляется в свое кино.
Из этого примера несложно понять, что Allow – это разрешение, а Disallow – запрет. Но в robots.txt мы не людям раздаем команды, а роботам, поэтому вместо конкретных дел там прописываются адреса страниц и каталогов, которые нужно разрешить или запретить индексировать.
Например, у меня есть сайт site.ru. Он на движке wordpress. Начинаю писать инструкции:
Практический курс по верстке адаптивного сайта с нуля!
Изучите курс и узнайте, как верстать современные сайты на HTML5 и CSS3
Узнать подробнееUser-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Allow: /wp-content/uploads/ Disallow: /source/ Ну и т.д.
User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Allow: /wp-content/uploads/ Disallow: /source/ Ну и т.д. |
Во-первых, я обратился ко всем роботам. Во-вторых, поставил запрет на индексацию папок самого движка, но при этом открыл роботу доступ к папке с загрузками. Там обычно хранятся все картинки, а их обычно не закрывают от индексации, если планируется получать трафик с поиска по картинкам.
Ну и помните, я ранее в статье говорил о том, что у вас могут быть дополнительные каталоги? Вы можете их создать самостоятельно для различных целей. Например, на одном из моих сайтов есть папка flash, куда я кидаю флэш-игры, чтобы потом их запустить на сайте. Либо source – в этой папке могут хранится файлы, доступные пользователям для загрузки.
В общем, абсолютно неважно, как называется папка. Если ее нужно закрыть, указываем путь к ней и команду Disallow.
Команда Allow нужна как раз для того, чтобы уже в закрытых разделах открыть какие-то части. Ведь по умолчанию, если у вас не будет файла robots.txt, весь сайт будет доступен к индексированию. Это и хорошо (уж точно что-то важное не закроете по ошибке), и в то же время плохо (будут открыты файлы и папки, которых не должно быть в выдаче).
Чтобы лучше понять этот момент, предлагаю еще раз просмотреть этот кусок:
Disallow: /wp-content/ Allow: /wp-content/uploads/
Disallow: /wp-content/ Allow: /wp-content/uploads/ |
Как видите, сначала мы ставим запрет на индексацию всего каталога wp-content. В нем хранятся все ваши шаблоны, плагины, но там же есть и картинки. Очевидно, что их то можно и открыть. Для этого нам и нужна команда Allow.
Дополнительные параметры
Перечисленные команды – не единственное, что можно указать в файле. Также есть такие: Host – указывает главное зеркало сайта. Кто не знал, у любого сайта по умолчанию есть два варианта написания его доменного имени: domain.com и www.domain.com.
Чтобы не возникло проблем, необходимо указать в качестве главного зеркала какой-то один вариант. Это можно сделать как в инструментах для веб-мастеров, как и в файле Robots.txt. Для этого пишем: Host: domain.com
Что это дает? Если кто-то попытается попасть на ваш сайт так: www.domain.com – его автоматически перекинет на вариант без www, потому что он будет признан главным зеркалом.
Вторая директива – sitemap. Я думаю вы уже поняли, что в ней задается путь к карте сайта в xml-формате. Пример: //domain.com/sitemap.xml
Опять же, загрузить карту вы можете и в Яндекс.Вебмастере, также ее можно указать в robots.txt, чтобы робот прочитал эту строчку и четко понял, где ему искать карту сайта. Для робота карта сайта так же важна, как для Васи – мяч, с которым он пойдет на футбол. Это все равно, что он спрашивает у тебя (как у старшего брата) где мяч. А ты ему:
User-agent: Vasya Sitemap: посмотри в зале за диваном
User-agent: Vasya Sitemap: посмотри в зале за диваном |
Теперь вы знаете, как правильно настроить и изменить robots.txt для яндекса и вообще любого другого поисковика под свои нужды.
Что дает настройка файла?
Об этом я также уже говорил ранее, но скажу еще раз. Благодаря четко настроенному файлу с командами для роботов вы сможете спать спокойнее зная, что робот не залезет в ненужный раздел и не возьмет в индекс ненужные страницы.
Я также говорил, что настройка robots.txt не спасает от всего. В частности, она не спасает от дублей, которые возникает из-за того, что движки несовершенны. Прям как люди. Вы то разрешили Васе идти на футбол, но не факт, что он там не натворит того же, что и Дима. Вот так и с дублями: команду дать можно, но точно нельзя быть уверенным, что что-то лишнее не пролезет в индекс, испортив позиции.
Дублей тоже не нужно бояться, как огня. Например, тот же Яндекс более менее нормально относится к сайтам, у которых серьезные технические косяки. Другое дело, что если запустить дело, то и вправду можно лишиться серьезного процента трафика к себе. Впрочем, скоро в нашем разделе, посвященном SEO, будет статья о дублях, тогда и будем с ними воевать.
Как мне получить нормальный robots.txt, если я сам ничего не понимаю?
В конце концов, создание robots.txt — это не создание сайта. Как-то попроще, поэтому вы вполне можете банально скопировать содержимое файла у любого более менее успешного блоггера. Конечно, если у вас сайт на WordPress. Если он на другом движке, то вам и сайты нужно искать на этих же cms. Как посмотреть содержимое файла на чужом сайте я уже говорил: Domain.com/robots.txt
Итог
Я думаю, тут больше не о чем говорить, потому что не надо делать составление инструкций для роботов вашей целью на год. Это та задача, которую под силу выполнить даже новичку за 30-60 минут, а профессионалу вообще всего-то за пару минут. Все у вас получиться и можете в этом не сомневаться.
А чтобы узнать другие полезные и важные фишки для продвижения и раскрутки блога, можете посмотреть наш уникальный курс по раскрутке и монетизации сайта. Если вы примените оттуда 50-100% рекомендаций, то сможете в будущем успешно продвигать любые сайты.
Практический курс по верстке адаптивного сайта с нуля!
Изучите курс и узнайте, как верстать современные сайты на HTML5 и CSS3
Узнать подробнееХотите узнать, что необходимо для создания сайта?
Посмотрите видео и узнайте пошаговый план по созданию сайта с нуля!
СмотретьГенератор Robots.txt
Инструменты SEO
Инструменты, которые помогут вам создать и продвигать свой веб-сайт.
Расширения FirefoxВеб-инструменты Если вам нужна обратная связь или у вас есть какие-либо животрепещущие вопросы, задавайте их на форуме сообщества, чтобы мы могли их решить.
Обзор
Обзор содержания сайта.Включает карту сайта, глоссарий и контрольный список для быстрого старта.
SEO
Содержит информацию о ключевых словах, SEO на странице, построении ссылок и социальном взаимодействии.
КПП
Советы по покупке трафика в поисковых системах.
Отслеживание
Узнайте, как отслеживать свой успех с помощью обычных объявлений SEO и PPC. Включает информацию о веб-аналитике.
Доверие
Создание заслуживающего доверия веб-сайта — это залог того, что на него можно ссылаться и продавать его клиентам.
Монетизация
Узнайте, как зарабатывать деньги на своих веб-сайтах.
Аудио и видео
Ссылки на полезную аудио и видео информацию. Мы будем создавать новые SEO-видео каждый месяц.
Интервью
Эксклюзивные интервью только для участников.
Скидки
купонов и предложений, которые помогут вам сэкономить деньги на продвижении ваших сайтов.
Карта сайта
Просмотрите все наши учебные модули, на которые есть ссылки на одной странице.
Хотите проверить свой файл robots.txt?
Получите конкурентное преимущество сегодня
Ваши ведущие конкуренты годами инвестируют в свою маркетинговую стратегию.
Теперь вы можете точно знать, где они ранжируются, выбирать лучшие ключевые слова и отслеживать новые возможности по мере их появления.
Изучите рейтинг своих конкурентов в Google и Bing сегодня с помощью SEMrush.
Введите конкурирующий URL-адрес ниже, чтобы быстро получить доступ к их истории эффективности обычного и платного поиска — бесплатно.
Посмотрите, где они занимают место, и побейте их!
- Исчерпывающие данные о конкурентах: исследований эффективности в обычном поиске, AdWords, объявлениях Bing, видео, медийной рекламе и многом другом.
- Сравните по каналам: воспользуйтесь чьей-либо стратегией AdWords, чтобы стимулировать рост вашего SEO, или используйте их стратегию SEO, чтобы инвестировать в платный поиск.
- Глобальный охват: Отслеживает результаты Google по более чем 120 миллионам ключевых слов на многих языках на 28 рынках.
- Исторические данные о производительности: восходит к прошлому десятилетию, до того, как существовали Panda и Penguin, поэтому вы можете искать исторические штрафы и другие потенциальные проблемы с рейтингом.
- Без риска: Бесплатная пробная версия и низкая ежемесячная плата.
Ваши конкуренты, исследуют ваш сайт
Найдите новые возможности сегодня
Инструмент для создания текста роботовСравнить функциональные возможности
Как вы используете robots.txt, чтобы увидеть параллельное сравнение того, как ваш сайт в настоящее время обрабатывает поисковых роботов и как будет работать предлагаемый новый файл robots.txt, введите или вставьте URL-адрес домена вашего сайта или страницу вашего сайта в текстовое поле, а затем щелкните Сравнить .
Когда поисковые системы сканируют сайт, они сначала ищут файл robots.txt в корне домена. В случае обнаружения они читают список директив файла, чтобы узнать, какие каталоги и файлы, если таковые имеются, заблокированы для сканирования.Этот файл можно создать с помощью генератора файлов robots.txt. Когда вы используете генератор robots.txt, Google и другие поисковые системы могут определить, какие страницы вашего сайта следует исключить. Другими словами, файл, созданный генератором robots.txt, похож на противоположность карты сайта, которая указывает, какие страницы нужно включить.
Генератор robots.txt
Вы можете легко создать новый или отредактировать существующий файл robots.txt для своего сайта с помощью генератора robots.txt.Чтобы загрузить существующий файл и предварительно заполнить инструмент генератора файлов robots.txt, введите или вставьте URL-адрес корневого домена в верхнее текстовое поле и нажмите Загрузить . Используйте инструмент генератора robots.txt для создания директив с директивами Allow или Disallow ( Разрешить по умолчанию, нажмите, чтобы изменить) для пользовательских агентов (используйте * для всех или нажмите, чтобы выбрать только один) для указанного контента на вашем сайте. Щелкните Добавить директиву , чтобы добавить новую директиву в список. Чтобы отредактировать существующую директиву, щелкните Удалить директиву , а затем создайте новую.
Создание настраиваемых директив пользовательского агента
В нашем генераторе robots.txt можно указать Google и несколько других поисковых систем в соответствии с вашими критериями. Чтобы указать альтернативные директивы для одного сканера, щелкните поле списка User Agent (по умолчанию отображается *), чтобы выбрать бота. Когда вы нажимаете Добавить директиву , настраиваемый раздел добавляется в список со всеми универсальными директивами, включенными в новую настраиваемую директиву. Чтобы изменить общую директиву Disallow на директиву Allow для настраиваемого пользовательского агента, создайте новую директиву Allow для конкретного пользовательского агента для содержимого.Соответствующая директива Disallow удалена для настраиваемого пользовательского агента.
Чтобы узнать больше о директивах robots.txt, см. Полное руководство по блокировке вашего контента в поиске.
Вы также можете добавить ссылку на свой XML-файл Sitemap. Введите или вставьте полный URL-адрес XML-файла Sitemap в текстовое поле XML Sitemap . Нажмите Обновить , чтобы добавить эту команду в список файлов robots.txt.
Когда закончите, нажмите Export , чтобы сохранить ваши новые robots.txt файл. Используйте FTP для загрузки файла в корень домена вашего сайта. С помощью этого файла, загруженного из нашего генератора robots.txt, Google или другие указанные сайты будут знать, какие страницы или каталоги вашего сайта не должны отображаться при поиске пользователей.
Перезапустите этот инструментЕсли вам нравится этот инструмент, пожалуйста, добавьте его, поставьте лайк, напишите в Твиттере или еще лучше, дайте ссылку на него — Джим
Создайте файл robots.txt | Центр поиска | Разработчики Google
Если вы пользуетесь услугами хостинга сайтов, например Wix или Blogger, вы может не понадобиться создавать или редактировать файл robots.txt файл.Начало работы
Файл robots.txt находится в корне вашего сайта. Итак, для сайта www.example.com
,
файл robots.txt находится по адресу www.example.com/robots.txt
. robots.txt — это простой
текстовый файл, следующий за
Стандарт исключения роботов.
Файл robots.txt состоит из одного или нескольких правил. Каждое правило блокирует (или разрешает) доступ для
данного поискового робота на указанный путь к файлу на этом веб-сайте.
Вот простой робот.txt с двумя правилами, описанными ниже:
# Группа 1 Пользовательский агент: Googlebot Запретить: / nogooglebot / # Группа 2 Пользовательский агент: * Позволять: / Карта сайта: http://www.example.com/sitemap.xml
Пояснение:
- Пользовательскому агенту с именем «Googlebot» не разрешено сканировать
http://example.com/nogooglebot/
или любые подкаталоги. - Всем остальным пользовательским агентам разрешено сканировать весь сайт.(Это могло быть пропущено и результат будет таким же, поскольку предполагается полный доступ.)
- Файл карты сайта находится по адресу
http://www.example.com/sitemap.xml
.
Дополнительные примеры см. В разделе синтаксиса.
Основные принципы robots.txt
Вот несколько основных рекомендаций для файлов robots.txt. Мы рекомендуем вам прочитать полный синтаксис файлов robots.txt, поскольку роботы.txt имеет некоторые тонкие особенности, которые вам следует понять.
Формат и расположение
Вы можете использовать практически любой текстовый редактор для создания файла robots.txt. Текстовый редактор должен уметь для создания стандартных текстовых файлов UTF-8. Не используйте текстовый процессор; текстовые процессоры часто экономят файлы в проприетарном формате и могут добавлять неожиданные символы, такие как фигурные кавычки, которые может вызвать проблемы для сканеров.
Используйте роботов.txt Tester инструмент для написания или редактирования файлов robots.txt для вашего сайта. Этот инструмент позволяет вам проверить синтаксис и поведение против вашего сайта.Правила формата и размещения:
- Файл должен называться robots.txt .
- На вашем сайте может быть только один файл robots.txt.
- Файл robots.txt должен находиться в корне хоста веб-сайта, чтобы
который применяется. Например, для управления сканированием всех URL-адресов ниже
http: // www.example.com/
, файл robots.txt должен находиться по адресуhttp://www.example.com/robots.txt
. Это не может быть помещено в подкаталог (например,http://example.com/pages/robots.txt
). Если вы не знаете, как получить доступ к корню вашего веб-сайта или вам нужны разрешения для этого, обратитесь к своему веб-сайту провайдер хостинг-услуг. Если вы не можете получить доступ к корню вашего сайта, используйте альтернативную блокировку метод, такой как метатеги. - Роботы.txt может применяться к поддоменам (например,
http: // сайт .example.com / robots.txt
) или на нестандартных порты (например,http://example.com: 8181 /robots.txt
). - Комментарии — это любое содержимое после отметки
#
.
Синтаксис
- robots.txt должен быть текстовым файлом в кодировке UTF-8 (включая ASCII). Использование другого персонажа наборы невозможно.
- Файл robots.txt состоит из одной или нескольких групп .
- Каждая группа состоит из нескольких правил или директив (инструкции), по одной директиве на строку.
- Группа предоставляет следующую информацию:
- Кому относится группа (пользовательский агент )
- Какие каталоги или файлы может получить доступ агент , и / или
- К каким каталогам или файлам агент не может получить доступ. .
- Группы обрабатываются сверху вниз, и пользовательский агент может соответствовать только одному набору правил, который это первое, наиболее конкретное правило, которое соответствует данному пользовательскому агенту.
- Предположение по умолчанию состоит в том, что пользовательский агент может сканировать любую страницу или каталог.
не заблокирован правилом
Disallow:
. - Правила чувствительны к регистру . Например,
Disallow: / file.жерех
применяется кhttp://www.example.com/file.asp
, но неhttp://www.example.com/FILE.asp
.
В файлах robots.txt используются следующие директивы:
-
User-agent:
[ Обязательно, один или несколько на группу ] директива определяет имя автоматического клиента, известного как сканер поисковой системы, который правило применяется к. Это первая строка для любой группы правил.Имена пользовательских агентов Google: перечисленные в Список пользовательских агентов Google. Использование звездочки (*
), как в примере ниже, будет соответствовать всем поисковым роботам. , за исключением различных поисковых роботов AdsBot , которые должны иметь явное имя. Примеры:# Пример 1. Заблокировать только Googlebot Пользовательский агент: Googlebot Запретить: / # Пример 2. Блокировка роботов Googlebot и Adsbot Пользовательский агент: Googlebot Пользовательский агент: AdsBot-Google Запретить: / # Пример 3. Блокировка всех сканеров, кроме AdsBot Пользовательский агент: * Disallow: /
-
Disallow:
[ Как минимум один или несколькоDisallow
илиРазрешить
записей в правиле ] Каталог или страница относительно корневого домена, что вы не хотите, чтобы пользовательский агент сканировал.Если правило относится к странице, это должно быть полное имя страницы, как показано в браузере; если он относится к каталогу, он должен заканчиваться Марка/
. -
Разрешить:
[ Как минимум один или несколькоЗапретить
илиРазрешить
записей в правиле ] Каталог или страница относительно корневого домена, которые могут сканироваться только что упомянутым пользовательским агентом. Это используется для отменыDisallow Директива
, разрешающая сканирование подкаталога или страницы в запрещенном каталог.Для одной страницы полное имя страницы, отображаемое в браузере, должно быть указано. В случае каталога правило должно заканчиваться отметкой/
. -
Sitemap:
[ Необязательно, ноль или более на файл ] расположение карты сайта для этого веб-сайта. URL-адрес карты сайта должен быть полным URL-адресом; Google не предполагает и не проверяет альтернативы http / https / www.non-www. Файлы Sitemap — хороший способ указать, какой контент Google должен сканировать , а не какой контент он может или не может сканировать .Узнайте больше о файлах Sitemap. Пример:Карта сайта: https://example.com/sitemap.xml Карта сайта: http://www.example.com/sitemap.xml
Все директивы, кроме карты сайта
, поддерживают подстановочный знак *
для пути
префикс, суффикс или целая строка.
Строки, не соответствующие ни одной из этих директив, игнорируются.
Другой пример файла
Файл robots.txt состоит из одной или нескольких групп, каждая из которых начинается с User-agent
Строка, указывающая цель групп.Вот файл с двумя
группы; встроенные комментарии объясняют каждую группу:
# Заблокировать googlebot из example.com/directory1 / ... и example.com/directory2 / ... # но разрешить доступ к directory2 / subdirectory1 / ... # Все остальные каталоги на сайте разрешены по умолчанию. Пользовательский агент: googlebot Запретить: / directory1 / Запретить: / каталог2 / Разрешить: / каталог2 / подкаталог1 / # Блокировать весь сайт от другого сканера. Пользовательский агент: anothercrawler Disallow: /
Полный синтаксис robots.txt
Вы можете найти полные robots.txt здесь. Пожалуйста, прочтите полную документацию, так как в синтаксисе robots.txt есть несколько сложных частей, которые важно узнать.
Полезные правила robots.txt
Вот несколько общих полезных правил robots.txt:
Правило | Образец |
---|---|
Запретить сканирование всего веб-сайта. Имейте в виду, что в некоторых ситуаций URL-адреса с веб-сайта все еще могут быть проиндексированы, даже если они не были поползли.Это не соответствует различные сканеры AdsBot, который должен быть назван явно. | Пользовательский агент: * Disallow: / |
Запретить сканирование каталога и его содержимого , следуя имя каталога с косой чертой. Помните, что вам не следует использовать robots.txt для блокировки доступ к частному контенту: вместо этого используйте правильную аутентификацию.URL-адреса, запрещенные Файл robots.txt может по-прежнему индексироваться без сканирования, а файл robots.txt могут быть просмотрены кем угодно, потенциально раскрывая местонахождение вашего личного контента. | Пользовательский агент: * Запретить: / календарь / Disallow: / junk /. |
Разрешить доступ одному искателю | User-agent: Googlebot-news Позволять: / Пользовательский агент: * Disallow: / |
Разрешить доступ всем, кроме одного поискового робота | Пользовательский агент: Ненужный бот Запретить: / Пользовательский агент: * Разрешить: / |
Запретить сканирование отдельной веб-страницы , указав страницу после слэш: | Пользовательский агент: * Запретить: / частный_файл.html |
Заблокировать определенное изображение из Картинок Google: | Пользовательский агент: Googlebot-Image Запретить: /images/dogs.jpg |
Заблокировать все изображения на вашем сайте из Картинок Google: | Пользовательский агент: Googlebot-Image Disallow: / |
Запретить сканирование файлов определенного типа (например, | Пользовательский агент: Googlebot Disallow: /*.gif$ |
Запретить сканирование всего сайта, но показывать рекламу AdSense на этих страницах ,
и запретить всем поисковым роботам, кроме | Пользовательский агент: * Запретить: / Пользовательский агент: Mediapartners-Google Разрешить: / |
Чтобы сопоставить URL-адреса, которые заканчиваются определенной строкой , используйте $ . За
Например, пример кода блокирует любые URL-адреса, которые заканчиваются на .xls : | Пользовательский агент: Googlebot Запретить: /*.xls$ |
Как создать идеальных роботов.txt для SEO
Все любят «хаки».
Я не исключение — мне нравится находить способы сделать свою жизнь лучше и проще.
Вот почему техника, о которой я расскажу вам сегодня, — одна из моих самых любимых. Это законный SEO-прием, которым вы можете сразу же начать пользоваться.
Это способ улучшить ваше SEO за счет использования естественной части каждого веб-сайта, о которой редко говорят. Реализовать тоже несложно.
Это роботы.txt (также называемый протоколом исключения роботов или стандартом).
Этот крошечный текстовый файл есть на каждом веб-сайте в Интернете, но большинство людей даже не знают о нем.
Он разработан для работы с поисковыми системами, но, что удивительно, это источник сока SEO, который только и ждет, чтобы его разблокировали.
Я видел, как клиент за клиентом отклонялись назад, пытаясь улучшить свое SEO. Когда я говорю им, что они могут редактировать небольшой текстовый файл, они мне почти не верят.
Однако существует множество несложных или трудоемких методов улучшения SEO, и это один из них.
Для использования всех возможностей robots.txt не требуется никакого технического опыта. Если вы можете найти исходный код для своего веб-сайта, вы можете использовать его.
Итак, когда вы будете готовы, следуйте за мной, и я покажу вам, как именно изменить файл robots.txt, чтобы он понравился поисковым системам.
Почему важен файл robots.txtВо-первых, давайте посмотрим, почему файл robots.txt вообще так важен.
Роботы.txt, также известный как протокол или стандарт исключения роботов, представляет собой текстовый файл, который сообщает веб-роботам (чаще всего поисковым системам), какие страницы вашего сайта сканировать.
Он также сообщает веб-роботам, какие страницы , а не сканировать.
Допустим, поисковая система собирается посетить сайт. Перед посещением целевой страницы он проверяет robots.txt на наличие инструкций.
Существуют разные типы файлов robots.txt, поэтому давайте рассмотрим несколько различных примеров того, как они выглядят.
Допустим, поисковая система находит этот пример файла robots.txt:
Это базовый скелет файла robots.txt.
Звездочка после «user-agent» означает, что файл robots.txt применяется ко всем веб-роботам, посещающим сайт.
Косая черта после «Disallow» указывает роботу не посещать никакие страницы сайта.
Вы можете спросить, зачем кому-то мешать веб-роботам посещать свой сайт.
В конце концов, одна из основных целей SEO — заставить поисковые системы легко сканировать ваш сайт, чтобы повысить ваш рейтинг.
Вот где кроется секрет этого SEO-взлома.
У вас наверняка много страниц на сайте? Даже если вы так не думаете, пойдите и проверьте. Вы можете быть удивлены.
Если поисковая система просканирует ваш сайт, она просканирует каждую из ваших страниц.
А если у вас много страниц, боту поисковой системы потребуется некоторое время, чтобы их просканировать, что может отрицательно повлиять на ваш рейтинг.
Это потому, что у Googlebot (робота поисковой системы Google) есть «краулинговый бюджет.”
Он состоит из двух частей. Первый — это ограничение скорости сканирования. Вот как Google объясняет это:
Вторая часть — требование сканирования:
По сути, краулинговый бюджет — это «количество URL-адресов, которые робот Googlebot может и хочет просканировать».
Вы хотите помочь роботу Googlebot оптимально расходовать бюджет сканирования для вашего сайта. Другими словами, он должен сканировать ваши самые ценные страницы.
Есть определенные факторы, которые, по мнению Google, «негативно повлияют на сканирование и индексирование сайта.”
Вот эти факторы:
Итак, вернемся к robots.txt.
Если вы создадите правильную страницу robots.txt, вы можете указать роботам поисковых систем (и особенно роботу Googlebot) избегать определенных страниц.
Подумайте о последствиях. Если вы укажете роботам поисковых систем сканировать только самый полезный контент, они будут сканировать и индексировать ваш сайт только на основе этого контента.
По словам Google:
«Вы не хотите, чтобы ваш сервер был перегружен поисковым роботом Google или тратил бюджет сканирования на сканирование неважных или похожих страниц вашего сайта.”
Правильно используя robots.txt, вы можете указать роботам поисковых систем разумно расходовать свой краулинговый бюджет. Именно это делает файл robots.txt таким полезным в контексте SEO.
Заинтригованы силой robots.txt?
Так и должно быть! Поговорим о том, как его найти и использовать.
Поиск файла robots.txtЕсли вы просто хотите быстро просмотреть свой файл robots.txt, есть очень простой способ просмотреть его.
Фактически, этот метод будет работать для любого сайта .Так что вы можете заглянуть в файлы других сайтов и увидеть, что они делают.
Все, что вам нужно сделать, это ввести основной URL-адрес сайта в строку поиска вашего браузера (например, neilpatel.com, quicksprout.com и т. Д.). Затем добавьте в конец /robots.txt.
Произойдет одна из трех ситуаций:
1) Вы найдете файл robots.txt.
2) Вы найдете пустой файл.
Например, у Disney не хватает файла robots.txt:
3) Вы получите 404.
Метод возвращает 404 для robots.txt:
Найдите секунду и просмотрите файл robots.txt своего сайта.
Если вы обнаружите пустой файл или ошибку 404, вы захотите это исправить.
Если вы найдете действительный файл, вероятно, для него установлены настройки по умолчанию, которые были созданы при создании вашего сайта.
Мне особенно нравится этот метод просмотра файлов robots.txt других сайтов. После того, как вы изучите все тонкости robots.txt, это может стать полезным упражнением.
Теперь давайте посмотрим, как на самом деле изменить файл robots.txt.
Поиск файла robots.txtВаши следующие шаги будут зависеть от того, есть ли у вас файл robots.txt. (Проверьте, делаете ли вы это, используя метод, описанный выше.)
Если у вас нет файла robots.txt, вам придется создать его с нуля. Откройте текстовый редактор, например Блокнот (Windows) или TextEdit (Mac).
Используйте для этого только текстовый редактор .Если вы используете такие программы, как Microsoft Word, программа может вставлять дополнительный код в текст.
Editpad.org — отличный бесплатный вариант, и вы увидите, что я использую в этой статье.
Вернуться в robots.txt. Если у вас есть файл robots.txt, вам нужно найти его в корневом каталоге вашего сайта.
Если вы не привыкли ковыряться в исходном коде, то найти редактируемую версию файла robots.txt может быть немного сложно.
Обычно вы можете найти свой корневой каталог, перейдя на веб-сайт своей учетной записи хостинга, войдя в систему и перейдя в раздел управления файлами или FTP вашего сайта.
Вы должны увидеть что-то вроде этого:
Найдите файл robots.txt и откройте его для редактирования. Удалите весь текст, но сохраните файл.
Примечание. Если вы используете WordPress, вы можете увидеть файл robots.txt при переходе на yoursite.com/robots.txt, но вы не сможете найти его в своих файлах.
Это связано с тем, что WordPress создает виртуальный файл robots.txt, если в корневом каталоге нет файла robots.txt.
Если это произойдет с вами, вам нужно будет создать новый файл robots.txt файл.
Создание файла robots.txtВы можете создать новый файл robots.txt с помощью любого текстового редактора по вашему выбору. (Помните, используйте только текстовый редактор.)
Если у вас уже есть файл robots.txt, убедитесь, что вы удалили текст (но не файл).
Во-первых, вам нужно познакомиться с некоторым синтаксисом, используемым в файле robots.txt.
У Google есть хорошее объяснение некоторых основных терминов robots.txt:
Я покажу вам, как настроить простого робота.txt, а затем мы рассмотрим, как настроить его для SEO.
Начните с установки термина пользовательского агента. Мы собираемся настроить его так, чтобы он применялся ко всем веб-роботам.
Сделайте это, поставив звездочку после термина пользовательского агента, например:
Затем введите «Disallow:», но после этого ничего не вводите.
Поскольку после запрета нет ничего, веб-роботы будут направлены на сканирование всего вашего сайта. Прямо сейчас все на вашем сайте — это честная игра.
На данный момент ваш файл robots.txt должен выглядеть так:
Я знаю, что это выглядит очень просто, но эти две строчки уже многое делают.
Вы также можете добавить ссылку на свою карту сайта XML, но это не обязательно. Если хотите, вот что нужно набрать:
Вы не поверите, но именно так выглядит базовый файл robots.txt.
А теперь давайте перейдем на новый уровень и превратим этот маленький файл в средство повышения SEO.
Оптимизирующие роботы.txt для SEO
Как вы оптимизируете robots.txt, все зависит от содержания вашего сайта. Есть много способов использовать robots.txt в ваших интересах.
Я рассмотрю некоторые из наиболее распространенных способов его использования.
(Имейте в виду, что вам следует не использовать robots.txt для блокировки страниц от поисковых систем . Это большой запрет.)
Одно из лучших применений файла robots.txt — увеличить бюджеты сканирования поисковых систем, запретив им сканировать те части вашего сайта, которые не отображаются для публики.
Например, если вы посетите файл robots.txt для этого сайта (neilpatel.com), вы увидите, что он запрещает страницу входа (wp-admin).
Поскольку эта страница используется только для входа на серверную часть сайта, роботам поисковых систем не имеет смысла тратить время на ее сканирование.
(Если у вас WordPress, вы можете использовать ту же самую запрещающую строку.)
Вы можете использовать аналогичную директиву (или команду), чтобы запретить ботам сканировать определенные страницы.После запрета введите часть URL-адреса после .com. Поместите это между двумя косыми чертами.
Итак, если вы хотите запретить боту сканировать вашу страницу http://yoursite.com/page/, введите следующее:
Вам может быть интересно, какие типы страниц исключить из индексации. Вот несколько распространенных сценариев, в которых это может произойти:
Умышленное дублирование контента. Хотя дублированный контент — это в большинстве случаев плохо, в некоторых случаях это необходимо и приемлемо.
Например, если у вас есть версия страницы для печати, технически у вас дублированное содержимое. В этом случае вы можете сказать ботам, чтобы они не сканировали одну из этих версий (обычно это версия для печати).
Это также удобно, если вы тестируете страницы с одинаковым содержанием, но с разным дизайном.
Страницы благодарности. Страница с благодарностью — одна из любимых страниц маркетологов, потому что она означает нового потенциального клиента.
… Верно?
Как оказалось, некоторые страницы благодарности доступны через Google .Это означает, что люди могут получить доступ к этим страницам без прохождения процесса захвата лидов, и это плохие новости.
Блокируя страницы с благодарностью, вы можете быть уверены, что их видят только квалифицированные лиды.
Допустим, ваша страница с благодарностью находится по адресу https://yoursite.com/thank-you/. В вашем файле robots.txt блокировка этой страницы будет выглядеть так:
Поскольку не существует универсальных правил для запрещенных страниц, ваш файл robots.txt будет уникальным для вашего сайта.Используйте здесь свое суждение.
Вам следует знать еще две директивы: noindex и nofollow .
Вы знаете эту директиву запрета, которую мы использовали? Фактически это не препятствует индексации страницы.
Итак, теоретически вы можете запретить страницу, но она все равно может оказаться в индексе.
Как правило, вы этого не хотите.
Вот почему вам нужна директива noindex. Он работает с директивой disallow, чтобы роботы не посещали или , индексируя определенные страницы.
Если у вас есть страницы, которые вы не хотите индексировать (например, эти драгоценные страницы с благодарностью), вы можете использовать директиву disallow и noindex:
Теперь эта страница не будет отображаться в поисковой выдаче.
Наконец, есть директива nofollow. Фактически это то же самое, что и ссылка nofollow. Короче говоря, он сообщает веб-роботам, чтобы они не сканировали ссылки на странице.
Но директива nofollow будет реализована немного иначе, потому что на самом деле она не является частью robots.txt файл.
Однако директива nofollow все еще инструктирует веб-роботов, так что это та же концепция. Единственная разница в том, где это происходит.
Найдите исходный код страницы, которую хотите изменить, и убедитесь, что вы находитесь между тегами .
Затем вставьте эту строку:
Так должно получиться так:
Убедитесь, что вы не помещаете эту строку между другими тегами — только тегами
.Это еще один хороший вариант для страниц с благодарностью, поскольку веб-роботы не будут сканировать ссылки на какие-либо лид-магниты или другой эксклюзивный контент.
Если вы хотите добавить директивы noindex и nofollow, используйте эту строку кода:
Это даст веб-роботам сразу обе директивы.
Проверяем всеНаконец, проверьте файл robots.txt, чтобы убедиться, что все в порядке и работает правильно.
Google предоставляет бесплатный тестер robots.txt как часть инструментов для веб-мастеров.
Сначала войдите в свою учетную запись для веб-мастеров, нажав «Войти» в правом верхнем углу.
Выберите свой ресурс (например, веб-сайт) и нажмите «Сканировать» на левой боковой панели.
Вы увидите «robots.txt Tester». Щелкните по нему.
Если в поле уже есть какой-либо код, удалите его и замените новым файлом robots.txt.
Щелкните «Тест» в правой нижней части экрана.
Если текст «Тест» изменится на «Разрешено», это означает, что ваш robots.txt действителен.
Вот еще немного информации об инструменте, чтобы вы могли подробно узнать, что все означает.
Наконец, загрузите файл robots.txt в корневой каталог (или сохраните его там, если он у вас уже есть). Теперь у вас есть мощный файл, и ваша видимость в результатах поиска должна повыситься.
ЗаключениеМне всегда нравится делиться малоизвестными «хитростями» SEO, которые могут дать вам реальное преимущество сразу несколькими способами.
Правильно настроив файл robots.txt, вы не просто улучшите свое собственное SEO. Вы также помогаете своим посетителям.
Если роботы поисковых систем могут разумно расходовать свои бюджеты сканирования, они будут организовывать и отображать ваш контент в поисковой выдаче наилучшим образом, а это означает, что вы будете более заметны.
Также не требуется много усилий для настройки файла robots.txt. В основном это однократная настройка, и при необходимости вы можете вносить небольшие изменения.
Независимо от того, запускаете ли вы свой первый или пятый сайт, с помощью robots.txt может иметь большое значение. Я рекомендую попробовать, если вы не делали этого раньше.
Каков ваш опыт создания файлов robots.txt?
Узнайте, как мое агентство может привлечь огромное количество трафика на ваш веб-сайт
- SEO — разблокируйте огромное количество SEO-трафика. Смотрите реальные результаты.
- Контент-маркетинг — наша команда создает эпический контент, которым будут делиться, получать ссылки и привлекать трафик.
- Paid Media — эффективные платные стратегии с четкой окупаемостью.
Заказать звонок
Free Robots.txt Generator — Создайте свой файл robots.txt в Интернете
Robots.txt
Файл robots.txt — это текстовый файл, содержащий команды для роботов (или сканеров) индексации поисковой системы, чтобы указать, какие страницы могут или не могут индексироваться. Это файл ASCII, расположенный в корне веб-сайта, и должен быть написан в нижнем регистре и во множественном числе. Мета-тег «роботы» (в заголовке страниц) также может использоваться для запрета индексации страницы.
Этот файл позволяет вам оставлять инструкции индексирующим роботам:
- Чтобы указать расположение файлов карты сайта
- Запретить индексацию вашего сайта для определенных роботов
- Запретить индексацию определенных страниц / каталогов
Он может содержать следующие директивы:
- Sitemap : он определяет файлы Sitemap или индексные файлы Sitemap
- User-Agent : он определяет робота, на который влияют следующие директивы.
Например, агент пользователя Google — это робот Googlebot.
*: это означает, что директивы относятся ко всем индексирующим роботам. - Disallow : Позволяет запретить доступ к определенным страницам / каталогам вашего веб-сайта.
Должен начинаться с /
/ означает весь сайт.
Некоторые поисковые системы (Google и Bing) позволяют использовать символы $ и *:
* : Он представляет любую последовательность символов.
$ : соответствует концу URL-адреса. - Разрешить : это противоположность директиве Disallow.Он указывает, какие страницы / каталоги включить из индексации. По умолчанию каждая страница может быть проиндексирована.
Будьте осторожны: файл robots.txt не обрабатывается одинаково во всех поисковых системах.
Для одних роботов преобладает первая директива, для других роботов — наиболее конкретные директивы.
Примеры:
Исключение всех страниц для всех поисковых систем / сканеров:
User-Agent: *
Disallow: /
Весь веб-сайт должен индексироваться:
User-Agent: *
Allow: /
Исключение робота Gigabot:
User-Agent: Gigabot
Disallow: /
User-Agent: *
Allow: /
Исключение каталога:
User-Agent: *
Disallow: / directory /
Excluding все страницы, начинающиеся с «car» (страница «car-low-cost» запрещена для сканирования):
User-Agent: *
Disallow: / car
Исключая страницу «car» («car-low» -cost «страница разрешена для сканирования):
User-Agent: *
Disallow: / car $
Free Robots.Инструмент генератора txt — LinkGraph
Генератор Robots.txt позволяет выбирать определенные URL-адреса в сети страниц вашего веб-сайта и, в первую очередь, предотвращать их сканирование.
Вы также можете использовать файл robots.txt, чтобы выборочно разрешить сканирование ваших страниц — изменив протокол исключения роботов, чтобы разрешить или запретить ботам Google или другим ботам, разработанным Bing, Яндексом или Yahoo, сканировать или индексировать определенные страницы.
Следует отметить, что файлы Robots.txt — это не то же самое, что директива NoIndex.Robots.txt может отказать определенному боту (или всем ботам) сканировать части вашего веб-сайта, но эти страницы все равно могут индексироваться поисковыми системами.
NoIndex используется непосредственно для размещения звездочки на выбранных страницах, которая указывает поисковым системам не добавлять эти страницы в результаты поиска. Вы можете установить NoIndex с помощью инструментов wp-admin и предотвратить индексацию страниц, которые все еще находятся в разработке, страниц входа для сотрудников или страниц, которые вы используете для тестирования новых плагинов перед развертыванием функций в вашем основном контенте.
Файлы Robots.txt вместо этого используются для задания задержки сканирования или предоставления других инструкций о том, как робот Google и его конкуренты должны сканировать ваш сайт для максимального воздействия на SEO. Файл robots.txt — это то, что большинство новых пользователей WordPress — более 600 каждый день — не настраивают изначально.
Новички в области администрирования WordPress обычно сосредоточены исключительно на ранжировании жизненно важных ключевых слов по всему сайту, разработке критических методов SEO и добавлении плагинов для улучшения пользовательского опыта в процессе их создания, чтобы запускать, а не оттачивать свой контент.Однако по мере того, как ваш корневой каталог начинает пополняться новыми сообщениями и страницами, становится все более важным поддерживать контроль над тем, как роботы Bing или Google рассматривают содержимое ваших умножающихся папок, изображений, плагинов и сообщений.
Здесь вступают в игру расширенные директивы, такие как мета-теги роботов и функции задержки сканирования. По мере увеличения объема загрузок возрастает и важность дополнительных средств контроля над страницами вашего сайта с помощью директив, направленных на максимальное увеличение бюджета сканирования.Здесь на сцену выходит совместное использование генератора и валидатора robots.txt.
БЕСПЛАТНЫЙ онлайн-инструмент, 100% точность [2021]
Что такое средство проверки и проверки Robots.txt?
Инструмент проверки Robots.txt предназначен для проверки того, что ваш файл robots.txt является точным и не содержит ошибок. Robots.txt — это файл, который является частью вашего веб-сайта и который предоставляет правила индексации для роботов поисковых систем, чтобы обеспечить правильное сканирование (и индексирование) вашего веб-сайта, а также то, что наиболее важные данные на вашем веб-сайте индексируются в первую очередь.Этот инструмент прост в использовании и предоставляет отчет за секунды — просто введите полный URL-адрес своего веб-сайта, затем /robots.txt (например, yourwebsite.com/robots.txt) и нажмите кнопку «Проверить». Наша программа проверки robots.txt обнаружит любые ошибки (например, опечатки, синтаксические и «логические» ошибки) и даст вам советы по оптимизации файла robots.txt.
Почему мне нужно проверять мой файл Robots.txt?
Проблемы с файлом robots.txt — или отсутствие файла robots.txt — могут негативно повлиять на ваши показатели SEO, ваш сайт может не так хорошо ранжироваться на страницах результатов поисковых систем (SERP).Это связано с риском сканирования нерелевантного контента до или вместо важного контента.Проверка файла перед сканированием вашего веб-сайта означает, что вы можете избежать таких проблем, как сканирование и индексирование всего содержимого вашего веб-сайта, а не только страниц, которые вы хотите проиндексировать. Например, если у вас есть страница, к которой вы хотите, чтобы посетители открывали доступ только после заполнения формы подписки, или страницу входа участника, но не исключите ее из файла robot.txt, она может быть проиндексирована.
Что означают ошибки и предупреждения?
Существует ряд ошибок, которые могут повлиять на ваш файл robots.txt, а также некоторые «рекомендуемые» предупреждения, которые вы можете увидеть при проверке файла. Это вещи, которые могут повлиять на ваше SEO и должны быть исправлены. Предупреждения менее важны и служат советом по улучшению файла robots.txt.Ошибки, которые вы можете увидеть, включают:
Недействительный URL-адрес — Вы увидите эту ошибку, если ваш файл robots.txt полностью отсутствует
Возможная ошибка с подстановочными знаками — Хотя технически это предупреждение, а не ошибка, если вы видите это сообщение обычно потому, что ваш файл robots.txt файл содержит подстановочный знак (*) в поле Disallow (например, Disallow: /*.rss). Это рекомендуемая практика — Google разрешает использование подстановочных знаков в поле Disallow, но это не рекомендуется.
Общие и определенные пользовательские агенты в одном блоке кода — это синтаксическая ошибка в вашем файле robots.txt, и ее следует исправить, чтобы избежать проблем со сканированием вашего веб-сайта.
Предупреждения, которые вы можете увидеть, включают:
Разрешить: / — Использование разрешающего порядка не повлияет на ваш рейтинг или не повлияет на ваш сайт, но это не стандартная практика.Основные роботы, включая Google и Bing, будут принимать эту директиву, но не все сканеры — и, вообще говоря, лучше всего сделать ваш файл robots.txt совместимым со всеми сканерами, а не только с большими.
Использование заглавных букв в имени поля — Хотя имена полей не обязательно чувствительны к регистру, некоторые сканеры могут требовать использования заглавных букв, поэтому рекомендуется использовать заглавные буквы в именах полей для определенных пользовательских агентов. сведения о карте сайта для веб-сайта, но это не считается оптимальной практикой.Однако и Google, и Bing поддерживают эту функцию.
Как исправить ошибки в моем файле Robots.txt?
Исправление ошибок в файле robots.txt зависит от используемой платформы. Если вы используете WordPress, рекомендуется использовать такой плагин, как WordPress Robots.txt Optimization или Robots.txt Editor. Если вы подключите свой веб-сайт к консоли поиска Google, вы также сможете редактировать там файл robots.