Индексация страницы: Sorry, this page can’t be found. - Блог сумасшедшего сисадмина

Содержание

Что такое индексация сайта (Как улучшить индексацию в Google)

Индексация сайта — это процесс сбора информации поисковой системой о содержимом вашего сайта. Во время индексации поисковые роботы (пауки) сканирую и обрабатывают web страницы, изображения, видео и другие доступные для сканирования файлы. Чтобы поисковая система быстро проиндексировала сайт: создайте карту сайта и добавьте ее в Google Search Console.

Сайт должен быть проиндексирован чтобы отображаться в поиске

Страницы, которые прошли сканирование и обработку, сохраняются в базу данных. Такая база называется «поисковой индекс». Именно в этой базе данных поисковая система ищет результаты, отвечающие на запросы пользователей.

Важно понимать:
Если страницы нет в поисковом индексе — ее невозможно найти в поисковой системе.
Индексация нужна чтобы участвовать в поиске.
У каждой поисковой системы свой поисковой индекс, свои поисковые боты.
Поисковой бот от Google называется Googlebot.
Настройка индексации сайта, это базовый уровень работ по SEO.

Содержание статьи

Как проверить индексацию страницы?

Самый быстрый способ — написать в строку поиска команду site:[адрес страницы]. Такой поиск найдет все проиндексированные страницы сайта. Для того, чтобы просмотреть дату последнего сканирования страницы, напишите в строку поиска cache:[адрес проверяемой страницы]. Если вам нужно проверить индексацию конкретной страницы просто скопируйте ее адрес и введи в поиск запрос site:[адрес страницы]. Этот метод будет работать как в Google так и в Yandex или Bing.

Совет: Сравните количество проиндексированных страниц с реальным количеством страниц на сайте. Это поможет быстро оценить есть ли у вашего сайта проблемы с индексацией. К примеру: если на сайте 100 товаров, 10 разделов и 10 информационных страниц (в сумме 120), а в индексе только 50 страниц, это означает, что поисковая система не знает о большей части вашего сайта.

Как проверить индексацию всего сайта

Для проверки индексации сайта нужно выполнить 2 простых шага:

Узнать сколько страниц на сайте. Для этого просканируйте свой сайт специальными инструментами. Если ваш сайт до 500 страниц вам подойдет бесплатная версия Screaming Frog , если этого недостаточно используйте, бесплатный Site Analyzer. В разделе «HTML» вы увидите общее количество страниц вашего сайта.
Зайдите в инструменты для вебмастеров или Google Search Console (Что такое Google Search Consol ) откройте отчет «Покрытие» и просмотрите количество страниц в статусе «Без ошибок». Количество страниц в сканере Site Analyzer и страниц в Google Search Console должно приблизительно совпадать. Это, будет означать, что основные страницы сайта сканируются. Если часть страниц попала в группу «Исключено» вы можете изучить причины исключения страниц. В этом же отчете вы можете познакомиться с историей индексации вашего сайта за последние 3, 6 или 12 месяцев.
Довольно часто в отчете «Покрытие» вы можете увидеть большое количество страниц в статусе «Страница просканирована, но пока не проиндексирована» — это означает, что поисковая система уже получила данные о ваших страницах но пока не обработала их до конца. Так же, страницы могут находиться в этом статусе по причине низкого качества: пустые страницы или страницы с повторяющимся содержанием. Если количество «пока не проиндексированных» страниц не сокращается попробуйте уникализировать, добавить содержание или увеличить количество качественных внешних ссылок на свой сайт.
Если вам нужно массово проверить индексацию страниц вашего сайта, воспользуйтесь онлайн инструментом https://indexchecking.com
Хорошая идея проверить свой сайт с помощью инструментов https://en.ryte.com — это поможет вам понять какие страницы закрыты от индексации. А так же, обнаружить страницы на которых есть технические проблемы.

Проверяем не закрыта ли отдельная страница от индексации

Если перед вами появилась задача, проверить запрет индексации конкретной страницы проще всего использовать инструменты для вебмастеров. Скопируйте адрес страницы которую вы хотите проверить и вставьте в инструмент «Проверка URL на ресурсе».

В результате проверки вы получите информацию о запретах индексации. Обратите внимание на информацию о запретах, статусе страницы и канонический адрес.

Как добавить новый сайт в индекс поисковиков?

Сообщите поисковой системе о своем сайте в специальном инструменте Google или Yandex. Поделитесь своим сайтом в социальной сети или создайте на него ссылку с другого, уже проиндексированного сайта.

Узнайте больше о работе поисковой системы

Что делать, если сайт плохо индексируется?

Прежде всего нужно проверить не закрыт ли сайт от индексации. Это можно сделать по инструкции в этой статье чуть выше. Основные способы улучшить индексацию:

Создайте карту сайта и загрузите в инструменты для вебмастеров.
Обновите старые страницы.
Удалите пустые страницы.
Поставьте дополнительные ссылки на сайт с сторонних сайтов и соц. сетей.

Как происходит индексация сайта

Для решения проблем нужно разобраться в процессе индексации подробнее. С технической точки зрения “индексацию сайта” правильнее рассматривать как два отдельных процесса:

Сканирование страниц.
Обработка страниц.

Этап 1: Сканирование

Сканирование или “обход” страниц — это основная задача, которую выполняет поисковой бот. Попадая на новую страницу, бот получает со страницы два набора данных:

Содержание самой страницы, информацию о сервере и служебные данные. А именно: ответ сервера, html код страницы, файлы css стилей, скриптов, изображений.
Перечень ссылок, которые находятся на странице.

Когда бот добавляет в очередь индексации страницу, которая уже есть в очереди, эта страница занимает более высокое место в списке и индексируется быстрее. А это значит, что первый способ ускорить сканирование сайта — увеличить количество ссылок на нужные страницы.

Создавая очередь сканирования, google bot, как и другие поисковые боты, изучает карту сайта sitemap и добавляет в очередь ссылки из этой карты. Второй способ улучшить индексацию — создать карту сайта sitemap.xml и сообщить о ней поисковой системе. Карта сайта — самый простой способ отправить на индексацию все страницы в рамках нашего домена.

Есть несколько способов создать карту сайта:

Бесплатный онлайн инструмент для сайтов до 500 страниц www.xml-sitemaps.com.
Программа для сканирования сайта, с возможностью создания sitemap — xenu links.
Библиотека приложений для создания sitemap.
Самый популярный плагин для создания карты сайта для WordPress.

Чтобы Google узнал о вашем sitemap, нужно добавить ссылку на карту сайта в инструментах search console или файле robots.txt

Добавление карты сайта в Search Console:

Зайдите в https://search.google.com/search-console/
Добавьте свой сайт или выберите из списка.
Перейдите в раздел Сканирование — Файлы Sitemap.

Выберите “добавить файл sitemap”, вставьте ссылку и добавьте карту сайта.

Добавление sitemap в robots.txt:

Зайдите в корневой каталог сайта через ftp.
Откройте файл robots.txt
Добавьте в конец файла строку “Sitemap: [адрес сайта]/sitemap.xml” и сохраните файл.

Инструмент проверки заголовка lastmod и ответа сервера not modify.

Наличие настроек lastmod и not modify позволяют поисковой системе быстро получить информацию о том, изменилась ли страница с даты последнего сканирования. Благодаря этому поисковой бот ставит в приоритет новые и измененные страницы, а новые страницы быстрее индексируются.

Для настройки lastmod и not modify вам нужно будет обратиться к веб разработчику.

Этап 2: Обработка данных

Перед тем как сохранить информацию в базу данных, она проходит обработку и структуризацию, которая необходима для ускорения дальнейшего поиска.

В первом шаге обработки программа-индексатор формирует страницу с учетом всех стилей, скриптов и эффектов. В этот момент программа-индексатор понимает расположение элементов на странице, определяет видимые и невидимые пользователю части, разделяет страницу на навигацию и содержание.

Важно чтобы google bot имел полный доступ к css и js файлам, ведь без них индексатор не сможет понять структуру страницы. Для проверки доступности всех служебных файлов зайдите в Google Search Console, отчет “Посмотреть как Googlebot” в разделе “Сканирование”. Проверьте с помощью этого инструмента основные страницы сайта, обратите внимание на различия между тем, как вашу страницу видит поисковой бот и как ее видит пользователи. Изучите таблицу из отчета. Все ресурсы, которые размещены на вашем домене, должны быть открыты для сканирования.
Сейчас Google использует алгоритм индексации, который называется
Caffeine. Он был запущен в 2009 году. Основные задачи этого алгоритма:
Обработка современных страниц, использующих сложные js и css элементы.
Максимально быстрое сканирование всех страниц в Интернете.

Анализ текста при индексации

После разделения страницы на зоны и определения их важности, алгоритм выделяет из содержания основные элементы для дальнейших расчетов. Так одним из самых популярных показателей, которые поисковая система извлекает из страницы, является частота упоминания ключевого слова.

Стоит отметить, что перед расчетом частоты упоминания слова, индексатор проводит упрощение слов к элементарной форме. Этот процесс называется стеминг. Такое упрощение позволяет учитывать слово в разных словоформах как одно слово.

Частота упоминания (Term frecency, ТА) слова рассчитывается как отношение упоминания слова к общему количеству слов страницы. Пример: если на странице 100 слов и слово “машина” встречалось на ней 2 раза — частота упоминания слова “машина” будет равна TF=0,02

Самый простой поисковой индекс легко представить в виде огромной таблицы, в столбцах которой перечислены все слова языка, а в строках — адреса всех страниц. При этом в ячейках указаны частоты слов на соответствующих страницах.

Именно такая таблица позволяет поисковой системе быстро находить страницы, которые содержат нужные слова. Конечно современные поисковые системы учитывают не только частоту упоминания слов, но и более сложные факторы. Поисковой индекс Google значительно сложнее чем приведенный пример.

Анализируя содержание поисковая система проверяет уникальность страницы. Тексты и прочее содержание, которое уже было проиндексировано на других страницах, не несет ценности для системы, так как не добавляет в базу новой информации. А это значит, что страницы с низкой уникальностью могут быть не проиндексированы. Проверить уникальность достаточно просто с помощью бесплатных инструментов.
Старайтесь создавать максимально уникальный и полезный контент и он точно будет проиндексирован.

От чего зависит индексация сайта?

Доступность сайта для индексации — если сканирование сайта запрещено поисковая система не сможет получить его страницы. Подробнее о инструментах управления индексацией: youtube.com Внутренняя оптимизация: robots.txt, sitemap
Количество ссылок на ваш сайт — ссылки, это пути которые приводят поисковых роботов к вам на сайт. Чем больше ссылок с популярных ресурсов вы получаете, тем чаще будут сканироваться страницы вашего сайта.
Частота обновления сайта. Поисковые системы всегда ищут новый интересный контент, чем чаще вы публикуете новое уникальное содержание, тем быстрее поисковая система будет его сканировать.
Наличие сайта в инструментах поисковых систем. Видео в тему: Как зарегистрировать сайт в Google Search Console.

Подведем итоги

Индексация — это процесс сканирования и обработки содержания для хранения в базе данных поисковой системы.
Ускорить индексацию можно с помощью ссылок, карты сайта и настроек сервера.
Чтобы поисковая система понимала ваши страницы, все ресурсы вашего сайта должны быть доступны поисковому боту.

Мы можем проверить и настроить индексацию вашего сайта за вас.

SEO аудит с рекомендациями за 10 дней.

Надеюсь у вас больше не возникнет вопрос: “Что такое индексация сайта”.

Руководитель отдела продвижения SEO7. Ведущий Youtube канала Школа SEO. Автор блога о поисковой оптимизации seo-sign.com

Какие страницы сайта следует закрывать от индексации поисковых систем

Индексирование сайта – это процесс, с помощью которого поисковые системы, подобные Google и Yandex, анализируют страницы веб-ресурса и вносят их в свою базу данных. Индексация выполняется специальным ботом, который заносит всю необходимую информацию о сайте в систему – веб-страницы, картинки, видеофайлы, текстовый контент и прочее. Корректное индексирование сайта помогает потенциальным клиентам легко найти нужный сайт в поисковой выдаче, поэтому важно знать обо всех тонкостях данного процесса.

В сегодняшней статье я рассмотрю, как правильно настроить индексацию, какие страницы нужно открывать для роботов, а какие нет.

Почему важно ограничивать индексацию страниц

Заинтересованность в индексации есть не только у собственника веб-ресурса, но и у поисковой системы – ей необходимо предоставить релевантную и, главное, ценную информацию для пользователя. Чтобы удовлетворить обе стороны, требуется проиндексировать только те страницы, которые будут интересны и целевой аудитории, и поисковику.

Прежде чем переходить к списку ненужных страниц для индексации, давайте рассмотрим причины, из-за которых стоит запрещать их выдачу. Вот некоторые из них:

Уникальность контента – важно, чтобы вся информация, передаваемая поисковой системе, была неповторима. При соблюдении данного критерия выдача может заметно вырасти. В противном случае поисковик будет сначала искать первоисточник – только он сможет получить доверие.
Краулинговый бюджет – лимит, выделяемый сайту на сканирование. Другими словами, это количество страниц, которое выделяется каждому ресурсу для индексации. Такое число обычно определяется для каждого сайта индивидуально. Для лучшей выдачи рекомендуется избавиться от ненужных страниц.

В краулинговый бюджет входят: взломанные страницы, файлы CSS и JS, дубли, цепочки редиректов, страницы со спамом и прочее.

Что нужно скрывать от поисковиков

В первую очередь стоит ограничить индексирование всего сайта, который еще находится на стадии разработки. Именно так можно уберечь базу данных поисковых систем от некорректной информации. Если ваш веб-ресурс давно функционирует, но вы не знаете, какой контент стоит исключить из поисковой выдачи, то рекомендуем ознакомиться с нижеуказанными инструкциями.

PDF и прочие документы

Часто на сайтах выкладываются различные документы, относящиеся к контенту определенной страницы (такие файлы могут содержать и важную информацию, например, политику конфиденциальности).

Рекомендуется отслеживать поисковую выдачу: если заголовки PDF-файлов отображаются выше в рейтинге, чем страницы со схожим запросом, то их лучше скрыть, чтобы открыть доступ к наиболее релевантной информации. Отключить индексацию PDF и других документов вы можете в файле robots.txt.

Разрабатываемые страницы

Стоит всегда избегать индексации разрабатываемых страниц, чтобы рейтинг сайта не снизился. Используйте только те страницы, которые оптимизированы и наполнены уникальным контентом. Настроить их отображение можно в файле robots.txt.

Копии сайта

Если вам потребовалось создать копию веб-ресурса, то в этом случае также необходимо все правильно настроить. В первую очередь укажите корректное зеркало с помощью 301 редиректа. Это позволит оставить прежний рейтинг у исходного сайта: поисковая система будет понимать, где оригинал, а где копия. Если же вы решитесь использовать копию как оригинал, то делать это не рекомендуется, так как возраст сайта будет обнулен, а вместе с ним и вся репутация.

Веб-страницы для печати

Иногда контент сайта требует уникальных функций, которые могут быть полезны для клиентов. Одной из таких является «Печать», позволяющая распечатать необходимые страницы на принтере. Создание такой версии страницы выполняется через дублирование, поэтому поисковые роботы могут с легкостью установить копию как приоритетную. Чтобы правильно оптимизировать такой контент, необходимо отключить индексацию веб-страниц для печати. Сделать это можно с использованием AJAX, метатегом <meta name=»robots» content=»noindex, follow»/> либо в файле robots.txt.

Формы и прочие элементы сайта

Большинство сайтов сейчас невозможно представить без таких элементов, как личный кабинет, корзина пользователя, форма обратной связи или регистрации. Несомненно, это важная часть структуры веб-ресурса, но в то же время она совсем бесполезна для поисковых запросов. Подобные типы страниц необходимо скрывать от любых поисковиков.

Страницы служебного пользования

Формы авторизации в панель управления и другие страницы, используемые администратором сайта, не несут никакой важной информации для обычного пользователя. Поэтому все служебные страницы следует исключить из индексации.

Личные данные пользователя

Вся персональная информация должна быть надежно защищена – позаботиться о ее исключении из поисковой выдачи нужно незамедлительно. Это относится к данным о платежах, контактам и прочей информации, идентифицирующей конкретного пользователя.

Страницы с результатами поиска по сайту

Как и в случае со страницами, содержащими личные данные пользователей, индексация такого контента не нужна: веб-страницы результатов полезны для клиента, но не для поисковых систем, так как содержат неуникальное содержание.

Сортировочные страницы

Контент на таких веб-страницах обычно дублируется, хоть и частично. Однако индексация таких страниц посчитается поисковыми системами как дублирование. Чтобы снизить риск возникновения таких проблем, рекомендуется отказаться от подобного контента в поисковой выдаче.

Пагинация на сайте

Пагинация – без нее сложно представить существование любого крупного веб-сайта. Чтобы понять ее назначение, приведу небольшой пример: до появления типичных книг использовались свитки, на которых прописывался текст. Прочитать его можно было путем развертывания (что не очень удобно). На таком длинном холсте сложно найти нужную информацию, нежели в обычной книге. Без использования пагинации отыскать подходящий раздел или товар также проблематично.

Пагинация позволяет разделить большой массив данных на отдельные страницы для удобства использования. Отключать индексирование для такого типа контента нежелательно, требуется только настроить атрибуты rel=»canonical», rel=»prev» и rel=»next». Для Google нужно указать, какие параметры разбивают страницы – сделать это можно в Google Search Console в разделе «Параметры URL».

Помимо всего вышесказанного, рекомендуется закрывать такие типы страниц, как лендинги для контекстной рекламы, страницы с результатами поиска по сайту и поиск по сайту в целом, страницы с UTM-метками.

Какие страницы нужно индексировать

Ограничение страниц для поисковых систем зачастую становится проблемой – владельцы сайтов начинают с этим затягивать или случайно перекрывают важный контент. Чтобы избежать таких ошибок, рекомендуем ознакомиться с нижеуказанным списком страниц, которые нужно оставлять во время настройки индексации сайта.

В некоторых случаях могут появляться страницы-дубликаты. Часто это связано со случайным созданием дублирующих категорий, привязкой товаров к нескольким категориям и их доступность по различным ссылкам. Для такого контента не нужно сразу же бежать и отключать индексацию: сначала проанализируйте каждую страницу и посмотрите, какой объем трафика был получен. И только после этого настройте 301 редиректы с непопулярных страниц на популярные, затем удалите те, которые совсем не эффективны.
Страницы смарт-фильтра – благодаря им можно увеличить трафик за счет низкочастотных запросов. Важно, чтобы были правильно настроены мета-теги, 404 ошибки для пустых веб-страниц и карта сайта.

Соблюдение индексации таких страниц может значительно улучшить поисковую выдачу, если ранее оптимизация не проводилась.

Как закрыть страницы от индексации

Мы детально рассмотрели список всех страниц, которые следует закрывать от поисковых роботов, но о том, как это сделать, прошлись лишь вскользь – давайте это исправлять. Выполнить это можно несколькими способами: с помощью файла robots.txt, добавления специальных метатегов, кода, сервисов для вебмастеров, а также с использованием дополнительных плагинов. Рассмотрим каждый метод более детально.

Способ 1: Файл robots.txt

Данный текстовый документ – это файл, который первым делом посещают поисковики. Он предоставляет им информацию о том, какие страницы и файлы на сайте можно обрабатывать, а какие нет. Его основная функция – сократить количество запросов к сайту и снизить на него нагрузку. Он должен удовлетворять следующим критериям:

наименование прописано в нижнем регистре;
формат указан как .txt;
размер не должен превышать 500 Кб;
местоположение – корень сайта;
находится по адресу URL/robots.txt, при запросе сервер отправляет в ответ код 200.

Прежде чем переходить к редактированию файла, рекомендую обратить внимание на ограничивающие факторы.

Директивы robots.txt поддерживаются не всеми поисковыми системами. Большинство поисковых роботов следуют тому, что написано в данном файле, но не всегда придерживаются правил. Чтобы полностью скрыть информацию от поисковиков, рекомендуется воспользоваться другими способами.
Синтаксис может интерпретироваться по-разному в зависимости от поисковой системы. Потребуется узнать о синтаксисе в правилах конкретного поисковика.
Запрещенные страницы в файле могут быть проиндексированы при наличии ссылок из прочих источников. По большей части это относится к Google – несмотря на блокировку указанных страниц, он все равно может найти их на других сайтах и добавить в выдачу. Отсюда вытекает то, что запреты в robots.txt не исключают появление URL и другой информации, например, ссылок. Решить это можно защитой файлов на сервере при помощи пароля либо директивы noindex в метатеге.

Файл robots.txt включает в себя такие параметры, как:

User-agent – создает указание конкретному роботу.
Disallow – дает рекомендацию, какую именно информацию не стоит сканировать.
Allow – аналогичен предыдущему параметру, но в обратную сторону.
Sitemap – позволяет указать расположение карты сайта sitemap.xml. Поисковый робот может узнать о наличии карты и начать ее индексировать.
Clean-param – позволяет убрать из индекса страницы с динамическими параметрами. Подобные страницы могут отдавать одинаковое содержимое, имея различные URL-страницы.
Crawl-delay – снижает нагрузку на сервер в том случае, если посещаемость поисковых ботов слишком велика. Обычно используется на сайтах с большим количеством страниц.

Теперь давайте рассмотрим, как можно отключить индексацию определенных страниц или всего сайта. Все пути в примерах – условные.

Пропишите, чтобы исключить индексацию сайта для всех роботов:


User-agent: *

Disallow: /

Закрывает все поисковики, кроме одного:


User-agent: *

Disallow: /

User-agent: Google

Allow: /

Запрет на индексацию одной страницы:


User-agent: *

Disallow: /page.html

Закрыть раздел:


User-agent: *

Disallow: /category

Все разделы, кроме одного:


User-agent: *

Disallow: /

Allow: /category

Все директории, кроме нужной поддиректории:


User-agent: *

Disallow: /direct

Allow: /direct/subdirect

Скрыть директорию, кроме указанного файла:


User-agent: *

Disallow: /category

Allow: photo.png

Заблокировать UTM-метки:


User-agent: *

Disallow: *utm=

Заблокировать скрипты:


User-agent: * 

Disallow: /scripts/*.js

Я рассмотрел один из главных файлов, просматриваемых поисковыми роботами. Он использует лишь рекомендации, и не все правила могут быть корректно восприняты.

Способ 2: HTML-код

Отключение индексации можно осуществить также с помощью метатегов в блоке <head>. Обратите внимание на атрибут «content», он позволяет:

активировать индексацию всей страницы;
деактивировать индексацию всей страницы, кроме ссылок;
разрешить индексацию ссылок;
индексировать страницу, но запрещать ссылки;
полностью индексировать веб-страницу.

Чтобы указать поискового робота, необходимо изменить атрибут «name», где устанавливается значение yandex для Яндекса и googlebot – для Гугла.

Пример запрета индексации всей страницы и ссылок для Google:


<html>

    <head>

        <meta name="googlebot" content="noindex, nofollow" />

    </head>

    <body>...</body>

</html>

Также существует метатег под названием Meta Refresh. Он предотвращает индексацию в Гугле, однако использовать его не рекомендуется.

Способ 3: На стороне сервера

Если поисковые системы игнорируют запрет на индексацию, можно ограничить возможность посещения ботов-поисковиков на сервере.Yandex» search_bot

Способ 4: Для WordPress

На CMS запретить индексирование всего сайта или страницы гораздо проще. Рассмотрим, как это можно сделать.

Как скрыть весь сайт

Открываем административную панель WordPress и переходим в раздел «Настройки» через левое меню. Затем перемещаемся в «Чтение» – там находим пункт «Попросить поисковые системы не индексировать сайт» и отмечаем его галочкой.

В завершение кликаем по кнопке «Сохранить изменения» – после этого система автоматически отредактирует файл robots.txt.

Как скрыть отдельную страницу

Для этого необходимо установить плагин Yoast SEO. После этого открыть страницу для редактирования и промотать в самый низ – там во вкладке «Дополнительно» указать значение «Нет».

Способ 5: Сервисы для вебмастеров

В Google Search Console мы можем убрать определенную страницу из поисковика. Для этого достаточно перейти в раздел «Индекс Google» и удалить выбранный URL.

Процедура запрета на индексацию выбранной страницы может занять некоторое время. Аналогичные действия можно совершить в Яндекс.Вебмастере.

На этом статья подходит к концу. Надеюсь, что она была полезной. Теперь вы знаете, что такое индексация сайта и как ее правильно настроить. Удачи!

Принципы работы Google Поиска | Сканирование и индексирование

Чтобы пользователи могли быстро найти нужные сведения, наши роботы собирают информацию на сотнях миллиардов страниц и упорядочивают ее в поисковом индексе.

При очередном сканировании наряду со списком веб-адресов, полученных во время предыдущего сканирования, используются файлы Sitemap, которые предоставляются владельцами сайтов. По мере посещения сайтов робот переходит по указанным на них ссылкам на другие страницы. Особое внимание он уделяет новым и измененным сайтам, а также неработающим ссылкам. Он самостоятельно определяет, какие сайты сканировать, как часто это нужно делать и какое количество страниц следует выбрать на каждом из них.

При помощи Search Console владельцы сайтов могут указывать, как именно следует сканировать их ресурсы, в частности предоставлять подробные инструкции по обработке страниц, запрашивать их повторное сканирование, а также запрещать сканирование, используя файл robots.txt. Google не увеличивает частоту сканирования отдельных ресурсов за плату. Чтобы результаты поиска были максимально полезными для пользователей, все владельцы сайтов получают одни и те же инструменты.

Поиск информации с помощью сканирования

Интернет похож на библиотеку, которая содержит миллиарды изданий и постоянно пополняется, но не располагает централизованной системой учета книг. Чтобы находить общедоступные страницы, мы используем специальное программное обеспечение, называемое поисковыми роботами. Роботы анализируют страницы и переходят по ссылкам на них – как обычные пользователи. После этого они отправляют сведения о ресурсах на серверы Google.

Систематизация информации с помощью индексирования

Во время сканирования наши системы обрабатывают материалы страниц так же, как это делают браузеры, и регистрируют данные по ключевым словам и новизне контента, а затем создают на их основе поисковый индекс.

Индекс Google Поиска содержит сотни миллиардов страниц. Его объем значительно превышает 100 миллионов гигабайт. Он похож на указатель в конце книги, в котором есть отдельная запись для каждого слова на всех проиндексированных страницах. Во время индексирования данные о странице добавляются в записи по всем словам, которые на ней есть.

Как узнать правильную дату индексации страницы?

В процессе сканирования сайта поисковыми системами можно выделить четыре ключевые даты для страниц:

Дата первой индексации, она определяет возраст страницы.
Дата последнего обхода поисковым роботом.
Дата последней индексации страницы, которая выложена в индекс.
Дата формирования сохраненной копии страницы (не всегда совпадает с датой индексации страницы при построении индекса).

Первая дата обхода

Два метода получения даты первой индексации страницы перестали работать:

оператор date работает некорректно;
добавление к строке запроса параметра &how=tm перестало отображать даты индексации.

Дата обхода поисковым роботом и статуса в поисковой базе

Чтобы узнать дату последнего обхода страницы и информацию о том, какая версия находится при построении поисковой выдачи, необходимо в сервисе Яндекс.Вебмастер в разделе «Индексирование» выбрать «Проверить статус URL». Далее указываем необходимый адрес и получаем данные. Этот способ работает лишь для подтвержденного сайта.

Дата формирования сохраненной копии

Чтобы узнать дату формирования сохраненной копии, необходимо в поисковой выдаче кликнуть на выпадающее меню (рядом с название адреса страницы).

Просмотр сохраненных копий в поисковых системах Bing и Mail позволит показать старые версии страниц, поскольку они переиндексируют их медленнее, чем поисковые роботы Яндекс и Google.

Вывод

Как показано на примере выше, не всегда сохраненная копия страницы используется для построения базы индекса. Но, зачастую, это действительно так.
Кроме того, если вы внесли какие-либо правки на странице и ждете, когда эти изменения переиндексируются, то не стоит делать вывод о том, что правки учтены, по дате последнего обхода поисковым роботом.

#104

Февраль’19 1229 21

#94

Декабрь’18 3064 28

#60

Февраль’18 3751 19

Что такое индексация — самый полный гайд

Часто происходит путаница в терминологии: под индексацией иногда подразумевают сканирование сайта или совокупность и сканирования и индексации. В этом нет большой ошибки, часто путаницу вносят сами мануалы поисковых систем. Иногда в текстах Яндекса и Гугла можно увидеть использование термина индексация в разных контекстах, например:

Индексация сайта простыми словами

Так что же такое индексация: если кратко, то индексация (или индексирование, indexing) – один из процессов работы поисковых систем по построению поисковой базы в результате которого содержимое страниц попадает в индекс поисковой системы.

Для большей ясности приведу терминологию, а потом опишу все процессы.

Терминология

Планировщик (Scheduler) – программа, которая выстраивает маршрут обхода интернета роботами исходя из характеристик страниц, таких как частота обновления документов, востребованность этих страниц, цитируемость.

Crawler, Spider (Паук) Googlebot, YandexBot. Робот, ответственный за обход и скачивание страниц из интернета в порядке очередности, который задается планировщиком. Подразделяются на:

Основной робот, обходящий контент в порядке общей очереди.
Быстрый робот (быстроробот или быстробот). Робот, который использует свежий индекс, на основе группы заданных хабовых страниц с важной, часто обновляемой информацией, например, с новостями популярных СМИ.

Сканирование (Crawling) – процесс загрузки страниц краулером в результате чего они попадают в хранилище, в виде сохраненных копий.

Краулинговый спрос: это то, как часто и в каком объеме робот бы хотел сканировать конкретные страницы.

Краулинговый лимит: ограничения скорости сканирования на стороне сайта, связанные с производительностью сайта или заданным вручную ограничением.

Краулинговый бюджет – это совокупность краулингового спроса и доступной скорости сканирования сайта (краулингового лимита). Простыми словами – это то сколько робот хочет и может скачать страниц.

Сохраненная копия – необработанная копия документа на момент последнего сканирования.

Поисковый индекс – информация со страниц, приведенная в удобный для работы поисковых алгоритмов формат. Список всех терминов и словопозиций где и на каких страницах они упоминаются. Информация хранится в базе в виде инвертированного индекса. Схематический пример:

Индексация – процесс загрузки, анализа содержимого документа документа с последующим включением в поисковый индекс.

Поисковая база – это совокупность поискового индекса, сохраненных страниц и служебной информации о документах, таких как заголовки, типы и кодировка документов, коды ответов страниц, мета теги и др.

Как происходит сканирование сайта

Так как ресурсы поисковых систем не безграничны, планировщик составляет очередь обхода страниц, исходя критериев их полезности, востребованности, популярности и др. Каждый сайт получает свой краулинговый бюджет исходя из скоростных характеристик сайта и таких критериев как:

Доля полезных/мусорных страниц на сайте, дубликаты
Спамные и малополезные страницы
Наличие бесконечной генерации страниц, например, некорректной фасетной навигации
Популярность страниц
Насколько актуальные версии страниц сайта, содержащиеся в поисковой базе

Как проходит индексация сайта

Индексацию можно условно разбить на следующие процессы:

Загрузка и разбор страницы по элементам: текст, мета-теги, микроразметка, изображения, видео и другой контент и служебные данные.
Анализ страницы по определенным параметрам, например: разрешена ли она к индексации, сканированию, является ли неглавной копией другой страницы, содержит ли страница малополезный, спамный контент и др.
Если страница успешно прошла все проверки, она добавляется в индекс.

Как проходит индексация сайта в Яндексе

Все описанное в предыдущем пункте справедливо и для Яндекса и для Google. Какие есть особенности индексации у Яндекса?

У Google обновление поисковой базы – непрерывный процесс. В Яндексе обновление происходит во время Апдейтов, примерно раз в три дня. О том что произошло обновление можно узнать по уведомлениям в Яндекс.Вебмастере

Как проверить индексацию

Есть разные способы для проверки статуса индексации сайтов и отдельных его страниц:

Вебмастер Яндекса
Панель Google Search Console
API панели для вебмастеров Yandex/Google
SEO-сервисы, например Rush Analytics
Плагины и расширения для браузеров
Поисковые операторы ПС
GA/Метрика
Серверные логи

Как узнать сколько страниц проиндексировано на сайте

Расширения для браузера

Быстрые способы проверить статус индексации сайта – расширения и букмарклеты для браузера, например RDS-бар

Сервисы для анализа сайтов

Так же можно проверить с помощью сервисов, таких как pr-cy.ru

Яндекс.Вебмастер и Google Search Console

Если есть доступы к панелям вебмастеров, можно получить количество проиндексированных страниц в панелях вебмастеров:

Яндекс Вебмастер – http://webmaster.yandex.ru

Google Search Console – https://search.google.com/search-console/

С помощью специализированных программ для SEO, например Allsubmitter, Netpeak Checker.

Это может понадобиться когда нужна пакетная проверка параметров чужих сайтов.

Пример проверки числа проиндексированных страниц в Netpeak Checker.
Проверка индексации сайтов в Яндекс:

Проверка индексации сайтов в Google:

Пример проверки индексации сайтов в Яндекс и Google в Allsubmitter.

Как выгрузить список проиндексированных страниц сайта в Яндексе и Google

Яндекс Вебмастер: Отчет индексирование -> Страницы в поиске -> Все страницы

Внизу страницы ссылки на скачивание файла – cуществует ограничение в 50 000 страниц.

Google Search Console: в отчете Покрытие – выбираем нужные типы страниц

Переходим в нужный отчет и скачиваем список страниц в удобном формате. Google отдает только 1 000 страниц.

Поисковые операторы Яндекса

Запрос для поиска страниц в пределах одного домена – url:www.site.ru/* | url:site.ru/* | url:site.ru | url:www.site.ru.

Запрос для поиска с учетом всех поддоменов – site:site.ru

Список операторов и инструкцию по работе с ними можно посмотреть в справке Яндекса.

Ограничение: можно получить только 1000 результатов. Нужны специальные инструменты чтобы скопировать список страниц SERP: расширения браузера, букмарклеты или программы для парсинга выдачи.

Поисковые операторы Google

Запрос для поиска страниц в пределах одного сайта – site:site.ru

Получение списка страниц входа из систем веб-аналитики

Списки страниц входа из органики Яндекса в системах аналитики Яндекс.Метрика и Google.Analytics. Страницы по которым идут переходы с органической выдачи с большой вероятностью индексируются, но для точности рекомендуется проверять индексацию собранных страниц – индекс не статичен и страницы могут выпадать из индекса.

Список страниц по которым сайт показывается в выдаче в Яндекс.Вебмастере

Для выгрузки большого списка страниц из Яндекс.Вебмастера потребуется специальный скрипт.

Плагин для API Google Webmasters: Google Search Analytics for Sheets
Отображает страницы по которым были показы сайта в выдаче.

Преимущества выгрузки списка страниц через API в том что можно получить десятки тысяч страниц, которые с большой вероятностью проиндексированы, в отличие от веб-интерфейса где установлено ограничение по выгрузкам в 1000 страниц.

Серверные логи сайта

Получить список страниц которые посещает робот можно из логов, например с помощью программы SEO Log File Analyser от создателей Screaming Frog.

Как проверить индексацию конкретной страницы в Яндексе и Google

Сервис Яндекс.Вебмастер: Индексирование -> Проверить статус URL

Проверка с помощью оператора: пример запроса url:https://site.com/page/

Сервис Google Search Console: инструмент “Покрытие”

Нужно ввести в указанной на скрине строке поиска URL-адрес своего сайта и откроется отчет о статусе страницы.

Проверка с помощью оператора: пример запроса site:https://habr.com/ru/news/t/468361/

После отмены оператора info остался оператор site, но он выдает не всегда точные данные, можно сократить список результатов с помощью указания уникального текста проверяемой страницы.

Как массово проверить индексацию списка страниц

Для проверки можно использовать SEO-сервисы, например Rush Analytics.
Это позволяет массово проверить индексацию до десятков-сотен тысяч страниц

Как проверить разрешена индексация/сканирование страницы в Robots.txt

В Яндексе
Проверить доступна ли роботам страница или содержит запрет можно через. Инструменты -> Анализ robots.txt

В Google
Инструмент проверки файла robots.txt

Важно: если файл robots.txt отдает 404 ошибку, боты считают что разрешено сканирование всего сайта без ограничений. Если файл отдает ошибку 5хх, то Googlebot считает это полным запретом на сканирование сайта, но если ошибка отдается более 30 дней – считает что разрешено сканировать весь сайт без ограничений. Яндекс любые серверные ошибки считает отсутствием файла robots.txt и отсутствием ограничений на обход и индексацию сайта.

Как узнать динамику числа проиндексированных страниц

С помощью специализированных сервисов, например: https://be1.ru/

С помощью Яндекс Вебмастера: в разделе Индексирование -> Страницы в поиске.

С помощью Google Search Console: в отчете Покрытие.

Почему число проиндексированных страниц может отличаться в разных сервисах?

Нужно понимать что проиндексированные страницы и страницы в поиске это разные сущности. Не все проиндексированные страницы будут включены в поиск и не все страницы в поиске будут показываться через операторы поиска – операторы лишь выводят результаты пустого поиск по сайту а не список всех страниц. Но этого в большинстве случаев достаточно чтобы оценить порядок числа проиндексированных страниц сайта.

Запрет индексации страниц

Запрет индексации с помощью Meta Noindex/X-Robots-Tag

Для гарантированного исключения попадания страниц в индекс можно использовать атрибут Noindex Мета Тега Robots или HTTP-заголовка X-Robots-Tag. Подробнее про этот атрибут можно прочитать тут.

Важно: Использование запрета индексации в через Meta/X-Robots-Tag Noindex вместе с запретом в Robots.txt

При добавлении директивы Noindex в мета-тег Robots и http-заголовок X-Robots-Tag, чтобы ее прочитать, робот должен просканировать страницу, поэтому она должна быть разрешена в файле Robots.txt. Следовательно для точечного запрета индексации страниц иногда требуется снять запрет в robots.txt или добавить директиву Allow, чтобы робот смог переобойти эти страницы.

Несмотря на вышеописанное, запрет в robots.txt в большинстве случаев все таки приведет к тому, что страницы не будут индексироваться, но его нельзя использовать для закрытия персональных данных или страниц с конфиденциальной информацией.

Как запретить индексацию страницы в robots.txt

Стоит сразу упомянуть что запрет в robots.txt не является надежным методом закрытия страниц от индексации.

В файле robots.txt указываются основные директивы для запрета или разрешения обхода/индексации отдельных страниц или разделов сайта.

Важно: Многие ошибочно считают что директива Disallow в Robots.txt служит для запрета индексации страниц, это не совсем так. Основная цель файла Robots.txt – управление трафиком поисковых роботов на сайте, а не индексацией / переиндексацией и разные поисковые системы по разному интерпретируют запрет.

Многие вебмастера не понимают почему после запрета страницы в robots.txt она продолжает находиться в индексе и приносить трафик. Запрет посещения и обновления страницы роботом не означает, что он обязан удалить уже присутствующую в индексе страницу. К тому же для индексации не всегда обязательно физически сканировать страницу, информацию о ней можно собирать из различных источников, например, из анкоров входящих ссылок.

Почему заблокированные в robots.txt страницы отображаются в выдаче?

В Яндексе и Google различается механизм обработки директив файла Robots.txt. Для Google директива Disallow в robots.txt запрещает лишь обход страниц, но не их индексацию из-за чего часто появляются страницы со статусом:

Для запрета индексации в Google через файл Robots.txt ранее использовалась незадокументированная директива Noindex в Robots.txt, но с сентября 2019 года Google перестал поддерживать ее.

На данный момент для надежного запрета индексации страниц в Google рекомендуется использовать атрибут Noindex Мета Тега Robots и HTTP-заголовка X-Robots-Tag.

Яндекс же, наоборот, воспринимает запрет в Robots.txt Disallow: как сигнал к запрету и сканирования и индексирования сайта и после добавления директивы Disallow: страницы будут удалены из индекса.

Использование атрибута canonical для запрета индексации дубликатов

Для консолидации дубликатов или похожих страниц страниц используется атрибут canonical, который указывает поисковикам по какому адресу рекомендуется индексировать страницу. Носит рекомендательный нестрогий характер.

Два типа использования:

Тег <link> с атрибутом rel=”canonical”
HTTP-заголовок rel=canonical

Использование директивы clean-param для удаления из индекса

Директива clean-param файла Robot.txt используется только Яндексом. Указывает незначащие параметры, которые будут по возможности вырезаться из URL-адресов при обходе сайта. Страницы, запрещенные в Clean-Param будут исключены из индекса.Yandex” search_bot

Запрет сканирования, индексации с помощью кодов ответа сервера 3хх/4хх

Чтобы гарантированно запретить роботам скачивать страницы, можно отдавать ботам при сканировании страниц коды:

301 редирект: особенно подходит для запрета дубликатов и склейки их с основными страницами;
403 Forbidden: доступ запрещен;
404 Not Found: не найдено;
410 Gone: удалено;

Удаление страниц из индекса

Удаление страниц или каталогов через Search Console

Инструмент не запрещает страницы к индексации или сканированию – он лишь временно скрывает страницы из поисковой выдачи. Рекомендуется использовать только для экстренного удаления страниц, случайно попавших в выдачу, после этого уже физически удалить их или запретить сканирование/индексацию.

Ускоренное удаление из индекса страниц в Яндексе

На сайт должны быть подтверждены права. Можно удалить только страницы, которые недоступны для робота: запрещенные в robots.txt или отдавать код 3хх, 4хх.

Для удаления из индекса Яндекса страниц чужого сайта можно воспользоваться формой – https://webmaster.yandex.ru/tools/del-url/.

Требования к URL-адресам такие же: запрет в robots.txt или коды ответа 301, 403, 404, 410 и т.п.

Как добавить страницы в индекс Яндекса или Google

Роботы постоянно ходят по ссылкам на сайтах. Для ускорения добавления существуют инструменты:

Sitemap.xml. Добавьте и регулярно обновляйте актуальный список страниц в сайтмапах сайта.
В Яндексе: инструменты -> переобход страниц
В Google: Проверка URL -> Запросить индексирование

Как проверить обход / сканирование сайта поисковыми системами

Яндекс:

Общее количество загруженных (просканированных) Яндексом страниц можно увидеть на главной странице вебмастера.

Динамику обхода страниц можно увидеть на странице Индексирование -> Статистика обхода.

Google: отчет: статистика сканирования сайта.

Также можно проверить обход сайта всеми поисковыми роботами с помощью анализа серверных логов сайта (Access logs). Например, через программу SEO Log File Analyser.

Как часто происходит индексация сайта

Поисковые боты постоянно равномерно загружают страницы сайта, далее выкладывая их в обновленный индекс: Google обновляет индекс в постоянном режиме, Яндекс во время апдейтов поисковой базы, примерно раз в три дня.

Частота сканирования и переиндексации каждого отдельного сайта различается, и зависит от факторов:

объем контента/страниц сайта
краулинговый спрос поисковой системы для текущего сайта
настройки скорости сканирования в вебмастерах
скорость работы сайта

Как улучшить и ускорить индексацию сайта

Рекомендации для увеличения охвата страниц индексом поисковых систем:

качественный уникальный контент, востребованный пользователями
все основные страницы должны быть в валидных сайтмапах sitemap.xml
оптимизация вложенности страниц
оптимизация краулингового спроса/бюджета
хорошая скорость сайта
закрывать лишние страницы, чтобы не тратить на них ресурсы роботов
внутренняя перелинковка
создание ротарора на сайте (Ловец ботов)

Как ограничить скорость сканирования сайта

Обычно если требуется ограничить нагрузку, которую создают роботы, то у сайта большие проблемы и это негативно скажется на его индексации. Боты стараются быть “хорошими” юзерами и сканируют сайт равномерно, стараясь не перегружать сервера.

То что сайт от этого испытывает проблемы с нагрузкой, в 90% случаев может быть сигналом к смене хостинга/сервера или оптимизации производительности CMS. Но в случае крайней необходимости все таки можно задать рекомендуемую скорость сканирования сайта.

Для ограничения скорости обхода сайта можно воспользоваться инструментами Яндекс.Вебмастер и Google

Яндекс:

Google:
В старой версии консоли можно было временно ограничить максимальную скорость сканирования сайта

В обновленной консоли такой возможности нет, но можно отправить сообщение о проблеме с активностью GoogleBot’а на сайте – https://www.google.com/webmasters/tools/googlebot-report

10 действенных способов заставить Google индексировать ваш сайт

Если ваш сайт не индексируется Google, то он практически невидим. Он не будет попадать в результаты поиска и получать естественный трафик. Совсем. Вообще. Ничего.

Если вы читаете эту статью, то это вам уже и так известно. Так что перейдем сразу к делу.

Эта статья поможет вам решить три проблемы:

Ваш сайт вообще не индексируется.
Часть страниц сайта индексируется, а часть — нет.
Свежеопубликованные статьи индексируются недостаточно быстро.

Но сперва давайте убедимся, что мы имеем в виду одно и то же, когда говорим об «индексировании».

Что такое краулинг и индексирование?

Google находит новые страницы при помощи паука, который ползает по Всемирной паутине («краулинг» дословно означает «ползание») и добавляет страницы в свою базу данных — индекс. Этот паук называется поисковым роботом, а у робота Google есть собственное имя — Гуглбот (Googlebot).

Запутались? Давайте дадим определения основным терминам.

Краулинг — процесс перехода по гиперссылкам в Интернете с целью нахождения нового контента.
Индексирование — процесс сохранения каждой веб-страницы в обширной базе данных.
Поисковый робот — Программа, которая выполняет краулинг.
Googlebot — поисковый робот Google.

Вот видео от Google, в котором этот процесс подробно объясняется:

Что делать, если сайт плохо индексируется?Прежде всего нужно проверить не закрыт ли сайт от индексации. Это можно сделать по инструкции в этой статье чуть выше. Основные способы улучшить индексацию:

Создайте карту сайта и загрузите в инструменты для вебмастеров.

Обновите старые страницы.

Удалите пустые страницы.

Поставьте дополнительные ссылки на сайт с сторонних сайтов и соц. сетей.

Как происходит индексация сайтаДля решения проблем нужно разобраться в процессе индексации подробнее. С технической точки зрения “индексацию сайта” правильнее рассматривать как два отдельных процесса:

Сканирование страниц.

Обработка страниц.

Этап 1: СканированиеСканирование или “обход” страниц — это основная задача, которую выполняет поисковой бот. Попадая на новую страницу, бот получает со страницы два набора данных:

Содержание самой страницы, информацию о сервере и служебные данные. А именно: ответ сервера, html код страницы, файлы css стилей, скриптов, изображений.

Перечень ссылок, которые находятся на странице.

Полученное содержание передается для дальнейшей обработки и сохранения в базу. Просканированные ссылки так же сохраняются в специальный список — “очередь сканирования”, для дальнейшей обработки. Когда бот добавляет в очередь индексации страницу, которая уже есть в очереди, эта страница занимает более высокое место в списке и индексируется быстрее. А это значит, что первый способ ускорить сканирование сайта — увеличить количество ссылок на нужные страницы.Создавая очередь сканирования, google bot, как и другие поисковые боты, изучает карту сайта sitemap и добавляет в очередь ссылки из этой карты. Второй способ улучшить индексацию — создать карту сайта sitemap.xml и сообщить о ней поисковой системе. Карта сайта — самый простой способ отправить на индексацию все страницы в рамках нашего домена. Есть несколько способов создать карту сайта:

Бесплатный онлайн инструмент для сайтов до 500 страниц www.xml-sitemaps.com.

Программа для сканирования сайта, с возможностью создания sitemap — xenu links.

Библиотека приложений для создания sitemap.

Самый популярный плагин для создания карты сайта для WordPress.

Чтобы Google узнал о вашем sitemap, нужно добавить ссылку на карту сайта в инструментах search console или файле robots.txtДобавление карты сайта в Search Console:

Зайдите в https://search.google.com/search-console/

Добавьте свой сайт или выберите из списка.

Перейдите в раздел Сканирование — Файлы Sitemap.

Выберите “добавить файл sitemap”, вставьте ссылку и добавьте карту сайта.

Добавление sitemap в robots.txt:

Зайдите в корневой каталог сайта через ftp.

Откройте файл robots.txt

Добавьте в конец файла строку “Sitemap: [адрес сайта]/sitemap.xml” и сохраните файл.

Третий способ ускорить индексацию — сообщить поисковому боту о дате последнего изменения страницы. Для получения даты и времени изменения страницы боты используют данные из заголовка ответа сервера lastmod. Сообщить наличие изменений на странице можно с помощью кода ответа not modify.Инструмент проверки заголовка lastmod и ответа сервера not modify.Наличие настроек lastmod и not modify позволяют поисковой системе быстро получить информацию о том, изменилась ли страница с даты последнего сканирования. Благодаря этому поисковой бот ставит в приоритет новые и измененные страницы, а новые страницы быстрее индексируются. Для настройки lastmod и not modify вам нужно будет обратиться к веб разработчику.Этап 2: Обработка данныхПеред тем как сохранить информацию в базу данных, она проходит обработку и структуризацию, которая необходима для ускорения дальнейшего поиска.В первом шаге обработки программа-индексатор формирует страницу с учетом всех стилей, скриптов и эффектов. В этот момент программа-индексатор понимает расположение элементов на странице, определяет видимые и невидимые пользователю части, разделяет страницу на навигацию и содержание.

Важно чтобы google bot имел полный доступ к css и js файлам, ведь без них индексатор не сможет понять структуру страницы. Для проверки доступности всех служебных файлов зайдите в Google Search Console, отчет “Посмотреть как Googlebot” в разделе “Сканирование”. Проверьте с помощью этого инструмента основные страницы сайта, обратите внимание на различия между тем, как вашу страницу видит поисковой бот и как ее видит пользователи. Изучите таблицу из отчета. Все ресурсы, которые размещены на вашем домене, должны быть открыты для сканирования.

Сейчас Google использует алгоритм индексации, который называется

Caffeine. Он был запущен в 2009 году. Основные задачи этого алгоритма:

Обработка современных страниц, использующих сложные js и css элементы.
Максимально быстрое сканирование всех страниц в Интернете.

Анализ текста при индексацииПосле разделения страницы на зоны и определения их важности, алгоритм выделяет из содержания основные элементы для дальнейших расчетов. Так одним из самых популярных показателей, которые поисковая система извлекает из страницы, является частота упоминания ключевого слова.Стоит отметить, что перед расчетом частоты упоминания слова, индексатор проводит упрощение слов к элементарной форме. Этот процесс называется стеминг. Такое упрощение позволяет учитывать слово в разных словоформах как одно слово.Частота упоминания (Term frecency, ТА) слова рассчитывается как отношение упоминания слова к общему количеству слов страницы. Пример: если на странице 100 слов и слово “машина” встречалось на ней 2 раза — частота упоминания слова “машина” будет равна TF=0,02Самый простой поисковой индекс легко представить в виде огромной таблицы, в столбцах которой перечислены все слова языка, а в строках — адреса всех страниц. При этом в ячейках указаны частоты слов на соответствующих страницах.Именно такая таблица позволяет поисковой системе быстро находить страницы, которые содержат нужные слова. Конечно современные поисковые системы учитывают не только частоту упоминания слов, но и более сложные факторы. Поисковой индекс Google значительно сложнее чем приведенный пример.Анализируя содержание поисковая система проверяет уникальность страницы. Тексты и прочее содержание, которое уже было проиндексировано на других страницах, не несет ценности для системы, так как не добавляет в базу новой информации. А это значит, что страницы с низкой уникальностью могут быть не проиндексированы. Проверить уникальность достаточно просто с помощью бесплатных инструментов.
Старайтесь создавать максимально уникальный и полезный контент и он точно будет проиндексирован.От чего зависит индексация сайта?

Доступность сайта для индексации — если сканирование сайта запрещено поисковая система не сможет получить его страницы. Подробнее о инструментах управления индексацией: youtube.com Внутренняя оптимизация: robots.txt, sitemap

Количество ссылок на ваш сайт — ссылки, это пути которые приводят поисковых роботов к вам на сайт. Чем больше ссылок с популярных ресурсов вы получаете, тем чаще будут сканироваться страницы вашего сайта.

Частота обновления сайта. Поисковые системы всегда ищут новый интересный контент, чем чаще вы публикуете новое уникальное содержание, тем быстрее поисковая система будет его сканировать.

Наличие сайта в инструментах поисковых систем. Видео в тему: Как зарегистрировать сайт в Google Search Console.

Подведем итоги

Индексация — это процесс сканирования и обработки содержания для хранения в базе данных поисковой системы.

Ускорить индексацию можно с помощью ссылок, карты сайта и настроек сервера.
Чтобы поисковая система понимала ваши страницы, все ресурсы вашего сайта должны быть доступны поисковому боту.

Мы можем проверить и настроить индексацию вашего сайта за вас.SEO аудит с рекомендациями за 10 дней.Надеюсь у вас больше не возникнет вопрос: “Что такое индексация сайта”.Руководитель отдела продвижения SEO7. Ведущий Youtube канала Школа SEO. Автор блога о поисковой оптимизации seo-sign.comКакие страницы сайта следует закрывать от индексации поисковых системИндексирование сайта – это процесс, с помощью которого поисковые системы, подобные Google и Yandex, анализируют страницы веб-ресурса и вносят их в свою базу данных. Индексация выполняется специальным ботом, который заносит всю необходимую информацию о сайте в систему – веб-страницы, картинки, видеофайлы, текстовый контент и прочее. Корректное индексирование сайта помогает потенциальным клиентам легко найти нужный сайт в поисковой выдаче, поэтому важно знать обо всех тонкостях данного процесса.В сегодняшней статье я рассмотрю, как правильно настроить индексацию, какие страницы нужно открывать для роботов, а какие нет.Почему важно ограничивать индексацию страницЗаинтересованность в индексации есть не только у собственника веб-ресурса, но и у поисковой системы – ей необходимо предоставить релевантную и, главное, ценную информацию для пользователя. Чтобы удовлетворить обе стороны, требуется проиндексировать только те страницы, которые будут интересны и целевой аудитории, и поисковику.Прежде чем переходить к списку ненужных страниц для индексации, давайте рассмотрим причины, из-за которых стоит запрещать их выдачу. Вот некоторые из них:

Уникальность контента – важно, чтобы вся информация, передаваемая поисковой системе, была неповторима. При соблюдении данного критерия выдача может заметно вырасти. В противном случае поисковик будет сначала искать первоисточник – только он сможет получить доверие.

Краулинговый бюджет – лимит, выделяемый сайту на сканирование. Другими словами, это количество страниц, которое выделяется каждому ресурсу для индексации. Такое число обычно определяется для каждого сайта индивидуально. Для лучшей выдачи рекомендуется избавиться от ненужных страниц.

В краулинговый бюджет входят: взломанные страницы, файлы CSS и JS, дубли, цепочки редиректов, страницы со спамом и прочее.Что нужно скрывать от поисковиковВ первую очередь стоит ограничить индексирование всего сайта, который еще находится на стадии разработки. Именно так можно уберечь базу данных поисковых систем от некорректной информации. Если ваш веб-ресурс давно функционирует, но вы не знаете, какой контент стоит исключить из поисковой выдачи, то рекомендуем ознакомиться с нижеуказанными инструкциями.PDF и прочие документыЧасто на сайтах выкладываются различные документы, относящиеся к контенту определенной страницы (такие файлы могут содержать и важную информацию, например, политику конфиденциальности).Рекомендуется отслеживать поисковую выдачу: если заголовки PDF-файлов отображаются выше в рейтинге, чем страницы со схожим запросом, то их лучше скрыть, чтобы открыть доступ к наиболее релевантной информации. Отключить индексацию PDF и других документов вы можете в файле robots.txt.Разрабатываемые страницыСтоит всегда избегать индексации разрабатываемых страниц, чтобы рейтинг сайта не снизился. Используйте только те страницы, которые оптимизированы и наполнены уникальным контентом. Настроить их отображение можно в файле robots.txt.Копии сайтаЕсли вам потребовалось создать копию веб-ресурса, то в этом случае также необходимо все правильно настроить. В первую очередь укажите корректное зеркало с помощью 301 редиректа. Это позволит оставить прежний рейтинг у исходного сайта: поисковая система будет понимать, где оригинал, а где копия. Если же вы решитесь использовать копию как оригинал, то делать это не рекомендуется, так как возраст сайта будет обнулен, а вместе с ним и вся репутация.Веб-страницы для печатиИногда контент сайта требует уникальных функций, которые могут быть полезны для клиентов. Одной из таких является «Печать», позволяющая распечатать необходимые страницы на принтере. Создание такой версии страницы выполняется через дублирование, поэтому поисковые роботы могут с легкостью установить копию как приоритетную. Чтобы правильно оптимизировать такой контент, необходимо отключить индексацию веб-страниц для печати. Сделать это можно с использованием AJAX, метатегом <meta name=»robots» content=»noindex, follow»/> либо в файле robots.txt.Формы и прочие элементы сайтаБольшинство сайтов сейчас невозможно представить без таких элементов, как личный кабинет, корзина пользователя, форма обратной связи или регистрации. Несомненно, это важная часть структуры веб-ресурса, но в то же время она совсем бесполезна для поисковых запросов. Подобные типы страниц необходимо скрывать от любых поисковиков.Страницы служебного пользованияФормы авторизации в панель управления и другие страницы, используемые администратором сайта, не несут никакой важной информации для обычного пользователя. Поэтому все служебные страницы следует исключить из индексации.Личные данные пользователя Вся персональная информация должна быть надежно защищена – позаботиться о ее исключении из поисковой выдачи нужно незамедлительно. Это относится к данным о платежах, контактам и прочей информации, идентифицирующей конкретного пользователя.Страницы с результатами поиска по сайтуКак и в случае со страницами, содержащими личные данные пользователей, индексация такого контента не нужна: веб-страницы результатов полезны для клиента, но не для поисковых систем, так как содержат неуникальное содержание.Сортировочные страницыКонтент на таких веб-страницах обычно дублируется, хоть и частично. Однако индексация таких страниц посчитается поисковыми системами как дублирование. Чтобы снизить риск возникновения таких проблем, рекомендуется отказаться от подобного контента в поисковой выдаче.Пагинация на сайтеПагинация – без нее сложно представить существование любого крупного веб-сайта. Чтобы понять ее назначение, приведу небольшой пример: до появления типичных книг использовались свитки, на которых прописывался текст. Прочитать его можно было путем развертывания (что не очень удобно). На таком длинном холсте сложно найти нужную информацию, нежели в обычной книге. Без использования пагинации отыскать подходящий раздел или товар также проблематично.Пагинация позволяет разделить большой массив данных на отдельные страницы для удобства использования. Отключать индексирование для такого типа контента нежелательно, требуется только настроить атрибуты rel=»canonical», rel=»prev» и rel=»next». Для Google нужно указать, какие параметры разбивают страницы – сделать это можно в Google Search Console в разделе «Параметры URL».Помимо всего вышесказанного, рекомендуется закрывать такие типы страниц, как лендинги для контекстной рекламы, страницы с результатами поиска по сайту и поиск по сайту в целом, страницы с UTM-метками.Какие страницы нужно индексироватьОграничение страниц для поисковых систем зачастую становится проблемой – владельцы сайтов начинают с этим затягивать или случайно перекрывают важный контент. Чтобы избежать таких ошибок, рекомендуем ознакомиться с нижеуказанным списком страниц, которые нужно оставлять во время настройки индексации сайта.

В некоторых случаях могут появляться страницы-дубликаты. Часто это связано со случайным созданием дублирующих категорий, привязкой товаров к нескольким категориям и их доступность по различным ссылкам. Для такого контента не нужно сразу же бежать и отключать индексацию: сначала проанализируйте каждую страницу и посмотрите, какой объем трафика был получен. И только после этого настройте 301 редиректы с непопулярных страниц на популярные, затем удалите те, которые совсем не эффективны.

Страницы смарт-фильтра – благодаря им можно увеличить трафик за счет низкочастотных запросов. Важно, чтобы были правильно настроены мета-теги, 404 ошибки для пустых веб-страниц и карта сайта.

Соблюдение индексации таких страниц может значительно улучшить поисковую выдачу, если ранее оптимизация не проводилась.Как закрыть страницы от индексацииМы детально рассмотрели список всех страниц, которые следует закрывать от поисковых роботов, но о том, как это сделать, прошлись лишь вскользь – давайте это исправлять. Выполнить это можно несколькими способами: с помощью файла robots.txt, добавления специальных метатегов, кода, сервисов для вебмастеров, а также с использованием дополнительных плагинов. Рассмотрим каждый метод более детально.Способ 1: Файл robots.txtДанный текстовый документ – это файл, который первым делом посещают поисковики. Он предоставляет им информацию о том, какие страницы и файлы на сайте можно обрабатывать, а какие нет. Его основная функция – сократить количество запросов к сайту и снизить на него нагрузку. Он должен удовлетворять следующим критериям:

наименование прописано в нижнем регистре;

формат указан как .txt;

размер не должен превышать 500 Кб;

местоположение – корень сайта;

находится по адресу URL/robots.txt, при запросе сервер отправляет в ответ код 200.

Прежде чем переходить к редактированию файла, рекомендую обратить внимание на ограничивающие факторы.

Директивы robots.txt поддерживаются не всеми поисковыми системами. Большинство поисковых роботов следуют тому, что написано в данном файле, но не всегда придерживаются правил. Чтобы полностью скрыть информацию от поисковиков, рекомендуется воспользоваться другими способами.

Синтаксис может интерпретироваться по-разному в зависимости от поисковой системы. Потребуется узнать о синтаксисе в правилах конкретного поисковика.

Запрещенные страницы в файле могут быть проиндексированы при наличии ссылок из прочих источников. По большей части это относится к Google – несмотря на блокировку указанных страниц, он все равно может найти их на других сайтах и добавить в выдачу. Отсюда вытекает то, что запреты в robots.txt не исключают появление URL и другой информации, например, ссылок. Решить это можно защитой файлов на сервере при помощи пароля либо директивы noindex в метатеге.

Файл robots.txt включает в себя такие параметры, как:

User-agent – создает указание конкретному роботу.

Disallow – дает рекомендацию, какую именно информацию не стоит сканировать.

Allow – аналогичен предыдущему параметру, но в обратную сторону.

Sitemap – позволяет указать расположение карты сайта sitemap.xml. Поисковый робот может узнать о наличии карты и начать ее индексировать.

Clean-param – позволяет убрать из индекса страницы с динамическими параметрами. Подобные страницы могут отдавать одинаковое содержимое, имея различные URL-страницы.

Crawl-delay – снижает нагрузку на сервер в том случае, если посещаемость поисковых ботов слишком велика. Обычно используется на сайтах с большим количеством страниц.

Теперь давайте рассмотрим, как можно отключить индексацию определенных страниц или всего сайта. Все пути в примерах – условные. Пропишите, чтобы исключить индексацию сайта для всех роботов: User-agent: * Disallow: /Закрывает все поисковики, кроме одного: User-agent: * Disallow: / User-agent: Google Allow: /Запрет на индексацию одной страницы: User-agent: * Disallow: /page.htmlЗакрыть раздел: User-agent: * Disallow: /categoryВсе разделы, кроме одного: User-agent: * Disallow: / Allow: /categoryВсе директории, кроме нужной поддиректории: User-agent: * Disallow: /direct Allow: /direct/subdirectСкрыть директорию, кроме указанного файла: User-agent: * Disallow: /category Allow: photo.pngЗаблокировать UTM-метки: User-agent: * Disallow: *utm=Заблокировать скрипты: User-agent: * Disallow: /scripts/*.jsЯ рассмотрел один из главных файлов, просматриваемых поисковыми роботами. Он использует лишь рекомендации, и не все правила могут быть корректно восприняты.Способ 2: HTML-кодОтключение индексации можно осуществить также с помощью метатегов в блоке <head>. Обратите внимание на атрибут «content», он позволяет:

активировать индексацию всей страницы;

деактивировать индексацию всей страницы, кроме ссылок;

разрешить индексацию ссылок;

индексировать страницу, но запрещать ссылки;

полностью индексировать веб-страницу.

Чтобы указать поискового робота, необходимо изменить атрибут «name», где устанавливается значение yandex для Яндекса и googlebot – для Гугла.Пример запрета индексации всей страницы и ссылок для Google: <html> <head> <meta name="googlebot" content="noindex, nofollow" /> </head> <body>...</body> </html>Также существует метатег под названием Meta Refresh. Он предотвращает индексацию в Гугле, однако использовать его не рекомендуется.Способ 3: На стороне сервераЕсли поисковые системы игнорируют запрет на индексацию, можно ограничить возможность посещения ботов-поисковиков на сервере.Yandex» search_botСпособ 4: Для WordPressНа CMS запретить индексирование всего сайта или страницы гораздо проще. Рассмотрим, как это можно сделать.Как скрыть весь сайтОткрываем административную панель WordPress и переходим в раздел «Настройки» через левое меню. Затем перемещаемся в «Чтение» – там находим пункт «Попросить поисковые системы не индексировать сайт» и отмечаем его галочкой.В завершение кликаем по кнопке «Сохранить изменения» – после этого система автоматически отредактирует файл robots.txt.Как скрыть отдельную страницуДля этого необходимо установить плагин Yoast SEO. После этого открыть страницу для редактирования и промотать в самый низ – там во вкладке «Дополнительно» указать значение «Нет».Способ 5: Сервисы для вебмастеровВ Google Search Console мы можем убрать определенную страницу из поисковика. Для этого достаточно перейти в раздел «Индекс Google» и удалить выбранный URL.Процедура запрета на индексацию выбранной страницы может занять некоторое время. Аналогичные действия можно совершить в Яндекс.Вебмастере. На этом статья подходит к концу. Надеюсь, что она была полезной. Теперь вы знаете, что такое индексация сайта и как ее правильно настроить. Удачи!Принципы работы Google Поиска | Сканирование и индексированиеЧтобы пользователи могли быстро найти нужные сведения, наши роботы собирают информацию на сотнях миллиардов страниц и упорядочивают ее в поисковом индексе.При очередном сканировании наряду со списком веб-адресов, полученных во время предыдущего сканирования, используются файлы Sitemap, которые предоставляются владельцами сайтов. По мере посещения сайтов робот переходит по указанным на них ссылкам на другие страницы. Особое внимание он уделяет новым и измененным сайтам, а также неработающим ссылкам. Он самостоятельно определяет, какие сайты сканировать, как часто это нужно делать и какое количество страниц следует выбрать на каждом из них.При помощи Search Console владельцы сайтов могут указывать, как именно следует сканировать их ресурсы, в частности предоставлять подробные инструкции по обработке страниц, запрашивать их повторное сканирование, а также запрещать сканирование, используя файл robots.txt. Google не увеличивает частоту сканирования отдельных ресурсов за плату. Чтобы результаты поиска были максимально полезными для пользователей, все владельцы сайтов получают одни и те же инструменты. Поиск информации с помощью сканирования Интернет похож на библиотеку, которая содержит миллиарды изданий и постоянно пополняется, но не располагает централизованной системой учета книг. Чтобы находить общедоступные страницы, мы используем специальное программное обеспечение, называемое поисковыми роботами. Роботы анализируют страницы и переходят по ссылкам на них – как обычные пользователи. После этого они отправляют сведения о ресурсах на серверы Google. Систематизация информации с помощью индексирования Во время сканирования наши системы обрабатывают материалы страниц так же, как это делают браузеры, и регистрируют данные по ключевым словам и новизне контента, а затем создают на их основе поисковый индекс.Индекс Google Поиска содержит сотни миллиардов страниц. Его объем значительно превышает 100 миллионов гигабайт. Он похож на указатель в конце книги, в котором есть отдельная запись для каждого слова на всех проиндексированных страницах. Во время индексирования данные о странице добавляются в записи по всем словам, которые на ней есть. Как узнать правильную дату индексации страницы?В процессе сканирования сайта поисковыми системами можно выделить четыре ключевые даты для страниц:

Дата первой индексации, она определяет возраст страницы.

Дата последнего обхода поисковым роботом.

Дата последней индексации страницы, которая выложена в индекс.

Дата формирования сохраненной копии страницы (не всегда совпадает с датой индексации страницы при построении индекса).

Первая дата обходаДва метода получения даты первой индексации страницы перестали работать:

оператор date работает некорректно;

добавление к строке запроса параметра &how=tm перестало отображать даты индексации.

Но эту информацию все еще можно получить через Яндекс XML. Для этого необходимо перейти по ссылке https://xml.yandex.ru/test/ и в поле «&query» ввести запрос вида url:%page%, где %page% — адрес страницы. Далее нажимаем на «Найти» и в полученном результате ищем тег , который и укажет дату первой индексации страницы.Дата обхода поисковым роботом и статуса в поисковой базеЧтобы узнать дату последнего обхода страницы и информацию о том, какая версия находится при построении поисковой выдачи, необходимо в сервисе Яндекс.Вебмастер в разделе «Индексирование» выбрать «Проверить статус URL». Далее указываем необходимый адрес и получаем данные. Этот способ работает лишь для подтвержденного сайта.Дата формирования сохраненной копииЧтобы узнать дату формирования сохраненной копии, необходимо в поисковой выдаче кликнуть на выпадающее меню (рядом с название адреса страницы).Просмотр сохраненных копий в поисковых системах Bing и Mail позволит показать старые версии страниц, поскольку они переиндексируют их медленнее, чем поисковые роботы Яндекс и Google.Вывод

Как показано на примере выше, не всегда сохраненная копия страницы используется для построения базы индекса. Но, зачастую, это действительно так.

Кроме того, если вы внесли какие-либо правки на странице и ждете, когда эти изменения переиндексируются, то не стоит делать вывод о том, что правки учтены, по дате последнего обхода поисковым роботом.

#104#94#60Что такое индексация — самый полный гайдЧасто происходит путаница в терминологии: под индексацией иногда подразумевают сканирование сайта или совокупность и сканирования и индексации. В этом нет большой ошибки, часто путаницу вносят сами мануалы поисковых систем. Иногда в текстах Яндекса и Гугла можно увидеть использование термина индексация в разных контекстах, например:Индексация сайта простыми словамиТак что же такое индексация: если кратко, то индексация (или индексирование, indexing) – один из процессов работы поисковых систем по построению поисковой базы в результате которого содержимое страниц попадает в индекс поисковой системы.Для большей ясности приведу терминологию, а потом опишу все процессы.ТерминологияПланировщик (Scheduler) – программа, которая выстраивает маршрут обхода интернета роботами исходя из характеристик страниц, таких как частота обновления документов, востребованность этих страниц, цитируемость.Crawler, Spider (Паук) Googlebot, YandexBot. Робот, ответственный за обход и скачивание страниц из интернета в порядке очередности, который задается планировщиком. Подразделяются на:

Основной робот, обходящий контент в порядке общей очереди.

Быстрый робот (быстроробот или быстробот). Робот, который использует свежий индекс, на основе группы заданных хабовых страниц с важной, часто обновляемой информацией, например, с новостями популярных СМИ.

Сканирование (Crawling) – процесс загрузки страниц краулером в результате чего они попадают в хранилище, в виде сохраненных копий.Краулинговый спрос: это то, как часто и в каком объеме робот бы хотел сканировать конкретные страницы.Краулинговый лимит: ограничения скорости сканирования на стороне сайта, связанные с производительностью сайта или заданным вручную ограничением.Краулинговый бюджет – это совокупность краулингового спроса и доступной скорости сканирования сайта (краулингового лимита). Простыми словами – это то сколько робот хочет и может скачать страниц.Сохраненная копия – необработанная копия документа на момент последнего сканирования.Поисковый индекс – информация со страниц, приведенная в удобный для работы поисковых алгоритмов формат. Список всех терминов и словопозиций где и на каких страницах они упоминаются. Информация хранится в базе в виде инвертированного индекса. Схематический пример:Индексация – процесс загрузки, анализа содержимого документа документа с последующим включением в поисковый индекс.Поисковая база – это совокупность поискового индекса, сохраненных страниц и служебной информации о документах, таких как заголовки, типы и кодировка документов, коды ответов страниц, мета теги и др.Как происходит сканирование сайтаТак как ресурсы поисковых систем не безграничны, планировщик составляет очередь обхода страниц, исходя критериев их полезности, востребованности, популярности и др. Каждый сайт получает свой краулинговый бюджет исходя из скоростных характеристик сайта и таких критериев как:

Доля полезных/мусорных страниц на сайте, дубликаты

Спамные и малополезные страницы

Наличие бесконечной генерации страниц, например, некорректной фасетной навигации

Популярность страниц

Насколько актуальные версии страниц сайта, содержащиеся в поисковой базе

Робот в постоянном режиме скачивает страницы и помещает их в хранилище, заменяя старые версии. Мы можем увидеть их в виде сохраненных копий. Далее уже происходит индексация страниц.Как проходит индексация сайтаИндексацию можно условно разбить на следующие процессы:

Загрузка и разбор страницы по элементам: текст, мета-теги, микроразметка, изображения, видео и другой контент и служебные данные.

Анализ страницы по определенным параметрам, например: разрешена ли она к индексации, сканированию, является ли неглавной копией другой страницы, содержит ли страница малополезный, спамный контент и др.

Если страница успешно прошла все проверки, она добавляется в индекс.

Как проходит индексация сайта в ЯндексеВсе описанное в предыдущем пункте справедливо и для Яндекса и для Google. Какие есть особенности индексации у Яндекса?У Google обновление поисковой базы – непрерывный процесс. В Яндексе обновление происходит во время Апдейтов, примерно раз в три дня. О том что произошло обновление можно узнать по уведомлениям в Яндекс.ВебмастереКак проверить индексациюЕсть разные способы для проверки статуса индексации сайтов и отдельных его страниц:

Вебмастер Яндекса

Панель Google Search Console

API панели для вебмастеров Yandex/Google

SEO-сервисы, например Rush Analytics

Плагины и расширения для браузеров

Поисковые операторы ПС

GA/Метрика

Серверные логи

Выбор сервиса зависит от поисковой системы, а также задачи: узнать сколько страниц всего в индексе, получить список проиндексированных страниц или проверить статус индексации конкретной страницы или списка страниц. Подробнее расписано ниже.Как узнать сколько страниц проиндексировано на сайтеРасширения для браузераБыстрые способы проверить статус индексации сайта – расширения и букмарклеты для браузера, например RDS-барСервисы для анализа сайтовТак же можно проверить с помощью сервисов, таких как pr-cy.ru Яндекс.Вебмастер и Google Search ConsoleЕсли есть доступы к панелям вебмастеров, можно получить количество проиндексированных страниц в панелях вебмастеров:Яндекс Вебмастер – http://webmaster.yandex.ruGoogle Search Console – https://search.google.com/search-console/С помощью специализированных программ для SEO, например Allsubmitter, Netpeak Checker. Это может понадобиться когда нужна пакетная проверка параметров чужих сайтов.Пример проверки числа проиндексированных страниц в Netpeak Checker.
Проверка индексации сайтов в Яндекс:Проверка индексации сайтов в Google:
Пример проверки индексации сайтов в Яндекс и Google в Allsubmitter.Как выгрузить список проиндексированных страниц сайта в Яндексе и GoogleЯндекс Вебмастер: Отчет индексирование -> Страницы в поиске -> Все страницыВнизу страницы ссылки на скачивание файла – cуществует ограничение в 50 000 страниц.Google Search Console: в отчете Покрытие – выбираем нужные типы страницПереходим в нужный отчет и скачиваем список страниц в удобном формате. Google отдает только 1 000 страниц.Поисковые операторы ЯндексаЗапрос для поиска страниц в пределах одного домена – url:www.site.ru/* | url:site.ru/* | url:site.ru | url:www.site.ru.Запрос для поиска с учетом всех поддоменов – site:site.ruСписок операторов и инструкцию по работе с ними можно посмотреть в справке Яндекса.Ограничение: можно получить только 1000 результатов. Нужны специальные инструменты чтобы скопировать список страниц SERP: расширения браузера, букмарклеты или программы для парсинга выдачи.Поисковые операторы GoogleЗапрос для поиска страниц в пределах одного сайта – site:site.ruПолучение списка страниц входа из систем веб-аналитикиСписки страниц входа из органики Яндекса в системах аналитики Яндекс.Метрика и Google.Analytics. Страницы по которым идут переходы с органической выдачи с большой вероятностью индексируются, но для точности рекомендуется проверять индексацию собранных страниц – индекс не статичен и страницы могут выпадать из индекса.Список страниц по которым сайт показывается в выдаче в Яндекс.Вебмастере
Для выгрузки большого списка страниц из Яндекс.Вебмастера потребуется специальный скрипт.Плагин для API Google Webmasters: Google Search Analytics for Sheets
Отображает страницы по которым были показы сайта в выдаче.Преимущества выгрузки списка страниц через API в том что можно получить десятки тысяч страниц, которые с большой вероятностью проиндексированы, в отличие от веб-интерфейса где установлено ограничение по выгрузкам в 1000 страниц.Серверные логи сайтаПолучить список страниц которые посещает робот можно из логов, например с помощью программы SEO Log File Analyser от создателей Screaming Frog.Как проверить индексацию конкретной страницы в Яндексе и GoogleСервис Яндекс.Вебмастер: Индексирование -> Проверить статус URL Проверка с помощью оператора: пример запроса url:https://site.com/page/Сервис Google Search Console: инструмент “Покрытие”Нужно ввести в указанной на скрине строке поиска URL-адрес своего сайта и откроется отчет о статусе страницы.Проверка с помощью оператора: пример запроса site:https://habr.com/ru/news/t/468361/После отмены оператора info остался оператор site, но он выдает не всегда точные данные, можно сократить список результатов с помощью указания уникального текста проверяемой страницы.Как массово проверить индексацию списка страницДля проверки можно использовать SEO-сервисы, например Rush Analytics.
Это позволяет массово проверить индексацию до десятков-сотен тысяч страницКак проверить разрешена индексация/сканирование страницы в Robots.txtВ Яндексе
Проверить доступна ли роботам страница или содержит запрет можно через. Инструменты -> Анализ robots.txtВ Google
Инструмент проверки файла robots.txtВажно: если файл robots.txt отдает 404 ошибку, боты считают что разрешено сканирование всего сайта без ограничений. Если файл отдает ошибку 5хх, то Googlebot считает это полным запретом на сканирование сайта, но если ошибка отдается более 30 дней – считает что разрешено сканировать весь сайт без ограничений. Яндекс любые серверные ошибки считает отсутствием файла robots.txt и отсутствием ограничений на обход и индексацию сайта.Как узнать динамику числа проиндексированных страницС помощью специализированных сервисов, например: https://be1.ru/
С помощью Яндекс Вебмастера: в разделе Индексирование -> Страницы в поиске.С помощью Google Search Console: в отчете Покрытие.Почему число проиндексированных страниц может отличаться в разных сервисах?Нужно понимать что проиндексированные страницы и страницы в поиске это разные сущности. Не все проиндексированные страницы будут включены в поиск и не все страницы в поиске будут показываться через операторы поиска – операторы лишь выводят результаты пустого поиск по сайту а не список всех страниц. Но этого в большинстве случаев достаточно чтобы оценить порядок числа проиндексированных страниц сайта.Запрет индексации страницЗапрет индексации с помощью Meta Noindex/X-Robots-TagДля гарантированного исключения попадания страниц в индекс можно использовать атрибут Noindex Мета Тега Robots или HTTP-заголовка X-Robots-Tag. Подробнее про этот атрибут можно прочитать тут.Важно: Использование запрета индексации в через Meta/X-Robots-Tag Noindex вместе с запретом в Robots.txtПри добавлении директивы Noindex в мета-тег Robots и http-заголовок X-Robots-Tag, чтобы ее прочитать, робот должен просканировать страницу, поэтому она должна быть разрешена в файле Robots.txt. Следовательно для точечного запрета индексации страниц иногда требуется снять запрет в robots.txt или добавить директиву Allow, чтобы робот смог переобойти эти страницы.Несмотря на вышеописанное, запрет в robots.txt в большинстве случаев все таки приведет к тому, что страницы не будут индексироваться, но его нельзя использовать для закрытия персональных данных или страниц с конфиденциальной информацией.Как запретить индексацию страницы в robots.txtСтоит сразу упомянуть что запрет в robots.txt не является надежным методом закрытия страниц от индексации.В файле robots.txt указываются основные директивы для запрета или разрешения обхода/индексации отдельных страниц или разделов сайта.Важно: Многие ошибочно считают что директива Disallow в Robots.txt служит для запрета индексации страниц, это не совсем так. Основная цель файла Robots.txt – управление трафиком поисковых роботов на сайте, а не индексацией / переиндексацией и разные поисковые системы по разному интерпретируют запрет.Многие вебмастера не понимают почему после запрета страницы в robots.txt она продолжает находиться в индексе и приносить трафик. Запрет посещения и обновления страницы роботом не означает, что он обязан удалить уже присутствующую в индексе страницу. К тому же для индексации не всегда обязательно физически сканировать страницу, информацию о ней можно собирать из различных источников, например, из анкоров входящих ссылок.Почему заблокированные в robots.txt страницы отображаются в выдаче?В Яндексе и Google различается механизм обработки директив файла Robots.txt. Для Google директива Disallow в robots.txt запрещает лишь обход страниц, но не их индексацию из-за чего часто появляются страницы со статусом:Для запрета индексации в Google через файл Robots.txt ранее использовалась незадокументированная директива Noindex в Robots.txt, но с сентября 2019 года Google перестал поддерживать ее.На данный момент для надежного запрета индексации страниц в Google рекомендуется использовать атрибут Noindex Мета Тега Robots и HTTP-заголовка X-Robots-Tag.Яндекс же, наоборот, воспринимает запрет в Robots.txt Disallow: как сигнал к запрету и сканирования и индексирования сайта и после добавления директивы Disallow: страницы будут удалены из индекса.Использование атрибута canonical для запрета индексации дубликатовДля консолидации дубликатов или похожих страниц страниц используется атрибут canonical, который указывает поисковикам по какому адресу рекомендуется индексировать страницу. Носит рекомендательный нестрогий характер.Два типа использования:

Тег <link> с атрибутом rel=”canonical”

HTTP-заголовок rel=canonical

Использование директивы clean-param для удаления из индекса Директива clean-param файла Robot.txt используется только Яндексом. Указывает незначащие параметры, которые будут по возможности вырезаться из URL-адресов при обходе сайта. Страницы, запрещенные в Clean-Param будут исключены из индекса.Yandex” search_botЗапрет сканирования, индексации с помощью кодов ответа сервера 3хх/4ххЧтобы гарантированно запретить роботам скачивать страницы, можно отдавать ботам при сканировании страниц коды:

301 редирект: особенно подходит для запрета дубликатов и склейки их с основными страницами;

403 Forbidden: доступ запрещен;

404 Not Found: не найдено;

410 Gone: удалено;

Удаление страниц из индексаУдаление страниц или каталогов через Search ConsoleИнструмент не запрещает страницы к индексации или сканированию – он лишь временно скрывает страницы из поисковой выдачи. Рекомендуется использовать только для экстренного удаления страниц, случайно попавших в выдачу, после этого уже физически удалить их или запретить сканирование/индексацию.Ускоренное удаление из индекса страниц в ЯндексеНа сайт должны быть подтверждены права. Можно удалить только страницы, которые недоступны для робота: запрещенные в robots.txt или отдавать код 3хх, 4хх.Для удаления из индекса Яндекса страниц чужого сайта можно воспользоваться формой – https://webmaster.yandex.ru/tools/del-url/.Требования к URL-адресам такие же: запрет в robots.txt или коды ответа 301, 403, 404, 410 и т.п.Как добавить страницы в индекс Яндекса или GoogleРоботы постоянно ходят по ссылкам на сайтах. Для ускорения добавления существуют инструменты:

Sitemap.xml. Добавьте и регулярно обновляйте актуальный список страниц в сайтмапах сайта.

В Яндексе: инструменты -> переобход страниц

В Google: Проверка URL -> Запросить индексирование

Как проверить обход / сканирование сайта поисковыми системамиЯндекс:Общее количество загруженных (просканированных) Яндексом страниц можно увидеть на главной странице вебмастера.Динамику обхода страниц можно увидеть на странице Индексирование -> Статистика обхода.Google: отчет: статистика сканирования сайта.Также можно проверить обход сайта всеми поисковыми роботами с помощью анализа серверных логов сайта (Access logs). Например, через программу SEO Log File Analyser.Как часто происходит индексация сайтаПоисковые боты постоянно равномерно загружают страницы сайта, далее выкладывая их в обновленный индекс: Google обновляет индекс в постоянном режиме, Яндекс во время апдейтов поисковой базы, примерно раз в три дня.Частота сканирования и переиндексации каждого отдельного сайта различается, и зависит от факторов:

объем контента/страниц сайта

краулинговый спрос поисковой системы для текущего сайта

настройки скорости сканирования в вебмастерах

скорость работы сайта

Как улучшить и ускорить индексацию сайтаРекомендации для увеличения охвата страниц индексом поисковых систем:

качественный уникальный контент, востребованный пользователями

все основные страницы должны быть в валидных сайтмапах sitemap.xml

оптимизация вложенности страниц

оптимизация краулингового спроса/бюджета

хорошая скорость сайта

закрывать лишние страницы, чтобы не тратить на них ресурсы роботов

внутренняя перелинковка

создание ротарора на сайте (Ловец ботов)

Как ограничить скорость сканирования сайтаОбычно если требуется ограничить нагрузку, которую создают роботы, то у сайта большие проблемы и это негативно скажется на его индексации. Боты стараются быть “хорошими” юзерами и сканируют сайт равномерно, стараясь не перегружать сервера.То что сайт от этого испытывает проблемы с нагрузкой, в 90% случаев может быть сигналом к смене хостинга/сервера или оптимизации производительности CMS. Но в случае крайней необходимости все таки можно задать рекомендуемую скорость сканирования сайта.Для ограничения скорости обхода сайта можно воспользоваться инструментами Яндекс.Вебмастер и GoogleЯндекс:Google:
В старой версии консоли можно было временно ограничить максимальную скорость сканирования сайтаВ обновленной консоли такой возможности нет, но можно отправить сообщение о проблеме с активностью GoogleBot’а на сайте – https://www.google.com/webmasters/tools/googlebot-report10 действенных способов заставить Google индексировать ваш сайтЕсли ваш сайт не индексируется Google, то он практически невидим. Он не будет попадать в результаты поиска и получать естественный трафик. Совсем. Вообще. Ничего.Если вы читаете эту статью, то это вам уже и так известно. Так что перейдем сразу к делу.Эта статья поможет вам решить три проблемы:

Ваш сайт вообще не индексируется.

Часть страниц сайта индексируется, а часть — нет.

Свежеопубликованные статьи индексируются недостаточно быстро.

Но сперва давайте убедимся, что мы имеем в виду одно и то же, когда говорим об «индексировании».Что такое краулинг и индексирование?Google находит новые страницы при помощи паука, который ползает по Всемирной паутине («краулинг» дословно означает «ползание») и добавляет страницы в свою базу данных — индекс. Этот паук называется поисковым роботом, а у робота Google есть собственное имя — Гуглбот (Googlebot).Запутались? Давайте дадим определения основным терминам.

Краулинг — процесс перехода по гиперссылкам в Интернете с целью нахождения нового контента.

Индексирование — процесс сохранения каждой веб-страницы в обширной базе данных.

Поисковый робот — Программа, которая выполняет краулинг.

Googlebot — поисковый робот Google.

Вот видео от Google, в котором этот процесс подробно объясняется:

Когда вы ищете что-то в поисковике Google, он выдает все релевантные страницы из своей базы данных — индекса. Поскольку часто запросу могут соответствовать миллионы страниц, алгоритм ранжирования Google делает все возможное, чтобы отсортировать их так, чтобы первыми шли страницы, которые лучше всего отвечают запросу.

Тут важно понимать, что индексирование и ранжирование — это совершенно разные вещи.

Индексирование — это регистрация на участие в гонке, а ранжирование — это распределение призовых мест.

Нельзя победить в гонке, не зарегистрировавшись сперва.

Как узнать, есть ли ваш сайт в индексе Google

Откройте сайт Google и введите в поиск site:ваш_сайт.com

Это число примерно показывает, сколько страниц вашего сайта содержится в индексе Google.

Если вы хотите узнать состояние индексирования конкретного URL-адреса, используйте тот же самый оператор site:ваш_сайт.com/адрес_страницы.

Если результатов не будет, значит, страницы нет в индексе.

Стоит заметить, что если вы пользуетесь Google Search Console, то можете воспользоваться отчетом «Покрытие», чтобы получить более точные сведения о состоянии индексирования вашего сайта. Просто перейдите в раздел:

Google Search Console > Индексирование > Покрытие

Посмотрите на число действительных страниц (с предупреждениями и без).

Если эти числа в сумме отличаются от нуля, значит, по крайней мере часть страниц вашего сайта содержится в индексе Google. Если же оба числа равны нулю, то у вас серьезная проблема, поскольку ни одна страница сайта не проиндексирована.

Примечание.

Вы не пользуетесь Google Search Console? Зарегистрируйтесь. Это бесплатно. Каждый владелец сайта, которого заботит поисковый трафик, должен использовать Google Search Console. Да, настолько это важно.

В Search Console можно также проверить, проиндексирована ли конкретная страница. Для этого вставьте ее URL-адрес в Инструмент проверки URL.

Если страница проиндексирована, то сервис выдаст сообщение «URL есть в индексе Google».

Если нет — то «URL нет в индексе Google».

Как сделать так, чтобы Google индексировал ваш сайт

Обнаружили, что Google не индексирует ваш сайт или страницу? Попробуйте следующее:

Откройте Google Search Console.
Перейдите в Инструмент проверки URL.
Вставьте в строку поиска URL-адрес, который вы хотите видеть в индексе Google.
Подождите, пока Google проверит адрес.
Нажмите кнопку «Запросить индексирование».

Это полезно делать, когда вы публикуете новую статью или страницу. Так вы напрямую сообщаете Google о том, что добавили что-то новое на свой сайт и что поисковику следует взглянуть на это.

Однако непосредственный запрос не поможет решить глубинные проблемы, которые препятствуют индексированию старых страниц. Если это ваш случай, то пройдитесь по приведенному ниже списку, чтобы диагностировать и решить проблему.

Вот ссылки на каждую тактику — на случай, если вы пробовали часть из них:

Удалите блокирующие условия из файла robots.txt
Удалите шальные теги noindex
Добавьте адрес страницы в файл sitemap
Удалите шальные теги canonical
Проверьте, не является ли страница сиротой
Почините внутренние nofollow-ссылки
Добавьте «сильные» внутренние ссылки
Убедитесь, что страница уникальна и обладает ценностью
Удалите некачественные страницы (чтобы оптимизировать «краулинговый бюджет»)
Получите качественные обратные ссылки

1) Удалите блокирующие условия из файла robots.txt

Google не индексирует весь ваш сайт? Причиной может быть блокирующее условие в файле robots.txt.

Чтобы проверить эту возможность, перейдите по адресу ваш_сайт.com/robots.txt.

Посмотрите, нет ли в тексте одного из этих фрагментов:

User-agent: Googlebot</p>
<p>Disallow: /

User-agent: *</p>
<p>Disallow: /

Оба этих фрагмента сообщают Гуглботу, что ему нельзя сканировать страницы вашего сайта. Чтобы исправить проблему, просто удалите их. И всё.

Блокирующее условие в файле robots.txt может быть виновным и в том случае, когда Google не индексирует отдельную страницу. Чтобы проверить этот вариант, вставьте адрес страницы в Инструмент проверки URL в Google Search Console. Откройте раздел «Покрытие» и поищите ошибку «Сканирование разрешено? Нет: заблокировано через robots.txt».

Эта ошибка указывает на то, что страница заблокирована в файле robots.txt.

В таком случае поищите в файле robots.txt любые правила «disallow», относящиеся к странице или содержащему ее подкаталогу.

Важная страница заблокирована для индексирования в файле robots.txt.

Если нужно, удалите эти правила.

2) Удалите шальные теги noindex

Google не станет индексировать страницы, если попросить об этом. Так вы можете оградить некоторые страницы от публичного доступа. Есть два способа сделать это:

Способ 1: тег meta

Страницы с одним из этих тегов meta в секции <head> не индексируются Google:

&amp;lt;meta name=“robots” content=“noindex”&amp;gt;

&amp;lt;meta name=“googlebot” content=“noindex”&amp;gt;

Это мета-тег robots, который сообщает поисковым системам, следует ли им индексировать данную страницу.

Примечание.

Главная часть — это значение “noindex”. Если вы видите его, значит, страница помечена как неиндексируемая.

Чтобы найти на своем сайте все страницы с мета-тегом noindex, запустите сканирование в сервисе Site Audit от Ahrefs. Перейдите в отчет Indexability («Индексируемость»). Поищите предупреждения «Noindex page» («Неиндексируемая страница»).

Нажмите на одно из них, чтобы увидеть все такие страницы. Удалите мета-тег noindex со всех страниц, где он не нужен.

Способ 2: X‑Robots-Tag

Поисковые роботы также учитывают заголовок HTTP-ответа X‑Robots-Tag. Вы можете реализовать его на скриптовом языке для серверной стороны типа PHP, через файл .htaccess file или через изменение конфигурации своего сервера.

Инструмент проверки URL в Search Console позволяет узнать, блокирует ли Google сканирование страницы из-за заголовка. Просто введите свой URL-адрес, а затем поищите ошибку «Индексирование разрешено? Нет: обнаружено значение ‘noindex’ в HTTP-заголовке X‑Robots-Tag».

Если вы хотите исправить эту проблему на своем сайте, запустите сканирование в сервисе Site Audit от Ahrefs, а затем примените фильтр «Robots information in HTTP header» («Информация для роботов в заголовке HTTP») в разделе Page Explorer:

Попросите своего разработчика исключить страницы, которые нужно индексировать, из числа тех, что возвращают такой заголовок

Рекомендуем прочесть: Использование HTTP-заголовка X‑Robots-Tag для поисковой оптимизации: Секреты и хитрости

3) Добавьте адрес страницы в файл sitemap

Файл sitemap сообщает Google, какие страницы вашего сайта важны, а какие нет. Также он может рекомендовать, как часто следует повторно сканировать определенные страницы.

Google способен находить страницы на вашем сайте независимо от того, представлены ли они в файле sitemap, но хорошей практикой является указание важных страниц. В конце концов, нет смысла усложнять работу Google.

Чтобы проверить, указана ли страница в файле sitemap, используйте Инструмент проверки URL в Search Console. Если вы увидите ошибку «URL нет в индексе Google» и «Sitemap: н/д», значит, страницы нет в файле sitemap или индексе.

Не пользуетесь Search Console? Перейдите по URL-адресу своего файла sitemap — обычно этоваш_сайт.com/sitemap.xml — и поищите адрес страницы.

Либо, если вы хотите найти все сканируемые и индексируемые страницы, которых нет в файле sitemap, запустите сканирование в сервисе Site Audit от Ahrefs. Перейдите в Page Explorer и примените следующие фильтры:

Вы получите список страниц, которые следует добавить в файл sitemap. Когда вы это сделаете, сообщите Google о том, что вы обновили свой файл sitemap, перейдя по этому URL:

http://www.google.com/ping?sitemap=<полный_URL_адрес_файла_sitemap>

Только подставьте туда URL-адрес своего файла sitemap. Вы увидите что-то подобное:

Это должно ускорить индексирование страницы поисковой системой.

4) Удалите шальные теги canonical

Тег каноничности (тег canonical) сообщает Google о канонической версии страницы. Выглядит он так:

<link rel=“canonical” href=“/страница.html”/>

Большая часть страниц либо не имеют тега canonical, либо содержат так называемый автореферентный тег canonical. Он сообщает поисковой системе о том, что страница сама является канонической, а возможно, и единственной версией. Другими словами, вы хотите, чтобы эта страница индексировалась.

Но если на страницу затесался шальной тег canonical, он может направить Google на каноническую версию страницы, которая на самом деле не существует. В таком случае страница не будет проиндексирована.

Чтобы проверить такую возможность, воспользуйтесь Инструментом проверки URL от Google. Если тег каноничности указывает на другую страницу, то вы увидите предупреждение «Альтернативная каноническая страница».

Если такого быть не должно, и вы хотите, чтобы страница индексировалась, удалите тег каноничности.

ВАЖНО

Имейте в виду, что теги каноничности не всегда плохи. Чаще всего они добавляются не просто так. Если вы видите, что ваша страница содержит такой тег, проверьте страницу, которая указана как каноническая. Если окажется, что это и правда приоритетная версия страницы, которую нужно индексировать, то тег canonical следует оставить.

Если вы хотите быстро найти все шальные теги canonical на своем сайте, запустите сканирование в сервисе Site Audit от Ahrefs. Перейдите в раздел Page Explorer. Используйте такие настройки:

Они запустят поиск страниц в файле sitemap с неавтореферентными тегами каноничности. Если поиск с этим фильтром выдаст какие-либо результаты, вам следует разобраться с ними, поскольку вы наверняка хотели бы, чтобы эти страницы индексировались.

Высока вероятность того, что эти страницы либо содержат ошибочные теги каноничности, либо наоборот — не должны находиться в файле sitemap.

5) Проверьте, не является ли страница сиротой

Страницы-сироты — это такие страницы, на которые не ведет ни одной внутренней ссылки.

Поскольку Google находит новый контент, перемещаясь по Всемирной паутине от одной страницы к другой, он не может найти таким образом страницы-сироты. Точно так же их не смогут найти посетители сайта.

Чтобы найти страницы-сироты, просканируйте свой сайт при помощи сервиса Site Audit от Ahrefs. Затем откройте отчет Incoming links (Входящие ссылки) для ошибок «Orphan page (has no incoming internal links)» («Страница-сирота (не имеет входящих ссылок)»):

В нем показаны все индексируемые страницы, указанные в файле sitemap, на которые при этом не ведет ни одна внутренняя ссылка.

ВАЖНО

Чтобы это сработало, должны быть выполнены два условия:

Все страницы, которые вы хотите видеть индексированными, указаны в вашем файле sitemap.
При создании проекта в сервисе Site Audit от Ahrefs вы поставили галочку «Использовать страницы в файлах sitemap как исходные пункты для сканирования».

Вы не уверены, что все страницы, которые вы хотите видеть индексированными, указаны в файле sitemap? Попробуйте следующее:

Загрузите полный список страниц вашего сайта (через систему CMS).
Просканируйте сайт (при помощи Site Audit от Ahrefs или подобного сервиса).
Сравните полученные списки URL-адресов.

Все адреса, не найденные в процессе сканирования, принадлежат страницам-сиротам.

Вы можете решить проблему страниц-сирот двумя способами:

Если страница не важна, удалите ее и уберите из файла sitemap.
Если страница важна, добавьте ее в схему внутренних ссылок сайта.

6) Почините внутренние nofollow-ссылки

Nofollow-ссылки — это ссылки с тегом rel=“nofollow”. Они препятствуют передаче показателя PageRank целевому URL-адресу. К тому же, Google не сканирует nofollow-ссылки.

Вот что об этом заявляют в Google:

По сути, использование атрибута nofollow заставляет Google не включать целевые ссылки в общий граф сети. Тем не менее, целевые страницы все равно могут попасть в наш индекс, если на других сайтах встретятся ссылки на них без атрибута nofollow либо если URL-адреса будут указаны в файле Sitemap.

Короче говоря, вам нужно убедиться, что внутренние ссылки на индексируемые страницы не должны иметь атрибута nofollow.

Для этого просканируйте свой сайт при помощи Site Audit от Ahrefs. В отчете Incoming links (Входящие ссылки) поищите индексируемые страницы с ошибками «Page has nofollow incoming internal links only» («На страницу ведут только внутренние nofollow-ссылки»):

Удалите атрибут nofollow из внутренних ссылок, если вы хотите, чтобы Google индексировал страницы, на которые они ведут. Если нет, то удалите страницы либо пометьте их тегом noindex.

Рекомендуем прочесть: Что такое nofollow-ссылки? Все, что вам нужно знать (без жаргона!)

7) Добавьте «сильные» внутренние ссылки

Google находит новый контент, сканируя ваш сайт. Если вы пренебрегаете созданием внутренних ссылок, то поисковик может и не найти некоторые страницы.

Одно из простых решений этой проблемы — добавить несколько внутренних ссылок, ведущих на нужную страницу. Разместить ссылки можно на любых других страницах, которые Google может сканировать и индексировать. Но если вы хотите, чтобы Google проиндексировал целевой контент как можно быстрее, то лучше всего разместить ссылку на одной из самых «сильных» страниц.

Почему? Потому что Google сканирует такие страницы чаще.

Для этого перейдите в Site Explorer от Ahrefs, введите адрес своего сайта, а затем откройте отчет Best by links (Лучшие по ссылкам).

В нем будут перечислены все страницы вашего сайта, отсортированные по показателю URL Rating (UR). Другими словами, он показывает первыми самые авторитетные страницы.

Пролистайте этот список, чтобы найти подходящие страницы, куда можно добавить внутренние ссылки на интересующую страницу.

Например, если мы хотим добавить внутреннюю ссылку на руководство по гостевому постингу, то руководство по линкбилдингу вполне подойдет для этого. Последняя страница очень кстати оказывается 11‑й по авторитетности в нашем блоге:

В следующий раз, когда Google будет сканировать эту страницу, он обнаружит новую ссылку и перейдет по ней.

СОВЕТ

Вставьте адрес страницы, на которой вы разместили внутреннюю ссылку, в Инструмент проверки URL от Google. Нажмите «Запросить индексирование», чтобы сообщить поисковой системе о том, что содержание страницы изменилось, и ее следует отсканировать заново. Это может ускорить процесс нахождения и индексирования той страницы, на которую ведет ссылка.

8) Убедитесь, что страница уникальна и обладает ценностью

Google, как правило, не индексирует некачественные страницы, которые не представляют ценности для пользователей. Вот что Джон Мюллер из Google говорил об индексировании в 2018 году:

Мы не индексируем все существующие URL-адреса, и это нормально. Сосредоточьтесь на том, чтобы делать сайт замечательным и вдохновляющим, и тогда у вас не будет проблем с индексированием.
— John (@JohnMu) January 3, 2018

То есть, если вы хотите, чтобы Google проиндексировал ваш сайт или страницу, их содержание должно быть «замечательным и вдохновляющим».

Если вы не находите технических причин отсутствия индексирования, возможно, виновником является отсутствие ценности. Поэтому нелишне будет взглянуть на страницу свежим взглядом и спросить себя, действительно ли эта страница имеет ценность и принесет ли она пользу тому, кто перейдет на нее из результатов поиска.

Если ответом будет «нет», значит, вам следует улучшить свой контент.

Вы можете использовать Site Audit от Ahrefs и URL Profiler, чтобы найти другие потенциально некачественные страницы, которые не индексируются. Для этого перейдите в раздел Page Explorer в Site Audit и установите такие настройки:

Так вы получите «слабые» страницы — индексируемые, но не приносящие в данный момент естественного трафика. Высока вероятность того, что они не проиндексированы.

Экспортируйте отчет, а затем вставьте все URL-адреса в URL Profiler и запустите проверку Google Indexation (Индексирование в Google).

Источник: https://urlprofiler.com/blog/google-indexation-checker-tutorial/

ВАЖНО

Если вы выполняете эту проверку для большого числа страниц (больше 100), то рекомендуется использовать прокси. Иначе вы рискуете тем, что Google забанит ваш IP-адрес. Если вариант с прокси не подходит, то введите в поиск Google «массовая проверка индексации в google бесплатно». Есть целый ряд инструментов, но в большинстве из них нельзя проверить более 25 страниц за раз.

Проверьте качество страниц, которые не индексируются. Улучшите качество, где это необходимо, и запросите индексирование в Google Search Console.

Также следует проверить возможность дублирования контента. Google старается не индексировать страницы-копии и очень похожие страницы. Загляните в отчет Content quality (Качество контента) в сервисе Site Audit, чтобы проверить этот вариант.

9) Удалите некачественные страницы (чтобы оптимизировать «краулинговый бюджет»)

Слишком большое число некачественных страниц на сайте приводит к пустой трате краулингового бюджета.

Вот что об этом говорят в Google:

[Страницы-с-низкой-ценностью] отвлекают на себя активность сканирования от страниц, которую действительно имеют ценность, что способно приводить к значительным задержкам в обнаружении хорошего контента на сайте.

Представьте, что учитель проверяет сочинения, одно из которых — ваше. Если ему нужно оценить десять сочинений, то он довольно быстро доберется до вашего. Если сочинений будет сто, то ему потребуется гораздо больше времени. Если их будут тысячи, то нагрузка будет слишком высокой, и учитель может вообще никогда не добраться до оценки вашего сочинения.

В Google заявляют, что «краулинговый бюджет […] — это не то, о чем большинству стоит беспокоиться», и что «если на сайте меньше нескольких тысяч адресов, то большую часть времени он будет сканироваться эффективно».

Тем не менее, удаление некачественных страниц с вашего сайта никогда не повредит. Это только пойдет на пользу краулинговому бюджету.

Вы можете использовать наш шаблон аудита контента, чтобы найти потенциально некачественные и нерелевантные страницы, которые можно удалить.

10) Получите качественные обратные ссылки

Обратные ссылки сообщают Google о том, что страница, на которую они ведут, важна. Раз кто-то дает на нее ссылку, значит, у нее должна быть некая ценность, верно? Поэтому Google индексирует страницы с обратными ссылками.

Для полной прозрачности Google индексирует не только страницы, имеющие обратные ссылки. Есть множество (миллиарды) проиндексированных страниц без обратных ссылок. Но поскольку Google считает страницы с качественными ссылками более важными, поисковик будет быстрее и чаще сканировать такие страницы, чем те, у которых нет обратных ссылок. То есть, индексирование страниц с качественными обратными ссылками происходит быстрее.

В нашем блоге есть много материалов по созданию качественных обратных ссылок.

Ниже приведены ссылки на некоторые из них.

Индексирование и ранжирование — это разные вещи

Наличие вашего сайта в индексе Google не означает, что он будет попадать в выдачу и приносить трафик.

Это разные вещи.

Индексирование означает только то, что Google известно о существовании вашего сайта. Это не означает, что ваш сайт будет показан в топе выдачи по подходящим запросам.

Тут-то и вступает в дело SEO — искусство оптимизации веб-страниц для попадания в топ выдачи по определенным запросам.

В общих чертах поисковая оптимизация (SEO) включает в себя:

Определение тем, которые ищут ваши клиенты.
Создание контента на эти темы.
Оптимизацию созданных страниц под целевые ключевые фразы.
Наращивание обратных ссылок.
Постоянное поддержание контента в актуальном состоянии.

Вот видео, которое поможет разобраться в основах SEO:

…И несколько статей:

Напоследок

Есть только две возможные причины, почему Google не индексирует ваш сайт или веб-страницу:

Технические проблемы, которые не дают поисковому роботу сделать это.
Качество контента — Google считает ваш сайт или страницу некачественными и бесполезными для своих пользователей.

Вполне возможно, что имеют место обе эти проблемы. Но, по моему опыту, технические проблемы встречаются гораздо чаще. Технические проблемы также могут стать причиной автоматического создания индексируемого некачественного контента (например, проблемы с фасетной навигацией). Это нехорошо.

Но проход по приведенному выше списку в девяти случаях из десяти должен решить проблемы индексирования.

Только не забывайте, что индексирование и ранжирование — это разные вещи. Выполнение поисковой оптимизации по-прежнему жизненно необходимо, если вы хотите вывести свои страницы в топ выдачи по подходящим поисковым запросам и привлечь стабильный поток естественного трафика.

Перевела Кирик Наталья, владелец студии по написанию текстов для сайтов WordFactory.ua

Что такое Индексация сайта?

Индексация сайта — это процесс сканирования Вашего сайта поисковыми роботами и внесения всей полученной информации (текстов, ссылок, изображений и так далее) в базу поисковой системы. Соответственно, для того, чтобы Ваш сайт появился в результатах выдачи поисковой системы, он должен быть проиндексирован и добавлен в базу. Эта база и называется “индекс”. До тех пор, пока роботы поисковой системы не проиндексируют Ваш сайт, его в поисковой выдаче не будет, а это, в свою очередь, означает, что пользователи не смогут найти Ваш сайт.

Поисковая система осуществляет индексирование сайта с помощью поисковых роботов. Поисковые роботы — программы автоматизированного получения данных, бороздящие сеть в поисках информации и ссылок на информацию. Поисковый робот обращается по протоколу HTTP к серверам, на которых хранятся страницы сайта, и получает в ответ тело страниц. Робот подчиняется указаниям, прописанным в файле robots.txt , который лежит в корневой папке сервера. В robots.txt указывается, какие страницы запрещены к индексации роботом.

После обработки документа модулями робота, документ анализируется html-парсером, который оставляет только самое нужное и весомое для поиска: текст, оформление, ссылки и адреса. Все это при поиске будет влиять на ранжирование странички.

После обработки парсером происходит индексирование документа. При этом используются алгоритмы морфологического анализа. В конце концов, документ инвертируется и добавляется к основному индексу. Управление роботом поисковой системы ограничено и заключается, в основном, в установлении запретом на индексацию некоторых страниц сайта. На само расписание робота, на частоту его посещения можно лишь оказывать косвенное влияние.

Поисковый робот посещает страницу сайта исходя из того, как часто изменяется содержание этой страницы. На часто обновляемые страницы робот может ходить каждый день и даже чаще. Например, если это страница новостного сайта. Когда же страница изменяется нечасто, то робот посещает ее один-два раза в неделю. Те страницы, содержимое которых не меняется, все равно посещаются роботом, однако очень редко, не более трех раз в месяц.

При этом за один заход робот запрашивает не более 20-30 страничек с сайта. Это связано с тем, что роботы стараются не загружать сервер своими запросами. На сайт с большим количеством страниц робот ходит часто и каждый раз берет только небольшую «порцию» страниц.

Робот – это один из основных элементов любой поисковой системы. Он выполняет очень важные функции, связанные с индексацией сайтов Интернета. Из информации, добытой роботом, формируется индексная база поисковой системы, которая непосредственным образом влияет на качество поиска.

Аудитор индексирует страницы вашего сайта аналогично поисковым роботам вплоть до HTML кода, используя те же критерии ранжирования сайтов, что и поисковые системы. Переходя по доступным ссылкам на страницах сайта, аудитор сканирует страницы, собирая содержимое с учетом морфологии. Далее информация попадает в базу данных. Следующий этап- это анализ информации, после которого система выдает подробный отчет по каждой страницы вашего сайта с рекомендациями по устранению ошибок.

Индексирование

— Computer Science Wiki

 Индексирование - это процесс, с помощью которого поисковые системы систематизируют информацию перед поиском, чтобы обеспечить сверхбыстрые ответы на запросы. ^[2]

Индекс поиска — это совокупность структурированных данных, на которые ссылается поисковая система при поиске результатов, релевантных определенному запросу. Индексы являются важной частью любой поисковой системы, поскольку они должны быть адаптированы к конкретному методу поиска информации алгоритма поисковой системы.Таким образом, алгоритм и индекс неразрывно связаны друг с другом. Индекс также может использоваться как глагол (индексирование), относящийся к процессу сбора неструктурированных данных веб-сайта в структурированном формате, адаптированном для алгоритма поисковой системы.

Один из способов подумать об индексах — это рассмотреть следующую аналогию между поисковой инфраструктурой и офисной файловой системой. Представьте, что вы передаете стажеру пачку тысяч листов бумаги (документов) и просите его разложить эти листы в картотеке (указателе), чтобы помочь компании найти информацию более эффективно.Стажер сначала должен будет отсортировать документы и получить представление обо всей содержащейся в них информации, затем они должны будут выбрать систему для их размещения в картотеке, а затем, наконец, им нужно будет решить, что является наиболее эффективный способ поиска и выбора файлов, когда они находятся в кабинете. В этом примере процесс организации и хранения документов соответствует процессу индексации содержимого веб-сайта, а метод поиска в этих организованных файлах и поиска наиболее релевантных соответствует алгоритму поиска.^[3]

Поисковая индексация собирает, анализирует и сохраняет данные, чтобы облегчить быстрый и точный поиск информации. Дизайн индекса включает междисциплинарные концепции из лингвистики, когнитивной психологии, математики, информатики и информатики. Альтернативное название процесса в контексте поисковых систем, предназначенных для поиска веб-страниц в Интернете, — это веб-индексирование. ^[4]

Поисковые системы индексируют веб-сайты, чтобы как можно быстрее отвечать на поисковые запросы с соответствующей информацией.По этой причине он хранит информацию об индексированных веб-страницах, например ключевое слово, заголовок или описания в базе данных. Таким образом поисковые системы могут быстро определять страницы, релевантные поисковому запросу.

Индексирование имеет дополнительную цель — придать странице определенный вес, как описано в алгоритмах поиска. Таким образом, результаты поиска могут быть ранжированы после индексации. ^[5]

Когда вы смотрите на страницу результатов поиска, вы сравниваете результаты своего поискового запроса с веб-индексом этой поисковой системы.

Это изображение использовано с разрешения Stone Temple ^[6]

Сеть знаний [править]

Стандарты

[править]

Эти стандарты используются из руководства IB Computer Science Subject Guide ^[7]

Обозначьте цель веб-индексации в поисковых системах.

Ссылки [править]

Как работает поиск в Google для начинающих

Google получает информацию из множества различных источников, в том числе:

Интернет-страницы
Материалы, отправленные пользователями, например материалы, предоставленные пользователями Google Мой бизнес и Карты
Сканирование книги
Общедоступные базы данных в Интернете
Многие другие источники

Однако эта страница ориентирована на веб-страницы.Google выполняет три основных шага для получения результатов с веб-страниц:

Ползание

Первый шаг — выяснить, какие страницы существуют в сети. Нет центрального реестра все веб-страницы, поэтому Google должен постоянно искать новые страницы и добавлять их в свой список известные страницы. Некоторые страницы известны, потому что Google уже посещал их раньше. Другие страницы обнаруживаются, когда Google переходит по ссылке с известной страницы на новую. Еще другие страницы обнаруживаются, когда владелец веб-сайта отправляет список страниц (карта сайта ) для сканирования Google.Если вы используете управляемый веб-хостинг, например Wix или Blogger, они могут скажите Google сканировать любые обновленные или новые страницы, которые вы создаете.

Как только Google обнаруживает URL-адрес страницы, он посещает или сканирует страницу, чтобы узнать, что в теме. Google отображает страницу и анализирует как текстовое, так и нетекстовое содержание, а также в целом визуальный макет, чтобы решить, где он может отображаться в результатах поиска. Тем лучше, что Google может понимаем ваш сайт, тем лучше мы сможем сопоставить его с людьми, которые ищут ваш контент.

Для улучшения сканирования вашего сайта:

Убедитесь, что Google может получить доступ к страницам вашего сайта и что они выглядят правильно. Google получает доступ в Интернет как анонимный пользователь (пользователь без паролей или информации). Google должен иметь возможность видеть все изображения и другие элементы страницы, чтобы иметь возможность поймите это правильно. Вы можете выполнить быструю проверку, введя URL своей страницы в поле Удобство для мобильных Контрольная работа.
Если вы создали или обновили одну страницу, вы можете отправить индивидуальный URL-адрес в Google.Чтобы сообщить Google сразу о многих новых или обновленных страницах, используйте карту сайта.
Если вы попросите Google сканировать только одну страницу, сделайте ее своей домашней. Ваш Домашняя страница — это самая важная страница на вашем сайте, с точки зрения Google. Поощрять полное сканирование сайта, убедитесь, что ваша главная страница (и все страницы) содержат хороший сайт система навигации, которая ссылается на все важные разделы и страницы вашего сайта; это помогает пользователи (и Google) ориентируются на вашем сайте.Для небольших сайтов (менее 1000 страниц) информировать Google только о вашей домашней странице — это все, что вам нужно, при условии, что Google может охватить все ваши другие страницы, следуя пути ссылок, которые начинаются с вашей домашней страницы.
Свяжите свою страницу с другой страницей, о которой Google уже знает. Однако имейте в виду, что ссылки в рекламных объявлениях, ссылки, за которые вы платите на других сайтах, ссылки в комментарии или другие ссылки, которые не следуют за Google Google не будет следовать рекомендациям для веб-мастеров.

Google не принимает платежи за более частое сканирование сайта или его ранжирование. выше. Если кто-то говорит вам иное, он ошибается.

Индексирование

После того, как страница обнаружена, Google пытается понять, о чем она. Этот процесс называется с индексированием . Google анализирует содержание страницы, каталогизирует изображения и видеофайлы, встроенные в страницу, и в противном случае пытается понять страницу. Эта информация хранится в индексе Google , огромной базе данных, хранящейся на многих, многих (многих!) компьютерах.

Для улучшения индексации вашей страницы:

Создавайте короткие содержательные заголовки страниц.
Используйте заголовки страниц, которые передают тему страницы.
Используйте текст, а не изображения для передачи контента. Google может понимать некоторые изображения и видео, но не так хорошо, как он может понимать текст. Как минимум, аннотируйте свой видео и изображения с замещающим текстом и др. атрибуты в зависимости от обстоятельств.

Обслуживание (и рейтинг)

Когда пользователь вводит запрос, Google пытается найти наиболее релевантный ответ в его индексе. основанный на многих факторах.Google пытается определить наиболее качественные ответы и учитывать другие соображения, которые обеспечат лучший пользовательский опыт и наиболее подходящий ответ, учитывая такие вещи, как местоположение пользователя, язык и устройство (настольный компьютер или телефон). Например, поиск по запросу «мастерская по ремонту велосипедов» покажет пользователю разные ответы. в Париже, чем пользователю в Гонконге. Google не принимает оплату за ранжирование страниц выше, и ранжирование выполняется программно.

Для улучшения обслуживания и рейтинга:

Еще более длинная версия

Хотите получить более подробную информацию о том, как работает поиск? Прочтите наш расширенный руководство по работе Google Search.

5 самых распространенных проблем индексирования Google в зависимости от размера веб-сайта

Google открыто заявляет о том, что не индексирует все страницы, которые может найти. Используя Google Search Console, вы можете увидеть страницы вашего сайта, которые не проиндексированы.

Google Search Console также предоставляет полезную информацию о конкретной проблеме, из-за которой страница не проиндексировалась.

Эти проблемы включают ошибки сервера, ошибки 404 и намеки на то, что на странице может быть тонкое или дублированное содержимое.

Но мы никогда не увидим никаких данных, показывающих, какие проблемы наиболее распространены во всей сети.

Итак… Я решил сам собирать данные и составлять статистику!

В этой статье мы рассмотрим наиболее популярные проблемы индексации, из-за которых ваши страницы не отображаются в Google Поиске.

Индексирование 101

Индексирование похоже на создание библиотеки, за исключением того, что Google занимается веб-сайтами, а не книгами.

Если вы хотите, чтобы ваши страницы отображались в поиске, они должны быть правильно проиндексированы. Проще говоря, Google должен их найти и сохранить.

Продолжить чтение ниже

Затем Google может проанализировать их контент, чтобы решить, для каких запросов они могут быть релевантными.

Индексирование — необходимое условие для получения органического трафика от Google.А чем больше проиндексировано страниц вашего сайта, тем больше у вас шансов появиться в результатах поиска.

Вот почему для вас очень важно знать, может ли Google индексировать ваш контент.

Вот что я сделал для выявления проблем с индексированием

Мои повседневные задачи включают оптимизацию веб-сайтов с технической точки зрения SEO, чтобы сделать их более заметными в Google, и в результате у меня есть доступ к нескольким десяткам сайтов в поиске Google. Приставка.

Я решил использовать это, чтобы, надеюсь, сделать популярные проблемы индексирования… ну, менее популярными.

Для прозрачности я разбил методологию, которая привела меня к некоторым интересным выводам.

Методология

Я начал с создания образца страниц, объединив данные из двух источников:

Я использовал данные наших клиентов, которые были мне легко доступны.
Я попросил других SEO-специалистов поделиться со мной анонимными данными, опубликовав опрос в Twitter и напрямую связавшись с некоторыми SEO-специалистами.

Продолжить чтение ниже

SEO-специалисты, мне нужно 3-10 минут вашего времени.
Можете ли вы помочь мне с моими исследованиями по индексированию и поделиться со мной неконфиденциальной статистикой GSC?
Когда я найду что-нибудь интересное, я опубликую об этом статью.
Заранее спасибо! Пожалуйста, R / T
🙏🙏 https://t.co/vAwMulQtsx
— Томек Рудски (@TomekRudzki) 9 ноября 2020 г.

Оба оказались полезными источниками информации.

Исключение неиндексируемых страниц

В ваших интересах не индексировать некоторые страницы.К ним относятся старые URL-адреса, статьи, которые больше не актуальны, параметры фильтрации в электронной торговле и многое другое.

Веб-мастера могут убедиться, что Google игнорирует их несколькими способами, включая файл robots.txt и тег noindex.

Принятие во внимание таких страниц отрицательно повлияет на качество моих выводов, поэтому я удалил страницы, которые соответствовали любому из критериев, приведенных ниже, из образца:

Заблокировано файлом robots.txt.
Помечено как noindex.
Перенаправлено.
Возвращает код состояния HTTP 404.

Исключение малоценных страниц

Чтобы еще больше улучшить качество моего образца, я рассмотрел только те страницы, которые включены в карты сайта.

Исходя из моего опыта, карты сайта являются наиболее четким представлением ценных URL-адресов с данного веб-сайта.

Конечно, есть много сайтов, на картах которых есть мусор. Некоторые даже включают одни и те же URL-адреса в свои карты сайта и файлы robots.txt.

Но я позаботился об этом на предыдущем шаге.

Категоризация данных

Я обнаружил, что популярные проблемы индексирования зависят от размера веб-сайта.

Вот как я разделил данные:

Небольшие веб-сайты (до 10 000 страниц).
Средние сайты (от 10к до 100к страниц).
Большие сайты (до миллиона страниц).
Огромные сайты (более 1 миллиона страниц).

Из-за различий в размере веб-сайтов в моей выборке мне пришлось найти способ нормализовать данные.

Один очень большой веб-сайт, борющийся с определенной проблемой, может перевесить проблемы, которые могут иметь другие, более мелкие веб-сайты.

Продолжить чтение ниже

Итак, я просмотрел каждый веб-сайт индивидуально, чтобы отсортировать проблемы индексации, с которыми они борются. Затем я назначил баллы проблемам индексации в зависимости от количества страниц, затронутых данной проблемой на данном веб-сайте.

И вердикт …

Вот пять основных проблем, которые я обнаружил на веб-сайтах любого размера.

Просканировано — в настоящее время не проиндексировано (проблема качества).
Повторяющееся содержимое.
Обнаружено — в настоящее время не индексируется (проблема с бюджетом сканирования / качеством).
Мягкий 404.
Проблема со сканированием.

Давайте разберем их.

Качество

Проблемы с качеством заключаются в том, что ваши страницы тонкие по содержанию, вводят в заблуждение или чрезмерно предвзяты.

Если на вашей странице нет уникального ценного содержания, которое Google хочет показать пользователям, вам будет сложно его проиндексировать (и не стоит удивляться).

Дублированное содержимое

Google может распознать некоторые из ваших страниц как повторяющееся содержание, даже если вы не планировали этого.

Распространенная проблема — канонические теги, указывающие на разные страницы. В результате исходная страница не индексируется.

Объявление

Продолжить чтение ниже

Если у вас действительно есть дублированный контент, используйте атрибут канонического тега или 301 редирект.

Это поможет вам убедиться, что одни и те же страницы вашего сайта не конкурируют друг с другом за просмотры, клики и ссылки.

Краулинговый бюджет

Что такое краулинговый бюджет? В зависимости от нескольких факторов робот Googlebot будет сканировать только определенное количество URL-адресов на каждом веб-сайте.

Это означает, что оптимизация жизненно важна; не позволяйте ему тратить время на страницы, которые вам не интересны.

Soft 404s

Ошибка 404 означает, что вы отправили удаленную или несуществующую страницу для индексации. Программные 404 отображают информацию «не найден», но не возвращают на сервер код состояния HTTP 404.

Распространенная ошибка — перенаправление удаленных страниц на другие, не относящиеся к делу.

Множественные перенаправления также могут отображаться как мягкие ошибки 404. Стремитесь максимально сократить цепочки переадресации.

Проблема сканирования

Существует много проблем со сканированием, но одна из важных — это проблема с файлом robots.txt. Если робот Googlebot находит файл robots.txt для вашего сайта, но не может получить к нему доступ, он вообще не будет сканировать сайт.

Продолжить чтение ниже

Наконец, давайте посмотрим на результаты для веб-сайтов разных размеров.

Маленькие веб-сайты

Размер выборки: 44 сайта

Просканировано, в настоящее время не проиндексировано (проблема качества или бюджета сканирования).
Повторяющееся содержимое.
Проблема с обходным бюджетом.
Мягкий 404.
Проблема со сканированием.

Средние сайты

Размер выборки: 8 сайтов

Повторяющийся контент.
Обнаружено, в настоящее время не индексируется (проблема с бюджетом сканирования / качеством).
Просканировано, в настоящее время не индексируется (проблема качества).
soft 404 (проблема качества).
Проблема со сканированием.

Большие сайты

Размер выборки: 9 сайтов

Просканировано, в настоящее время не проиндексировано (проблема качества).
Обнаружено, в настоящее время не индексируется (проблема с бюджетом сканирования / качеством).
Повторяющееся содержимое.
Мягкий 404.
Проблема со сканированием.

Огромные веб-сайты

Размер выборки: 9 сайтов

Просканировано, в настоящее время не проиндексировано (проблема качества).
Обнаружено, в настоящее время не индексируется (проблема с бюджетом сканирования / качеством).
Повторяющийся контент (дубликат, отправленный URL не выбран как канонический).
Мягкий 404.
Проблема со сканированием.

Основные выводы об общих проблемах индексирования

Интересно, что, согласно этим результатам, два размера веб-сайтов страдают от одних и тех же проблем. Это показывает, насколько сложно поддерживать качество в случае крупных веб-сайтов.

Читать ниже

Больше 100 тысяч, но меньше 1 миллиона.
Больше 1 миллиона.

Выводы, однако, таковы:

Даже относительно небольшие веб-сайты (более 10 тыс.) Могут быть не полностью проиндексированы из-за недостаточного бюджета сканирования.
Чем больше размер веб-сайта, тем серьезнее становятся проблемы с бюджетом на сканирование и качеством.
Проблема дублирования контента серьезная, но ее характер меняется в зависимости от веб-сайта.

П.С. Примечание об URL-адресах, неизвестных для Google

В ходе исследования я понял, что существует еще одна распространенная проблема, препятствующая индексации страниц.

Возможно, он не занял свое место в приведенных выше рейтингах, но по-прежнему имеет большое значение, и я был удивлен, увидев, что он по-прежнему так популярен.

Я говорю о страницах-сиротах.

Некоторые страницы вашего веб-сайта могут не иметь внутренних ссылок, ведущих на них.

Продолжить чтение ниже

Если у робота Google нет пути для поиска страницы на вашем веб-сайте, он может не найти ее вообще.

Какое решение? Добавьте ссылки со связанных страниц.

Вы также можете исправить это вручную, добавив потерянную страницу в карту сайта. К сожалению, многие веб-мастера до сих пор пренебрегают этим.

Дополнительные ресурсы:

11 советов и приемов SEO для улучшения индексации

После того, как сайт заработал или превысил определенный возраст, большинство веб-мастеров больше не заботятся о своем краулинговом бюджете.

Пока вы продолжаете ссылаться на новые сообщения блога в какой-то момент своего веб-сайта, он должен просто отображаться в индексе Google или Bing и начинать ранжирование.

Только спустя время вы замечаете, что ваш сайт начинает терять рейтинг ключевых слов, и ни одна из ваших новых публикаций даже не попадает в первую сотню по целевому ключевому слову.

Это может быть просто результатом технической структуры вашего сайта, тонкого содержания или изменений нового алгоритма, но это также может быть вызвано очень проблемной ошибкой сканирования.

С учетом того, что в индексе Google сотни миллиардов веб-страниц, вам необходимо оптимизировать бюджет сканирования, чтобы оставаться конкурентоспособными.

Вот 11 советов и приемов, которые помогут оптимизировать скорость сканирования и повысить рейтинг ваших веб-страниц в поиске.

1. Отслеживание статуса сканирования с помощью консоли поиска Google

Ошибки в вашем статусе сканирования могут указывать на более глубокую проблему на вашем сайте.

Продолжить чтение ниже

Проверка статуса сканирования каждые 30-60 дней важна для выявления потенциальных ошибок, которые влияют на общую эффективность маркетинга вашего сайта. Это буквально первый шаг SEO; без него все остальные усилия будут нулевыми.

Прямо на боковой панели вы сможете проверить статус сканирования на вкладке индекса.

Теперь, если вы хотите закрыть доступ к определенной веб-странице, вы можете напрямую сообщить об этом Search Console. Это полезно, если страница временно перенаправлена или имеет ошибку 404.

Объявление

Продолжить чтение ниже

Параметр 410 навсегда удалит страницу из индекса, поэтому остерегайтесь использования ядерной опции.

Распространенные ошибки сканирования и решения

Если ваш веб-сайт, к сожалению, испытывает ошибку сканирования, это может потребовать простого решения или указывать на гораздо более серьезную техническую проблему на вашем сайте.Наиболее частые ошибки сканирования, которые я вижу:

Ошибки DNS
Ошибки сервера
Ошибки Robots.txt
404 ошибки

Чтобы диагностировать некоторые из этих ошибок, вы можете использовать инструмент Fetch as Google. насколько эффективно Google просматривает ваш сайт.

Неспособность правильно получить и отобразить страницу может указывать на более глубокую ошибку DNS, которую должен устранить ваш провайдер DNS.

Для устранения ошибки сервера требуется диагностировать конкретную ошибку, на которую можно ссылаться в этом руководстве.К наиболее частым ошибкам относятся:

Тайм-аут
В соединении отказано
Соединение не удалось
Тайм-аут соединения
Нет ответа

В большинстве случаев ошибка сервера обычно носит временный характер, хотя для устранения постоянной проблемы может потребоваться обращение напрямую к вашему хостинг-провайдеру.

Продолжить чтение ниже

Ошибки Robots.txt, с другой стороны, могут быть более проблематичными для вашего сайта. Если ваш файл robots.txt возвращает ошибку 200 или 404, это означает, что поисковые системы не могут получить этот файл.

Вы можете отправить карту сайта robots.txt или вообще отказаться от протокола, выбрав вручную страницы noindex, которые могут быть проблематичными для вашего сканирования.

Быстрое устранение этих ошибок гарантирует, что все ваши целевые страницы будут просканированы и проиндексированы при следующем сканировании вашего сайта поисковыми системами.

2. Создание веб-страниц, удобных для мобильных устройств

С появлением индекса, ориентированного на мобильные устройства, мы также должны оптимизировать наши страницы для отображения удобных для мобильных устройств копий в индексе для мобильных устройств.

Хорошая новость заключается в том, что копия для настольного компьютера все равно будет индексироваться и отображаться в индексе для мобильных устройств, если копия, адаптированная для мобильных устройств, не существует. Плохая новость в том, что в результате может пострадать ваш рейтинг.

Существует множество технических настроек, которые могут мгновенно сделать ваш сайт более мобильным, включая:

Реализация адаптивного веб-дизайна.
Вставка метатега точки обзора в контент.
Минимизация ресурсов на странице (CSS и JS).
Пометка страниц с помощью кеша AMP.
Оптимизация и сжатие изображений для более быстрой загрузки.
Уменьшение размера элементов пользовательского интерфейса на странице.

Продолжить чтение ниже

Обязательно протестируйте свой веб-сайт на мобильной платформе и запустите его через Google Pagespeed Insights. Скорость страницы является важным фактором ранжирования и может повлиять на скорость, с которой поисковые системы могут сканировать ваш сайт.

3. Регулярно обновляйте контент

Поисковые системы будут сканировать ваш сайт более регулярно, если вы регулярно создаете новый контент.Это особенно полезно для издателей, которым необходимо регулярно публиковать и индексировать новые статьи.

Регулярное создание контента сигнализирует поисковым системам о том, что ваш сайт постоянно совершенствуется и публикует новый контент и, следовательно, его необходимо сканировать чаще, чтобы охватить целевую аудиторию.

4. Отправьте карту сайта в каждую поисковую систему

Одним из лучших советов по индексации и по сей день остается отправка карты сайта в Google Search Console и Bing Webmaster Tools.

Вы можете создать версию XML с помощью генератора карты сайта или вручную создать ее в Google Search Console, пометив каноническую версию каждой страницы, содержащей повторяющееся содержание.

Продолжить чтение ниже

5. Оптимизируйте схему взаимосвязей

Создание согласованной информационной архитектуры имеет решающее значение для обеспечения того, чтобы ваш веб-сайт не только был правильно проиндексирован, но и правильно организован.

Создание основных категорий услуг, в которых могут размещаться связанные веб-страницы, может дополнительно помочь поисковым системам правильно индексировать содержимое веб-страниц по определенным категориям, когда намерение может быть неясным.

6. Глубокая ссылка на изолированные веб-страницы

Если веб-страница на вашем сайте или субдомене создается изолированно или есть ошибка, препятствующая сканированию, вы можете проиндексировать ее, получив ссылку на внешнем домен. Это особенно полезная стратегия для продвижения нового контента на вашем веб-сайте и его более быстрой индексации.

Объявление

Продолжить чтение ниже

Остерегайтесь синдицирования контента для достижения этой цели, поскольку поисковые системы могут игнорировать синдицированные страницы и могут создавать повторяющиеся ошибки, если они не будут должным образом канонизированы.

7. Уменьшите количество ресурсов на странице и увеличьте время загрузки

Принуждение поисковых систем к сканированию больших и неоптимизированных изображений съест ваш бюджет сканирования и предотвратит частое индексирование вашего сайта.

Поисковые системы также испытывают трудности со сканированием определенных внутренних элементов вашего веб-сайта. Например, Google исторически изо всех сил пытался сканировать JavaScript.

Даже определенные ресурсы, такие как Flash и CSS, могут плохо работать на мобильных устройствах и съедать ваш краулинговый бюджет.В некотором смысле это беспроигрышный сценарий, когда скорость страницы и бюджет сканирования приносятся в жертву из-за навязчивых элементов на странице.

Не забудьте оптимизировать скорость своей веб-страницы, особенно на мобильных устройствах, уменьшив количество ресурсов на странице, например CSS. Вы также можете включить кеширование и сжатие, чтобы пауки быстрее сканировали ваш сайт.

8. Исправление страниц с помощью тегов Noindex

В ходе разработки вашего веб-сайта может иметь смысл внедрить тег noindex на страницах, которые могут дублироваться или предназначены только для пользователей, которые предпринимают определенные действия.

Продолжить чтение ниже

Тем не менее, вы можете идентифицировать веб-страницы с тегами noindex, которые мешают их сканированию, с помощью бесплатного онлайн-инструмента, такого как Screaming Frog.

Плагин Yoast для WordPress позволяет легко переключать страницу с индекса на noindex. Вы также можете сделать это вручную на внутренней стороне страниц вашего сайта.

9. Установите настраиваемую скорость сканирования

В старой версии Google Search Console вы действительно могли замедлить или настроить скорость сканирования, если пауки Google негативно влияют на ваш сайт.

Это также дает вашему веб-сайту время для внесения необходимых изменений, если он подвергается значительному изменению дизайна или миграции.

10. Устранение дублированного контента

Наличие большого количества дублированного контента может значительно замедлить скорость сканирования и съесть ваш бюджет сканирования.

Продолжить чтение ниже

Вы можете устранить эти проблемы, заблокировав индексирование этих страниц или разместив канонический тег на странице, которую вы хотите проиндексировать.

Аналогичным образом, стоит оптимизировать метатеги каждой отдельной страницы, чтобы поисковые системы не принимали похожие страницы за дублированный контент при сканировании.

11. Блокируйте страницы, сканирование которых не должно выполняться пауками

В некоторых случаях вы можете запретить поисковым системам сканировать определенную страницу. Это можно сделать следующими способами:

Размещение тега noindex.
Размещение URL-адреса в файле robots.txt.
Удаление страницы полностью.

Это также может помочь вашему сканированию работать более эффективно, вместо того, чтобы заставлять поисковые системы пропускать дублированный контент.

Заключение

Скорее всего, если вы уже следуете передовым методам SEO, вам не о чем беспокоиться с вашим статусом сканирования.

Конечно, никогда не помешает проверить статус сканирования в Google Search Console и провести регулярный внутренний аудит ссылок.

Продолжить чтение ниже

Дополнительные ресурсы:

Авторы изображений

Все скриншоты сделаны автором, январь 2019 г.

Что Google сканирует и индексирует?

SEO — это очень большое, глубокое море.Чтобы полностью понять SEO, мы должны знать некоторые основные термины SEO.

Сканирование и индексирование — два таких термина.

Если вы какое-то время были в Интернете, вы по крайней мере слышали слова:

Сканирование и индексирование Google.

Это два термина, от которых зависит весь веб-мир .

Давайте определимся, разберемся и получим подробную информацию о сканировании и индексировании.

Ползание:

Когда Google посещает ваш веб-сайт в целях отслеживания. Этот процесс выполняется поисковым роботом Google Spider.

Индексирование:

После завершения сканирования результаты помещаются в индекс Google (т. Е. В веб-поиск).

Что такое сканирование Google?

Сканирование в основном означает, что следует по пути.

В мире SEO сканирование означает переход по вашим ссылкам, и «сканирование» по вашему сайту.Когда боты приходят на ваш сайт (любую страницу), они переходят на другие связанные страницы также на вашем сайте.

Это одна из причин, по которой мы создаем карты сайта, , , потому что они содержат все ссылки в нашем блоге, и боты Google могут использовать их, чтобы глубоко заглянуть в веб-сайт. ВНИМАНИЕ !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

Способ, которым мы останавливаем сканирование определенных частей нашего сайта, заключается в использовании файла Robots.txt.

Что такое индексирование Google?

С точки зрения непрофессионала, индексирование — это процесс добавления веб-страниц в поиск Google.

В зависимости от того, какой метатег вы использовали (index или NO-index), Google будет сканировать и индексировать ваши страницы. Тег без индекса означает, что страница не будет добавлена в индекс веб-поиска.

По умолчанию индексируются все записи и страницы WordPress.

Хорошая идея для , занимающего более высокое место в поисковых системах , — позволить проиндексировать только жизненно важные части вашего блога / веб-сайта.

Не индексируйте ненужные архивы , такие как теги, категории и все другие бесполезные страницы.

Факторы, влияющие на сканирование:

На Земле миллионов веб-сайтов . Все ли довольны скоростью сканирования и индексации ?? Нет!! Большинство людей постоянно задаются вопросом, почему их статьи не индексируются.

Давайте посмотрим на некоторые основные факторы , которые играют важную роль на сервере сканирования и индексирования.

Обратные ссылки

Чем больше у вас обратных ссылок , тем более надежным и авторитетным вы будете в глазах поисковых систем.

Если у вас хороший рейтинг, но вы не получаете никаких обратных ссылок для своего сайта, поисковые системы могут предположить, что у вас некачественного содержания .

Читать:

Лучшие 5 инструментов онлайн-проверки обратных ссылок
101 способ получить качественные обратные ссылки на ваш блог

Внутренние ссылки

Было так много обсуждений , касающихся внутренних ссылок (также известных как глубокие ссылки).Люди даже предлагают использовать тот же якорный текст в одной статье, поскольку это помогает при глубоком сканировании сайта.

Важно помнить, что внутренние ссылки — это хорошая практика не только для SEO, но и для поддержания активных пользователей на вашем сайте.

XML Карта сайта

В тот момент, когда вы создаете сайт в WordPress, вам рекомендуется использовать карту сайта XML , чтобы ваша карта сайта могла быть автоматически сгенерирована . Таким образом, Google будет проинформирован о том, что ваш сайт обновлен, и захочет его просканировать.

Читать:

Как отправить карту сайта в Google

Дубликаты содержания

Это может быть очень плохо для вас.

Недавно я нашел сайт, на котором было так много повторяющихся абзацев, разбросаны по разным сообщениям. Этот сайт был заблокирован Google из-за такой практики.

Старайтесь не иметь дублированного контента на вашем сайте.

Исправьте все ваши 301 и 404 перенаправления для еще лучшего сканирования и SEO.

Читать:

Как исправить проблему «Replytocom», чтобы избежать дублирования контента
Используйте Robots.txt для борьбы с дублирующимся контентом

Канонизация URL-адресов

Создайте оптимизированные для SEO URL-адреса для каждой страницы вашего сайта.

Это огромных для правильного SEO.

Читать:

Что такое канонизация URL-адресов и как правильно использовать канонические теги?

Мета-теги

Иметь уникальные и неконкурентные метатеги для вашего сайта.Это гарантирует, что у вас будет на вершине рейтинга в поисковых системах. Избегайте каннибализации ключевых слов любой ценой, они также снижают рейтинг.

Читать:

Как использовать анализатор метатегов во время SEO

Проверка связи

Убедитесь, что добавил все основные сайты ping на ваш сайт WordPress. WordPress имеет функцию автоматического пинга, которая будет информировать поисковые системы об обновлениях вашего сайта.

Читать:

Пинг-лист WordPress

Когда вы оптимизируете свой веб-сайт на основе этих факторов, у Google не будет другого выбора, кроме как сканировать и индексировать вашу страницу быстрее и точнее.

Что вы делаете для более быстрой индексации вашего сайта? Присоединяйтесь к обсуждению в комментариях ниже!

Было ли это руководство полезным? Поделитесь им с друзьями в Facebook, Twitter и Google Plus!

8 способов быстро проиндексировать ваши страницы в Google // WEBRIS

Если страница не находится в индексе Google, вероятность того, что она получит обычный трафик, составляет 0%.

Индексация, если говорить упрощенно, — это шаг 2 в процессе ранжирования Google:

Ползание
Индексирование
Рейтинг

Эта статья посвящена тому, как заставить Googlebot индексировать больше страниц на вашем сайте быстрее.

3 подсказки для 3-х потенциальных клиентов от Google

Мы помогли сотням веб-сайтов получить больше потенциальных клиентов с помощью поиска Google. Нажмите ниже, чтобы получить бесплатную инструкцию.

Как проверить, проиндексированы ли ваши страницы Google

Первый шаг — понять, каков уровень индексации вашего веб-сайта.

Коэффициент индексации = количество страниц в индексе Google / количество страниц на вашем сайте

Вы можете узнать, сколько страниц ваш веб-сайт проиндексировал, в отчете Google Search Console о статусе индексации.

Если вы видите ошибки или большое количество страниц вне индекса:

В вашей карте сайта могут быть неиндексируемые URL (т.е. страницы, настроенные на NOINDEX, заблокированные через robots.txt или требующие входа пользователя)
На вашем сайте может быть большое количество «некачественных» или повторяющихся страниц, которые Google считает недостойными
Вашему сайту может не хватить «авторитета», чтобы оправдать все страницы

Подробности можно найти в таблице ниже (это отличная новая функция в обновленной консоли поиска Google).

Как проиндексировать страницы вашего сайта

Ненавижу быть клише, но вам действительно нужно предоставить правильный интерфейс, чтобы привлечь внимание Google.Если ваш сайт не соответствует рекомендациям Google в отношении доверия, авторитета и качества, эти советы, скорее всего, вам не подойдут.

С учетом сказанного, вы можете использовать эту тактику для улучшения индексации вашего сайта.

1. Использовать «Выбрать как Google»

Google Search Console имеет функцию, позволяющую вводить URL-адрес для Google для «Fetch». После отправки робот Googlebot посетит вашу страницу и проиндексирует ее.

Вот как это сделать…

Войти в Google Search Console
Перейти к сканированию и загрузке как Google
Возьмите URL, который вы хотите проиндексировать, и вставьте его в строку поиска.
Нажмите кнопку Получить
После того, как Google найдет URL, нажмите Отправить в индекс

Предполагая, что страница индексируется, она будет загружена в течение нескольких часов.

2. Используйте внутренние ссылки

Поисковые системы перемещаются со страницы на страницу по ссылкам HTML.

Изображение предоставлено

Мы можем использовать авторитетные страницы на вашем сайте, чтобы привлечь внимание других. Мне нравится использовать отчет Ahrefs «Лучшие страницы по ссылкам».

В этом отчете представлены самые авторитетные страницы моего сайта — я могу просто добавить отсюда внутреннюю ссылку на страницу, которая требует справедливости.

Важно отметить, что две взаимосвязанные страницы должны быть релевантными — не рекомендуется связывать несвязанные страницы вместе.

Прочтите мое руководство по бункерам для внутренних ссылок

3. Блокировать страницы низкого качества из индекса Google

Хотя контент является краеугольным камнем качественного веб-сайта, неправильный контент может стать вашей кончиной. Слишком много страниц низкого качества может уменьшить количество сканирований, индексации и ранжирования вашего сайта Google.

По этой причине мы хотим периодически «обрезать» наш веб-сайт, удаляя ненужные страницы.

Страниц, не представляющих никакой ценности, должно быть:

Установите NOINDEX .Когда страница все еще имеет ценность для вашей аудитории, но не для поисковых систем (например, страницы с благодарностью, платные целевые страницы и т. Д.).
Заблокировано сканированием через файл Robots.txt . Когда весь набор страниц имеет ценность для вашей аудитории, но не для поисковых систем (например, архивы, пресс-релизы).
301 перенаправлено . Когда страница не имеет ценности для вашей аудитории или поисковых систем, но имеет существующий трафик или ссылки (подумайте о старых сообщениях в блогах со ссылками).
Удалено (404) .Когда страница не имеет ценности для вашей аудитории или поисковых систем и не имеет существующего трафика или ссылок.

Мы создали инструмент аудита контента, который поможет вам в этом процессе.

4. Включите страницу в карту сайта

Карта сайта — это руководство, которое поможет поисковым системам понять, какие страницы на вашем сайте важны.

Наличие страницы в вашей карте сайта НЕ гарантирует индексацию, но отсутствие важных страниц приведет к снижению индексации.

Если ваш сайт работает на WordPress, невероятно легко настроить и отправить карту сайта с помощью плагина (мне нравится Yoast).

Подробнее о создании карты сайта

После того, как ваша карта сайта создана и отправлена в GSC, вы можете просмотреть ее в отчете о файлах Sitemap.

Дважды проверьте, включены ли все страницы, которые вы хотите проиндексировать. Трижды проверьте, НЕ включены ли все страницы, которые вы НЕ хотите индексировать.

5.Поделиться страницей в Twitter

Twitter — мощная сеть, которую Google регулярно сканирует (они также индексируют твиты).

Поделиться своим контентом в социальных сетях несложно, но это также простой способ подтолкнуть Google.

6. Делитесь страницей на сайтах с высокой посещаемостью

Сайты, такие как Reddit и Quora, являются популярными сайтами, которые позволяют размещать ссылки. Я регулярно продвигаю недавно опубликованные страницы на Quora — это помогает с индексацией, но также может привлечь кучу трафика.

Если вам лень (и вы в серой шляпе), вы можете купить «социальные сигналы» на таких сайтах, как Fiver.

7. Закрепите внешние ссылки на страницу

Как упоминалось ранее, Google сканирует со страницы на страницу с помощью HTML-ссылок.

Получение ссылок на ваш сайт с других сайтов — это не только важный фактор ранжирования, но и отличный способ повысить индексирование вашего сайта.

Самых простых способов получить ссылки:

Гостевой пост на актуальном авторитетном сайте
Найдите соответствующих блоггеров или сайты СМИ и отправьте запрос на рекламу.

Это сильно упрощено — вы можете проверить мою лучшую тактику построения ссылок для получения дополнительных идей.

8. «Пинг» ваш сайт

таких сайтов, как Ping-O-Matic, которые отправляют «пинги» поисковым системам, чтобы уведомить их об обновлении вашего блога.

Честно говоря, это не лучший метод, но он быстрый, бесплатный и простой в использовании

Дополнительные ссылки:

Как заставить Google индексировать ваш сайт (быстрее)

Чтобы ваши целевые страницы, блоги, домашние страницы и другой онлайн-контент отображались в результатах поисковой системы Google, вам необходимо убедиться, что ваш веб-сайт индексируется.Индекс Google — это в основном база данных.

Когда люди используют поисковую систему для поиска контента, Google обращается к своему индексу, чтобы предоставить релевантный контент. Если ваша страница не проиндексирована, значит, ее нет в поисковой системе Google. Это плохие новости, если вы надеетесь привлечь на свой сайт обычный трафик с помощью обычного поиска.

В этом руководстве подробно рассказывается об индексировании и его важности. В нем также объясняется, как вы можете проверить, проиндексирована ли ваша страница, как исправить общие технические проблемы SEO, которые вызывают проблемы с индексированием, и как быстро заставить Google повторно проиндексировать ваш сайт, если он еще не проиндексирован.

Индекс Google — это просто список всех веб-страниц, о которых знает поисковая система. Если Google не проиндексирует ваш сайт, он не появится в результатах поиска Google.

Это как если бы вы написали книгу, но ее нет в книжных магазинах или библиотеках. Книгу никто никогда не найдет. Они могли даже не знать о его существовании. И если бы читатель искал эту книгу, ему было бы очень трудно ее найти.

Сайты, которые не проиндексированы, отсутствуют в базе данных Google.Таким образом, поисковая система не может отображать эти веб-сайты на страницах результатов поиска (SERP).

Чтобы индексировать веб-сайты, поисковые роботы Google (Googlebot) должны «сканировать» этот веб-сайт. Узнайте больше о разнице между возможностью сканирования и индексирования.

В качестве напоминания, вот краткий обзор процесса поисковой системы:

Сканирование : боты поисковых систем сканируют веб-сайт, чтобы выяснить, стоит ли его индексировать. Веб-пауки, или «Googlebot», всегда сканируют сеть, переходя по ссылкам на существующих веб-страницах в поисках нового содержания.
Индексирование : поисковая система добавляет веб-сайт в свою базу данных (в случае Google — «Индекс»).
Рейтинг : поисковая система оценивает веб-сайт по таким показателям, как релевантность и удобство использования.

Индексирование означает, что сайт хранится в базах данных Google. Это не значит, что он будет отображаться в верхней части поисковой выдачи. Индексирование контролируется заранее определенными алгоритмами, которые учитывают такие элементы, как спрос веб-пользователей и проверки качества.Вы можете влиять на индексацию, управляя тем, как «пауки» обнаруживают ваш онлайн-контент.

Пройдите технический SEO-аудит

с помощью Semrush Site Audit

Нет никаких сомнений в том, что вы хотите, чтобы ваш сайт был проиндексирован, но как узнать, есть это или нет? К счастью, гигант поисковых систем позволяет довольно легко узнать, где вы находитесь, с помощью поиска по сайту. Вот как это проверить:

Зайдите в поисковую систему Google.
В строке поиска Google введите «site: example.com. »
Когда вы заглянете под панель поиска, вы увидите категории результатов Google «Все», «Изображения», «Новости» и т. Д. Прямо под этим вы увидите приблизительное количество ваших страниц, проиндексированных Google. .
Если отображается ноль результатов, страница не проиндексирована.

Кроме того, вы можете использовать Google Search Console, чтобы проверить, проиндексирована ли ваша страница. Создать учетную запись можно бесплатно. Вот как получить нужную информацию:

Войдите в Google Search Console.
Щелкните «Указатель».
Щелкните «Покрытие».
Вы увидите количество проиндексированных действительных страниц.
Если количество действительных страниц равно нулю, Google не проиндексировал вашу страницу.

Вы также можете использовать Search Console, чтобы проверить, проиндексированы ли определенные страницы. Просто вставьте URL-адрес в инструмент проверки URL-адресов. Если страница проиндексирована, вы получите сообщение «URL находится в Google.”

Чтобы проиндексировать сайт, Google может потребоваться от нескольких дней до нескольких недель. Это может расстраивать, если вы только что открыли страницу и обнаружили, что она не проиндексирована. Как можно открыть для себя вашу новую красивую веб-страницу через Google? К счастью, есть шаги, которые можно предпринять для более эффективного индексирования. Ниже мы объясним, что вы можете сделать, чтобы ускорить процесс.

Самый простой способ проиндексировать ваш сайт — это запросить индексацию через Google Search Console.Для этого перейдите в инструмент проверки URL в Google Search Console. Вставьте URL-адрес, который вы хотите проиндексировать, в строку поиска и дождитесь, пока Google проверит URL-адрес. Если URL не проиндексирован, нажмите кнопку «Запросить индексирование».

Примечание. Google временно отключил инструмент индексирования запросов в октябре 2020 года. Однако он был только что восстановлен в Search Console!

Однако индексация Google требует времени. Как уже упоминалось, если ваш сайт новый, он не будет проиндексирован в одночасье. Кроме того, если ваш сайт не настроен должным образом для сканирования роботом Googlebot, есть вероятность, что он вообще не будет проиндексирован.

Независимо от того, являетесь ли вы владельцем сайта или интернет-маркетологом, вы хотите, чтобы ваш сайт был эффективно проиндексирован. Вот как это сделать.

Robots.txt — это файлы, которые робот Googlebot распознает как индикатор того, что он НЕ должен сканировать веб-страницу. Пауки поисковых систем от Bing и Yahoo также распознают Robots.txt. Вы могли бы использовать файлы Robots.txt, чтобы помочь сканерам определить приоритетность более важных страниц, чтобы они не перегружали ваш сайт запросами.

Хотя все это может показаться немного техническим, все сводится к обеспечению возможности сканирования вашей страницы, и вы можете получить дополнительную помощь в обнаружении этого с помощью нашего встроенного средства проверки SEO.Он обеспечивает обратную связь по оптимизации, включая технические изменения, например, блокировку сканирования страницы.

SEO-теги — еще один способ направлять пауков поисковых систем, таких как Googlebot. Есть два основных типа SEO-тегов, которые следует оптимизировать.

Неверные теги noindex : Эти теги запрещают поисковым системам индексировать страницы. Если определенные страницы не индексируются, возможно, у них есть теги noindex. Проверьте эти два типа:
- Мета-теги : Вы можете проверить, какие страницы вашего веб-сайта могут иметь метатеги noindex, просмотрев предупреждения «noindex page».Если страница помечена как noindex, удалите метатег, чтобы она проиндексировалась.
- X-Robots-Tag : вы можете использовать Google Search Console, чтобы узнать, на каких страницах есть X-Robots-Tag в заголовке HTML. Используйте инструмент проверки URL-адресов, описанный выше. После входа на страницу найдите ответ на «Индексирование разрешено?» Если вы видите слова «Нет:« noindex »обнаружен в http-заголовке« X ‑ Robots-Tag »», значит, вам нужно удалить X-Robots-Tag.
Канонические теги : Канонические теги сообщают сканерам, предпочтительна ли определенная версия страницы.Если на странице нет канонического тега, робот Googlebot распознает, что это предпочтительная страница и единственная версия этой страницы, и проиндексирует эту страницу. Если на странице есть канонический тег, робот Googlebot предполагает, что существует альтернативная предпочтительная версия этой страницы, и не будет индексировать эту страницу, даже если другой версии не существует. Используйте инструмент проверки URL-адресов Google, чтобы проверить наличие канонических тегов. В этом случае вы увидите предупреждение «Альтернативная страница с каноническим тегом».

Внутренние ссылки помогают сканерам находить ваши веб-страницы.Страницы без ссылок известны как «страницы-сироты» и редко индексируются. Правильная архитектура сайта, изложенная в карте сайта, обеспечивает правильные внутренние ссылки.

XML-карта сайта содержит все содержимое вашего веб-сайта, что позволяет идентифицировать страницы, на которые нет ссылок. Вот еще несколько советов по использованию внутренних ссылок:

Исключить внутренние ссылки nofollow . Когда робот Googlebot сталкивается с тегами nofollow, он сообщает Google, что ему следует удалить указанную с тегами целевую ссылку из своего индекса.Удалите теги nofollow из ссылок.
Добавить высокопоставленные внутренние ссылки . Как уже упоминалось, пауки обнаруживают новый контент, сканируя ваш сайт. Внутренние ссылки ускоряют процесс. Оптимизируйте индексацию, используя страницы с высоким рейтингом для внутренних ссылок на новые страницы.
Создавать качественные обратные ссылки . Google признает, что страницы важны и заслуживают доверия, если на них постоянно ссылаются авторитетные сайты. Обратные ссылки сообщают Google, что страницу следует проиндексировать.

Высокое качество контента имеет решающее значение как для индексации, так и для ранжирования. Чтобы обеспечить высокую эффективность содержания вашего веб-сайта, удалите некачественные и неэффективные страницы.

Это позволяет роботу Googlebot сосредоточиться на наиболее ценных страницах вашего веб-сайта, более эффективно используя ваш «краулинговый бюджет». Кроме того, вы хотите, чтобы каждая страница вашего сайта имела ценность для пользователей.