Содержание

Аналитика поисковых запросов — Вебмастер. Справка

С помощью Вебмастера вы можете отслеживать статистику поисковых запросов, по которым ваш сайт отображается в результатах поиска Яндекса. Анализировать статистику можно в разных разрезах:

  • Динамика состояния сайта по запросам в поиске — на странице Статистика поисковых запросов. Вы можете управлять набором запросов, которые отслеживаете: добавлять собственные, настраивать группы запросов.

  • Оценка состояния страниц сайта, которые отображаются по запросам в поиске — на странице Статистика страниц в поиске.

  • Подбор запросов, которые могут увеличить трафик на сайт: органический и рекламный — на странице Рекомендованные поисковые запросы.

  • Динамика органического трафика вашего сайта в сравнении с другими похожими сайтами — на странице Тренды.

  1. Показатели
  2. Различие статистических данных

Во время анализа вы можете опираться на показатели:

И на средние метрики, например, Позицией сайта считается номер на страницах результатов поиска Яндекса, которому соответствует ссылка, ведущая на ваш сайт. В течение дня сайт может занимать разные позиции по одной поисковой фразе, поэтому сервис показывает среднее значение за весь день.»}}»> и \n

Средняя позиция, на которой\n находился сайт, в момент перехода на него посетителя из результатов поиска.

\n «}}»>.

Вы можете добавить в отчет другие показатели или построить отчет по каждому показателю отдельно. Всего в отчете может быть шесть показателей.

Увеличение показателя за выбранный период отображается зеленым, уменьшение — красным. Разница числовых значений рассчитывается по сравнению с аналогичным предыдущим периодом.

Совет. Если вы заметили, что позиция сайта или число показов снизилось, посмотрите, как можно определить причину изменений.

Данные в Вебмастере могут отличаться от данных Подбора слов (Wordstat) и Метрики. Например, сервисы могут по-разному учитывать время перехода на сайт (если он был сделан в 23.59), также причиной может быть разница часовых поясов.

Основные причины различия данных Вебмастера и Wordstat:

  • Вебмастер учитывает показы и клики из результатов поиска до 50-й позиции, то есть в статистике учитывается только часть данных.

  • Данные могут отображаться с задержкой. Например, в Wordstat разница между получением данных и их отображением может занимать около месяца.

Данные Вебмастера отличаются от данных Метрики, так как в статистике Вебмастера отображаются клики по ссылке на сайт из результатов поиска. В отчете Метрики Поисковые фразы показываются визиты, которые состоялись по таким кликам. При этом количество кликов не всегда равно количеству визитов, так как Метрика может не засчитать клик как визит. Основные причины этого:

  • сайт недоступен в момент перехода по ссылке;

  • счетчик Метрики установлен на сайт некорректно;

  • на странице, на которую посетитель перешел из результатов поиска, отсутствует счетчик Метрики;

  • браузер посетителя не успел загрузить код счетчика;

  • HTTP-заголовок Referer не доступен для учета перехода из поисковой системы.

Подробно об учете статистики см. в Справке Яндекс Метрики.

Если ваш вопрос о снижении позиций сайта по запросам, перейдите в раздел Как улучшить позиции сайта в поиске.

Профессиональный подбор поисковых запросов из Яндекс Wordstat, статистика поисковых запросов

Назначение: Яндекс Вордстат является одним из ключевых инструментов для определения текущего спроса в конкретной тематике, а соответственно формирования актуального семантического ядра. Его активно используют СЕО-оптимизаторы, копирайтеры и веб-мастера.

Поиск ключевых слов по Яндекс вордстат на сегодня один из самых быстрых и удобных способов по подбору ключей для семантического ядра. По опыту, подобрать ключевые слова в этом сервисе онлайн Яндекс — это значит собрать от 30 до 40% всего размера семантического ядра. Дополнительно можно производить поиск ключевых слов в Яндексе через подбор поисковых подсказок, но это уже тема для другой статьи. Сервис абсолютно бесплатен.

Кроме подбора можно выполнять удобный анализ поисковых запросов в Яндекс Вордстат, на сколько запросы целевые и востребованы — для этого в сервисе есть много функционала. Анализ ключевых слов в Яндекс Вордстате сводится к:

  • Анализ частотности слов (популярность запроса) для 3 вариантов соответствия: широкого, фразового, точного.
  • Популярность запросов в разных регионах
  • Определение сезонности поисковой фразы через инструмент «История запросов».

Для автоматизации работы с сервисом есть ряд инструментов: KeyCollector (платная), СловоЁБ (бесплатный вариант KeyCollector),  парсер ключевых слов «Магадан» (платная и бесплатная редакция), расширение для Mozilla Firefox и Google Chrome для Yandex Wordstat Helper, AllSubmitter (модуль «подбор ключевых слов»).

Ниже будет подробнее рассмотрена статистика ключевых слов от Яндекс Вордстат ( wordstat.yandex.ru ), как главный инструмент для подбора статистики запросов яндекс и самих слов. Впрочем, подобрать нужные популярные запросы можно и с помощью другого сервиса от Яндекс – Директ ( direct.yandex.ru ). Он был создан для проведения рекламных кампаний и позволяет тонко настроить показ рекламных блоков, которые будут выводиться по определенным поисковым фразам.

Хотя и тот и другой сервис использует одну и ту же информационную базу, обладает некоторыми схожими функциями, их предназначение абсолютно разное.

— Информация в сервисе обновляется раз в месяц.
— Максимальное количество страниц с результатами — 40.
— Минимальная частотность составляет 1.

Просмотр статистики запросов с помощью Яндекс Wordstat

Для того, чтобы воспользоваться инструментом подбора популярных ключевых слов и увидеть статистику поисковых запросов Яндекс, необходимо быть зарегистрированным пользователем и пройти авторизацию. Если с этим проблем нет, то перейдя на страницу https://wordstat.yandex.ru/ вы сможете сразу приступить к работе.

В поисковой строке следует ввести интересующий запрос. Например, если вы планируете создать информационный веб-сайт на тему ландшафтного дизайна, введите «ландшафтный дизайн».

Через пару секунд,  в левой колонке вы увидите статистику по введенной ключевой фразе. В первой строке будет отображена  фраза и число показов в месяц.

Внимание! Частотность в Яндекс Вордстат и Директ — это не то, сколько вводили данный запрос в поисковой строке Яндекса, а сколько раз показалось объявление Yandex Директ по данному поисковому запросу — это следует запомнить!

Все фразы расположенные ниже – разбавленные словоформы введенного ключа. Не стоит суммировать количество показов по ним, так как все они входят в общее число, указанное в первой строке. Кликнув по одной из них, например, на «ландшафтный дизайн участка», можно узнать статистику конкретно по этому направлению, со всевозможными дополнительными словами.

Чтобы обойти ограничение Яндекса по количеству вариантов запросов, их можно искать в различных формах, пример:  уборка, уборку, уборке, уборкой и т.д. В результате Вы получите больше вариантов поисковых запросов, чем если бы Вы задали только: уборка

В правой строке будут отображены схожие запросы и статистика запросов яндекс по ним. Это очень полезно при составлении и расширении семантического ядра, если, например, основная поисковая фраза не имеет широкого охвата.

Помните, что показатели частотности, очень часто накручены и не всегда соответствуют реальному спросу. Причины:

  • Владельцы сайтов и seo компаний ежедневно мониторят видимость своих сайтов.
  • Работа различных сервисов по проверке позиций, накрутке поведенческих факторов, группировке поисковых запросов.

Настройка региона

Если Вы создаете сайт, ориентированный на определенный регион (например, сайт компании по доставке воды в Москве, или любой городской портал), то статистику поисковых фраз необходимо настроить по регионам. По умолчанию Яндекс Вордстат привязывается к вашему местоположению. Однако, в любом случае, следует указать правильный регион для обработки статистики. Сделать это можно, нажав на соответствующую кнопку под поисковой строкой. Здесь же, можно установить флажок в положение «по регионам» и увидеть частоту использования интересующих вас слов на карте мира.

Для больших регионов: Москва, МО, Санкт-Петербург можно выставлять регион Россия, а после сбора удалить все регионы кроме нужного (в Интернете можно найти очень много списков регионов России, Белоруссии, Украины). Так можно получить более широкий список ключевых фраз.

В отчете «по регионам» можно понять в каких регионах данный запрос пользуется большей  популярностью. А при клике на кнопку «карта» можно визуально увидеть на карте мира частоту использования фразы.

При наведении на страну, процент может быть больше 100. «Региональная популярность» — это доля, которую занимает регион в показах по данному слову, деленная на долю всех показов результатов поиска, пришедшихся на этот регион. Популярность слова/словосочетания, равная 100%, означает, что данное слово в данном регионе ничем не выделено. Если популярность более 100%, это означает, что в данном регионе существует повышенный интерес к этому слову, если меньше 100% — пониженный.

Эти данные можно использовать при формировании контекстной рекламы и принять решение, стоит ли создавать отдельные рекламные кампании под определенные регионы.

Сезонность или история запросов

Инструмент «История запросов» позволяет:

  • Увидеть подробную статистику по месяцам, неделям.
  • Оценить сезонность той или иной тематики.
  • Определить, является ли фраза «пустышкой» (количество показов накручено вебмастерами за короткий период).

Введя поисковую фразу и кликнув на «Историю запросов», можно увидеть статистику показов за год. Например, забив в поиск слов Яндекс Вордстата наш запрос  «ландшафтный дизайн», мы увидим, что данная тема на пике популярности лишь в весенние и летние месяцы. А к новому году частотность едва переваливает за 100 000 показов в месяц.

Сезонность позволяет найти «накрученные» / запросы «пустышки», например, если целый год у фразы частотность равна 0, а последние 1-2 месяца частотность стала 3000. Исключением из правил могут быть явные сезонные запросы, например: купить большую искусственную елку, купить новогодние игрушки, естественно, что летом частота таких запросов будет равна нулю. Исключением могут быть важные новости и события, например: победа неизвестного спортсмена на олимпиаде.
При анализе скачков на графике, желательно проанализировать несколько запросов из группы, чтобы понять общие тенденции к росту и падению графика.

Яндекс Вордстат будет полезен начинающим вебмастерам, которые создают свой первый сайт. С его помощью они могут подобрать ключевые фразы со стабильной популярностью. Это позволит им не зависеть от времени года и иметь более стабильный доход.

Операторы wordstat здесь не работают! Следует помнить, что этот отчет не поддерживает никаких операторов языка запросов. Сезонность запроса Яндекс не даёт информации с использованием операторов “кавычки”, “знак восклицания” и всех других. В этом отчете Яндекс выдаёт информацию по самому широкому типу соответствия.

Операторы в Yandex Вордстат для подбора ключевых слов

Поисковая форма в Wordstat поддерживает 5 операторов, используя которые можно: «Уточнить запросы», «Исключить ненужные слова», «Объединить данные по нескольким запросам»:

  • Оператор «-». Если поставить его перед определенным словом, то из выборки исчезнут все запросы, которые содержат это слово. Пример: Купить велосипед bmx –бу –москва
  • Оператор «( | )». Его используют для добавления в выборку синонимов. Например, конструкция «Авиабилеты в (Стамбул|Анталию)» равнозначна двум запросам: «Авиабилеты в Стамбул» и «Авиабилеты в Анталию».
  • Оператор «!» — точное соответствие. Нужен для того, чтобы введенные вами слова учитывались сервисом в точной форме, без изменения окончаний или склонений.
  • Оператор кавычки «» — фразовое соответствие. Взяв нужное словосочетание в кавычки, можно убрать из выборки все разбавленные запросы, содержащие дополнительные слова и оставить только его точную форму и словоформы.
  • Оператор «+». Союзы и предлоги будут учитываться лишь в том случае, если перед ними поставить этот оператор. В противном случае они будут проигнорированы Яндексом.

Пример. Разница в частотности разных соответствий для «все регионы» :

  • Широкое соответствие – уборка квартир — 15 912 показов в месяц
  • Фразовое соответствие – «уборка квартир» — 1 963 показов в месяц
  • Точное соответствие – «!уборка !квартир» — 1 057 показов в месяц

При подборе поисковых запросов для сайта, необходимо дополнительно проверять частотность по точному соответствию, поскольку очень часто встречаются фразы – «нулевки», при этом по широкому соответствию они могут иметь очень внушительные значения.

Учитывать порядок слов в запросе

Если в ядре есть 2 запроса, которые содержат одни и те же слова, только в разном порядке, то теперь все желающие могут узнать какой из двух вариантов пользователи задают чаще, пример:

Было до появления оператора [ ]: «!купить !елку»  — «469 показов в месяц» или «елку купить»  — «469 показов в месяц»

Стало при использовании оператора [ ]: «купить елку» — «442 показов в месяц» или «елку купить» — «27 показов в месяц»

Вывод: запрос «купить елку» более задаваемый, чем «елку купить».
«Истинная» частотность — 442 показа в месяц у самого популярного варианта — «купить елку».
* проверка выполнялась — 26.09.2016 г.
* ранее для определения правильности написания приходилось прибегать к услугам инструмента «Планировщик ключевых слов» — adwords.google.com

Оператор «[ ]» (квадратные скобки). Позволяет зафиксировать порядок слов в поисковом запросе. При этом учитываются все словоформы и стоп-слова.
Например, по фразе «билеты [из москвы в париж]» объявление будет показано по запросам «билеты на самолет из москвы в париж», «из москвы в париж билеты», но не покажется по запросам «билеты из парижа в москву», «билеты москва париж» или «как из москвы улететь в париж».

Парсинг запросов с фиксированым числом слов

Часто возникает задача собрать все запросы из 2, 3 или 4 слов с вхождением главных маркерных запросов. Приведем два примера, как это сделать:

Пример: если необходимо собрать все 3-х словные запросы в тематике со словам клининг, необходимо сформировать следующую строку — «клининг клининг клининг».

Более компактная альтернативная строка:

  • (клининг ~3) — спарсит все 3-х слованые запросы со словом клининг
  • (клининг ~4) — спарсит все 4-х слованые запросы со словом клининг

Пример 2: Если основной запрос двухсловный и нужно спарсить все 4-х словные запросы с ним, то нужно сформировать следующую строку — «уборка уборка уборка квартир».

Более компактная альтернативная строка: (уборка ~4) квартир.

Особености работы Yandex Wordstat

Минусом прямого парсинга Яндекс Вордстат являются технические ограничения, которые накладывает сам сервис:

  •  При проверке частотностей необходимо формировать отдельные запросы для каждой проверяемой фразы. За счет этого увеличивается время сбора информации.
  • При большом количестве запросов могут понадобиться дополнительные прокси-серверы, т.к. сервис может наложить санкции в виде вечной капчи или бана (также можно попробовать сменить IP-адрес, сбросив подключение к Интернету, если IP-адрес выдается провайдером динамически).

Плагины браузера для удобства работы с Яндекс Вордстат

  • Yandex Wordstat Helper  — Расширение для Mozilla Firefox и Google Chrome, позволяющее значительно ускорить сбор слов с помощью сервиса wordstat.yandex.ru.
  • Yandex Wordstat Assistant — Расширение для браузеров Google Chrome, Яндекс.Браузер и Opera, которое позволяет значительно ускорить ручной сбор слов с помощью сервиса подбора слов Яндекс (wordstat).

Статистика по страницам в результатах поиска

24.03.2021 для повышения качества данных мы улучшили фильтрацию запросов роботов в отчетах по поисковым фразам в Яндекс.Вебмастере. Это может привести к значительным корректировкам значений кликов и показов, что не указывает на наличие проблем на сайте. Эти изменения не влияют на результаты поиска.

Вы можете использовать Яндекс.Вебмастер, чтобы узнать, насколько хорошо страницы вашего сайта привлекают посетителей из результатов поиска Яндекса. Эта информация поможет вам оценить эффективность сниппетов страниц и при необходимости сделать их более информативными.

Яндекс.Вебмастер отображает первые 3000 страниц, попавших в топ-50 позиций в результатах поиска.

Статистика доступна в разделе Поисковый запрос → Статистика страницы.

  1. Доступные показатели
  2. Как можно использовать статистику страницы

Для анализа можно использовать различные показатели. По умолчанию отображаются:

  • \n

    Отображение ссылки на сайт в результатах поиска Яндекса по какому-либо запросу. Возможное наличие ссылки на второй и последующих страницах результатов поиска не считается показом, если пользователь этого не сделал.;t открыть страницу.

    \n «}}»>

  • \n

    Клик пользователя на сайте на странице результатов поиска Яндекса.

    \n «}}»>

  • Отношение количества кликов по сниппету к количеству его показов измеряется в процентах. Этот показатель определяет эффективность фрагмента страницы сайта.»}}»>

Данные обновляются ежедневно. Статистика, предоставляемая в Яндекс.Вебмастере, может отличаться от данных в других сервисах Яндекса. Сведения о расчете и отображении показателей см. в разделе Аналитика поисковых запросов.

Узнайте, какие страницы сайта посещаются чаще всего в том или ином регионе

  1. Выберите регион из списка. В списке показаны регионы, в которых сайт хотя бы раз появлялся в топ-50 поисковой выдачи. Регионы отсортированы по количеству показов.

  2. Сортировать данные по кликам.

Определите, какие фрагменты страниц наиболее эффективны на разных пользовательских устройствах

  1. Выберите тип устройства из списка Все устройства.

  2. Сортировать данные по кликам или CTR.

Оценить эффективность конкретной страницы

Существует несколько способов указать страницу:

Начните вводить URL страницы или выберите ее из списка.



При просмотре отчета по выбранной странице в нем будут отображаться все метрики, доступные в Яндекс.Вебмастере.

Сравнение страниц по одной метрике

Выберите из списка метрику, по которой вы хотите построить отчет. (например, Позиция сайта — это место на странице результатов поиска Яндекса со ссылкой, ведущей на ваш сайт. В течение дня сайт может занимать разные позиции по одним и тем же поисковым запросам, поэтому Яндекс.Вебмастер показывает среднее значение весь день.»}}»>).

Совет. Если вы заметили, что позиции сайта или количество показов уменьшились, посмотрите, как можно узнать причину изменений.

Если ваш вопрос о падении рейтинга сайта, перейдите к разделу Как улучшить рейтинг сайта в поиске?.

Яндекс собирает данные Google и других специалистов по SEO из утечки исходного кода

«Фрагменты» кодовой базы Яндекса просочились в сеть на прошлой неделе. Как и Google, Яндекс — это платформа со многими аспектами, такими как электронная почта, карты, служба такси и т. д. Утечка кода содержала фрагменты всего этого.

Согласно документации, кодовая база Яндекса была объединена в один большой репозиторий под названием Arcadia в 2013 году. Утекшая кодовая база является подмножеством всех проектов в Arcadia, и мы находим в ней несколько компонентов, связанных с поисковой системой в «Ядре», Архивы «Библиотека», «Робот», «Поиск» и «ExtSearch».

Ход совершенно беспрецедентный. С тех пор, как в данных поисковых запросов AOL за 2006 год не было ничего такого, что могло бы стать достоянием общественности, материалы, относящиеся к поисковой системе.

Хотя нам не хватает данных и многих файлов, на которые есть ссылки, это первый пример реального взгляда на то, как современная поисковая система работает на уровне кода.

Лично я не могу смириться с тем, какое фантастическое время для того, чтобы увидеть код, когда я заканчиваю свою книгу «Наука SEO», где я рассказываю о поиске информации, о том, как на самом деле работают современные поисковые системы, и как самому построить простую.

В любом случае, я разбирал код с прошлого четверга, и любой инженер скажет вам, что времени недостаточно, чтобы понять, как все работает. Итак, я подозреваю, что будет еще несколько постов, пока я продолжаю возиться.

Прежде чем мы начнем, я хочу поблагодарить Бена Уиллса из Онтоло за то, что он поделился со мной кодом, указал мне начальное направление, где находится хороший материал, и ходил со мной туда и обратно, пока мы расшифровывали вещи. Не стесняйтесь взять электронную таблицу со всеми данными, которые мы собрали о факторах ранжирования, здесь.

Кроме того, спасибо Райану Джонсу за то, что он покопался и поделился со мной некоторыми важными выводами через мгновенные сообщения.

Ладно, приступим!

Это не код Google, так какая нам разница?

Некоторые считают, что просмотр этой кодовой базы отвлекает и что ничто не повлияет на то, как они принимают бизнес-решения. Я нахожу это любопытным, учитывая, что это люди из того же SEO-сообщества, которое использовало модель CTR из данных AOL за 2006 год в качестве отраслевого стандарта для моделирования в любой поисковой системе в течение многих последующих лет.

Тем не менее, Яндекс — это не Google. Тем не менее, эти две современные поисковые системы продолжают оставаться на переднем крае технологий.

Программисты обеих компаний участвуют в одних и тех же конференциях (SIGIR, ECIR и т. д.) и делятся результатами и инновациями в области поиска информации, обработки/понимания естественного языка и машинного обучения. Яндекс также присутствует в Пало-Альто, а Google ранее был в Москве.

Быстрый поиск в LinkedIn выявляет несколько сотен инженеров, которые работали в обеих компаниях, хотя мы не знаем, сколько из них на самом деле работали над поиском в обеих компаниях.

Более прямое совпадение заключается в том, что Яндекс также использует технологии Google с открытым исходным кодом, которые имеют решающее значение для инноваций в поиске, таких как TensorFlow, BERT, MapReduce и, в гораздо меньшей степени, Protocol Buffers.

Итак, хотя Яндекс — это, конечно, не Google, это также не какой-то случайный исследовательский проект, о котором мы здесь говорим. Изучив эту кодовую базу, мы можем многое узнать о том, как устроена современная поисковая система.

По крайней мере, мы можем избавиться от некоторых устаревших представлений, которые все еще пронизывают инструменты SEO, таких как соотношение текста и кода и соответствие W3C, или общее мнение, что 200 сигналов Google — это просто 200 отдельных функций на странице и за ее пределами, а не классы составных факторов, которые потенциально могут использовать тысячи отдельных показателей.

Некоторый контекст архитектуры Яндекса

Без контекста или возможности успешно скомпилировать, запустить и выполнить пошаговое выполнение исходного кода очень сложно понять.

Как правило, новые инженеры получают документацию, обзоры и занимаются парным программированием, чтобы освоиться с существующей кодовой базой. Кроме того, в архиве документов есть некоторая ограниченная документация по адаптации, связанная с настройкой процесса сборки. Тем не менее, код Яндекса также везде ссылается на внутренние вики, но они не просочились, а комментарии в коде также довольно скудны.

К счастью, Яндекс дает некоторое представление о своей архитектуре в общедоступной документации. Есть также пара патентов, опубликованных в США, которые помогают пролить свет. А именно:

  • Реализованный компьютером способ и система для поиска в инвертированном индексе, имеющем множество списков проводок
  • Ранжирование результатов поиска 

Изучая Google для своей книги, я значительно лучше понял структуру его систем ранжирования благодаря различным документам, патентам и выступлениям инженеров, основанным на моем опыте SEO. Я также потратил много времени, оттачивая свое понимание общих рекомендаций по поиску информации для поисковых систем. Неудивительно, что у Яндекса действительно есть некоторые передовые практики и сходства.

В документации Яндекса обсуждается двухраспределенная система краулеров. Один для сканирования в реальном времени под названием «Оранжевый краулер», а другой — для обычного сканирования.

Исторически у Google был индекс, разделенный на три сегмента: один для сканирования в реальном времени, один для регулярного сканирования и один для редко сканируемого. Этот подход считается лучшей практикой в ​​IR.

Яндекс и Google различаются в этом отношении, но общая идея сегментированного сканирования, основанная на понимании частоты обновления, сохраняется.

Стоит отметить, что у Яндекса нет отдельной системы рендеринга для JavaScript. Они говорят об этом в своей документации и, хотя у них есть система визуального регрессионного тестирования на основе Webdriver под названием Gemini, они ограничиваются текстовым сканированием.

В документации также обсуждается сегментированная структура базы данных, которая разбивает страницы на инвертированный индекс и сервер документов.

Как и в большинстве других поисковых систем, в процессе индексации создается словарь, кэшируются страницы, а затем помещаются данные в инвертированный индекс таким образом, чтобы были представлены биграммы и тригамы и их размещение в документе.

Это отличается от Google тем, что они давно перешли на индексацию на основе фраз, что означает, что n-граммы могут быть намного длиннее триграмм.

Однако система Яндекса также использует BERT в своем пайплайне, поэтому в какой-то момент документы и запросы конвертируются во вложения, а для ранжирования используются методы поиска ближайших соседей.

Процесс ранжирования становится более интересным.

В Яндексе есть слой под названием Метапоиск , где кешированные популярные результаты поиска обслуживаются после обработки запроса. Если результаты там не найдены, то поисковый запрос отправляется на серию из тысяч разных машин в Базовый поиск слой одновременно. Каждый из них создает списков публикаций релевантных документов, а затем возвращает их в MatrixNet, приложение нейронной сети Яндекса для повторного ранжирования, чтобы построить поисковую выдачу.

Судя по видеороликам, в которых инженеры Google рассказывают об инфраструктуре поиска, этот процесс ранжирования очень похож на поиск Google. Они говорят о том, что технология Google находится в общих средах, где различные приложения находятся на каждой машине, а задания распределяются между этими машинами в зависимости от доступности вычислительной мощности.

Одним из вариантов использования является именно это, распределение запросов по набору машин для быстрой обработки соответствующих осколков индекса. Вычисление списков публикации — это первое место, которое нам нужно учитывать для факторов ранжирования.

В кодовой базе 17 854 фактора ранжирования

В пятницу после утечки неподражаемый Мартин Макдональд охотно поделился файлом из кодовой базы под названием web_factors_info/factors_gen.in. Файл взят из архива «Kernel» в утечке кодовой базы и содержит 1,922 фактора ранжирования.

Естественно, SEO-сообщество использовало этот номер и этот файл, чтобы охотно распространять новости о содержащихся в нем сведениях. Многие люди перевели описания и создали инструменты или Google Sheets и ChatGPT, чтобы разобраться в данных. Все они являются прекрасными примерами силы сообщества. Однако число 1922 представляет собой лишь один из многих наборов факторов ранжирования в кодовой базе.

Более глубокое погружение в кодовую базу показывает, что существует множество файлов факторов ранжирования для различных подмножеств систем обработки запросов и ранжирования Яндекса.

Прочесывая их, мы обнаруживаем, что всего существует 17 854 фактора ранжирования. В эти факторы ранжирования входят различные показатели, связанные с:

  • Кликами.
  • Время выдержки.
  • Использование аналога Google Analytics от Яндекса, Метрики.

Существует также серия ноутбуков Jupyter, которые имеют дополнительные 2000 факторов помимо тех, что указаны в основном коде. Предположительно, эти блокноты Jupyter представляют собой тесты, в ходе которых инженеры рассматривают дополнительные факторы для добавления в кодовую базу. Опять же, вы можете просмотреть все эти функции с метаданными, которые мы собрали по всей кодовой базе, по этой ссылке.

Документация Яндекса также поясняет, что у них есть три класса факторов ранжирования: статические, динамические и те, которые связаны конкретно с поиском пользователя и тем, как он был выполнен. По их собственным словам:

В кодовой базе они указаны в файлах ранговых факторов с тегами TG_STATIC и TG_DYNAMIC. Факторы, связанные с поиском, имеют несколько тегов, таких как TG_QUERY_ONLY, TG_QUERY, TG_USER_SEARCH и TG_USER_SEARCH_ONLY.

Несмотря на то, что мы выявили 18 000 потенциальных факторов ранжирования на выбор, в документации, относящейся к MatrixNet, указано, что оценка строится на основе десятков тысяч факторов и настраивается на основе поискового запроса.

Это указывает на то, что среда ранжирования очень динамична, как и среда Google. Согласно патенту Google «Структура для оценки функций оценки», у них уже давно есть что-то похожее, когда запускаются несколько функций и возвращается лучший набор результатов.

Наконец, учитывая, что в документации упоминаются десятки тысяч факторов ранжирования, мы также должны иметь в виду, что в коде есть много других файлов, на которые нет ссылок в архиве.

Так что, вероятно, происходит что-то еще, чего мы не можем видеть. Это дополнительно иллюстрируется просмотром изображений в документации по подключению, на которых показаны другие каталоги, которых нет в архиве.

Например, я подозреваю, что в каталоге /semantic-search/ есть еще что-то связанное с DSSM.

Начальное взвешивание факторов ранжирования

Сначала я действовал, исходя из предположения, что кодовая база не имеет весов для факторов ранжирования. Затем я был потрясен, увидев, что файл nav_linear.h в каталоге /search/relevance/ содержит начальные коэффициенты (или веса), связанные с факторами ранжирования, в полном отображении.

Этот раздел кода выделяет 257 из 17 000+ факторов ранжирования, которые мы выявили. ( Скидка Райану Джонсу за то, что он вытащил их и сопоставил с описаниями факторов ранжирования.) страница оценивается на основе ряда факторов. Хотя это упрощение, следующий снимок экрана является выдержкой из такого уравнения. Коэффициенты показывают, насколько важен каждый фактор, а полученный в результате расчетный балл — это то, что будет использоваться для оценки релевантности страниц выбора.

Жестко запрограммированные значения позволяют предположить, что это не единственное место, где происходит ранжирование. Вместо этого эта функция, скорее всего, используется там, где первоначальная оценка релевантности выполняется для создания серии списков публикации для каждого сегмента, рассматриваемого для ранжирования. В первом патенте, упомянутом выше, они говорят об этом как о концепции независимой от запроса релевантности (QIR), которая затем ограничивает документы до их просмотра на предмет релевантности запроса (QSR).

Полученные списки сообщений затем передаются в MatrixNet с функциями запроса для сравнения. Таким образом, хотя мы не знаем специфики последующих операций (пока), эти веса по-прежнему ценны для понимания, потому что они говорят вам о требованиях, предъявляемых к странице, чтобы иметь право на набор вознаграждений.

Однако возникает следующий вопрос: что мы знаем о MatrixNet?

В архиве ядра есть код нейронного ранжирования, и в кодовой базе есть многочисленные ссылки на MatrixNet и «mxnet», а также множество ссылок на глубоко структурированные семантические модели (DSSM).

В описании одного из факторов ранжирования FI_MATRIXNET указано, что MatrixNet применяется ко всем факторам.

Фактор {

    Индекс:              160

CPPName: «fi_matrixnet»

Имя: «Matrixnet»

Tags: [TG_DOC, TG_DYNAMIC, TG_TRANS, TG_NOT_01, TG_REARR_USE, TG_L3_MODEL_VALUE, TG_FRESHER_PLIX_PLIX_BLIX_BLIX_BLIX_PLIX_BLIX_BLIX_BLIX. }

Также есть куча бинарных файлов, которые сами могут быть предварительно обученными моделями, но мне потребуется больше времени, чтобы разобраться в этих аспектах кода.

Сразу становится ясно, что существует несколько уровней ранжирования (L1, L2, L3) и набор моделей ранжирования, которые можно выбрать на каждом уровне.

В файле selection_rankings_model.cpp указано, что на каждом уровне процесса можно рассматривать разные модели ранжирования. Примерно так работают нейронные сети. Каждый уровень — это аспект, который завершает операции, и их комбинированные вычисления дают переупорядоченный список документов, который в конечном итоге отображается в виде SERP. Я продолжу более глубокое погружение в MatrixNet, когда у меня будет больше времени. Для тех, кому нужен краткий обзор, ознакомьтесь с патентом ранжирования результатов поиска.

А пока давайте рассмотрим некоторые интересные факторы ранжирования.

Топ-5 факторов начального ранжирования с отрицательным весом

Ниже приводится список факторов начального ранжирования с наибольшим отрицательным весом с их весами и кратким пояснением, основанным на их описаниях, переведенных с русского языка.

  1. FI_ADV: -0,2509284637 -Этот фактор определяет, есть ли на странице реклама любого рода, и назначает самый высокий взвешенный штраф за один фактор ранжирования.
  2. FI_DATER_AGE: -0,2074373667 — этот коэффициент представляет собой разницу между текущей датой и датой документа, определенной функцией датирования. Значение равно 1, если дата документа совпадает с сегодняшней, 0, если документ старше 10 лет или если дата не определена. Это говорит о том, что Яндекс отдает предпочтение более старому контенту.
  3. FI_QURL_STAT_POWER: -0,1943768768 — этот коэффициент представляет собой количество показов URL-адреса по отношению к запросу. Похоже, они хотят понизить URL-адрес, который появляется во многих поисковых запросах, чтобы повысить разнообразие результатов.
  4. FI_COMM_LINKS_SEO_HOSTS: -0,1809636391 — этот коэффициент представляет собой процент входящих ссылок с «коммерческим» якорным текстом. Коэффициент возвращается к 0,1, если доля таких ссылок превышает 50%, в противном случае устанавливается в 0,
  5. FI_GEO_CITY_URL_REGION_COUNTRY: -0,168645758 — этот фактор является географическим совпадением документа и страны, из которой пользователь выполнял поиск. Это не совсем понятно, если 1 означает, что документ и страна совпадают.

Таким образом, эти факторы показывают, что для наилучшего результата вам следует:

  • Избегать рекламы.
  • Обновляйте старый контент, а не создавайте новые страницы.
  • Убедитесь, что большинство ваших ссылок имеют фирменный анкорный текст.

Все остальное в этом списке находится вне вашего контроля.

Топ-5 положительно взвешенных факторов начального ранжирования

В дополнение, вот список положительных факторов ранжирования с наибольшим весом.

  1. FI_URL_DOMAIN_FRACTION: +0,5640952971 — этот фактор представляет собой странное маскирующее перекрытие запроса по сравнению с доменом URL-адреса. В качестве примера приведена Челябинская лотерея, сокращенно chelloto. Чтобы вычислить это значение, Яндекс находит перекрытые трехбуквенные слова (че, хел, лот, оло), смотрит, какая доля всех трехбуквенных сочетаний приходится на доменное имя.
  2. FI_QUERY_DOWNER_CLICKS_COMBO: +0.3690780393 — описание этого фактора таково: «умное сочетание FRC и псевдо-CTR». Непосредственных указаний на то, что такое FRC, нет.
  3. FI_MAX_WORD_HOST_CLICKS: +0.3451158835 — этот фактор кликабельность самого важного слова в домене. Например, для всех запросов, в которых есть слово «википедия», нажмите на страницы википедии.
  4. FI_MAX_WORD_HOST_YABAR: +0.3154394573 — В описании фактора указано «наиболее характерное слово запроса, соответствующее сайту, согласно бару». Я предполагаю, что это означает ключевое слово, которое чаще всего ищут в панели инструментов Яндекса, связанную с сайтом.
  5. FI_IS_COM: +0.2762504972 — Дело в том, что домен .COM.

Другими словами:

  • Играйте в словесные игры со своим доменом.
  • Убедитесь, что это точка ком.
  • Поощряйте людей искать ваши целевые ключевые слова в Яндекс Баре.
  • Продолжайте получать клики.

Существует множество неожиданных начальных факторов ранжирования

Что более интересно в начальных взвешенных факторах ранжирования, так это неожиданные факторы. Ниже приводится список из семнадцати выделяющихся факторов.

  1. FI_PAGE_RANK: +0,1828678331 — PageRank — 17-й по значимости фактор в Яндексе. Ранее они полностью удалили ссылки из своей системы ранжирования, поэтому неудивительно, насколько низко она находится в списке.
  2. FI_SPAM_KARMA: +0.00842682963 — Спам-карма названа в честь «антиспамеров» и представляет собой вероятность того, что хост является спамом; на основе информации Whois
  3. FI_SUBQUERY_THEME_MATCH_A: +0,1786465163 — Насколько тесно тематически совпадают запрос и документ. это 19й наивысший взвешенный фактор.
  4. FI_REG_HOST_RANK: +0,1567124399 — у Яндекса есть фактор ранжирования хоста (или домена).
  5. FI_URL_LINK_PERCENT: +0,08940421124 — Отношение ссылок, анкорный текст которых является URL-адресом (а не текстом), к общему количеству ссылок.
  6. FI_PAGE_RANK_UKR: +0. 08712279101 — Есть конкретный украинский PageRank
  7. FI_IS_NOT_RU: +0.08128946612 — Хорошо, если домен не .RU. Судя по всему, русский поисковик не доверяет русским сайтам.
  8. FI_YABAR_HOST_AVG_TIME2: +0,07417219313 — это среднее время пребывания, по данным YandexBar
  9. FI_LERF_LR_LOG_RELEV: +0,06059448504 — это релевантность ссылки на основе качества каждой ссылки
  10. FI_NUM_SLASHES: +0,05057609417 — количество косых черт в URL является фактором ранжирования.
  11. FI_ADV_PRONOUNS_PORTION: -0,001250755075 — Доля местоимений на странице.
  12. FI_TEXT_HEAD_SYN:   -0.01291908335 — Наличие в заголовке [запросных] слов с учетом синонимов
  13. FI_PERCENT_FREQ_WORDS: -0.02021022114 – Процент количества слов, которые являются 200 наиболее часто встречающимися словами языка, от количества всех слов текста.
  14. FI_YANDEX_ADV: -0,09426121965 – Уточняя неприязнь к рекламе, Яндекс наказывает страницы с рекламой Яндекса.
  15. FI_AURA_DOC_LOG_SHARED: -0,09768630485 — логарифм количества черепиц (областей текста) в документе, которые не уникальны.
  16. FI_AURA_DOC_LOG_AUTHOR: -0.09727752961 – Логарифм количества гонтов, на которых данный владелец документа признан автором.
  17. FI_CLASSIF_IS_SHOP: -0.1339319854 — Судя по всему, Яндекс будет меньше любить вас, если ваша страница — магазин.

Главный вывод из рассмотрения этих странных факторов ранжирования и множества факторов, доступных в кодовой базе Яндекса, заключается в том, что существует множество вещей, которые могут быть факторами ранжирования.

Я подозреваю, что заявленные Google «200 сигналов» на самом деле представляют собой 200 классов сигналов, где каждый сигнал является составным, состоящим из многих других компонентов. Во многом так же, как в Google Analytics есть параметры со многими связанными показателями, в поиске Google, вероятно, есть классы сигналов ранжирования, состоящие из многих функций.

Яндекс очищает Google, Bing, YouTube и TikTok

Кодовая база также показывает, что у Яндекса есть много парсеров для других веб-сайтов и их соответствующих сервисов. Для жителей Запада наиболее заметными из них являются те, которые я перечислил в заголовке выше. Кроме того, у Яндекса есть парсеры для множества незнакомых мне сервисов, а также парсеры для его собственных сервисов.

Что сразу бросается в глаза, так это то, что синтаксические анализаторы полностью укомплектованы. Извлекается каждый значимый компонент поисковой выдачи Google. На самом деле, любой, кто рассматривает возможность парсинга любого из этих сервисов, может сделать все возможное, чтобы просмотреть этот код.

Существует другой код, который указывает, что Яндекс использует некоторые данные Google как часть расчетов DSSM, но сами по себе 83 названных Google фактора ранжирования ясно показывают, что Яндекс довольно сильно опирался на результаты Google.

Очевидно, что Google никогда не станет копировать результаты Bing из другой поисковой системы и не будет полагаться на нее для расчетов основного рейтинга.

Яндекс имеет анти-SEO верхние границы для некоторых факторов ранжирования

315 факторов ранжирования имеют пороговые значения, при которых любое вычисленное значение, превышающее это, указывает системе, что эта функция страницы переоптимизирована. 39 из этих факторов ранжирования являются частью первоначально взвешенных факторов, которые могут препятствовать включению страницы в первоначальный список публикаций. Вы можете найти их в электронной таблице, на которую я дал ссылку выше, отфильтровав по столбцу «Коэффициент ранжирования» и «Анти-SEO».

С концептуальной точки зрения не будет надуманным ожидать, что все современные поисковые системы устанавливают пороговые значения для определенных факторов, которыми оптимизаторы исторически злоупотребляли, таких как анкорный текст, CTR или наполнение ключевыми словами. Например, говорят, что Bing использует злоупотребление мета-ключевыми словами как негативный фактор.

Яндекс продвигает «Vital Hosts»

В кодовой базе Яндекса есть ряд механизмов повышения. Это искусственные улучшения определенных документов, чтобы обеспечить более высокие оценки при рассмотрении для ранжирования.

Ниже приведен комментарий «мастера повышения», в котором говорится, что более мелкие файлы лучше всего выигрывают от алгоритма повышения.

Есть несколько типов бустов; Я видел один буст, связанный со ссылками, и я также видел серию «HandJobBoosts», которые, я могу только предположить, являются странным переводом «ручных» изменений.

Одно из этих усилений, которое мне показалось особенно интересным, связано с «Жизненно важными хостами». Где важным хостом может быть любой указанный сайт. В переменных конкретно упоминается NEWS_AGENCY_RATING, что наводит меня на мысль, что Яндекс дает повышение, которое искажает его результаты в пользу определенных новостных организаций.

Не вдаваясь в геополитику, скажу, что это сильно отличается от Google тем, что они непреклонны в отношении того, чтобы не вводить подобные предубеждения в свои системы ранжирования.

Структура сервера документов

Кодовая база показывает, как документы хранятся на сервере документов Яндекса. Это полезно для понимания того, что поисковая система не просто делает копию страницы и сохраняет ее в своем кеше, она фиксирует различные функции в качестве метаданных, которые затем используются в последующем процессе ранжирования.

На приведенном ниже снимке экрана выделено подмножество тех функций, которые особенно интересны. Другие файлы с SQL-запросами предполагают, что сервер документов имеет около 200 столбцов, включая дерево DOM, длину предложений, время выборки, ряд дат и оценку защиты от спама, цепочку перенаправления и информацию о том, переведен ли документ. Самый полный список, который мне встречался, находится в файле /robot/rthub/yql/protos/web_page_item.proto.

Что самое интересное в подмножестве здесь, так это количество используемых симхэшей. Симхэши — это числовые представления контента, и поисковые системы используют их для молниеносного сравнения для определения дублирующегося контента. В архиве роботов есть различные экземпляры, указывающие на то, что дублированный контент явно понижен.

Кроме того, в рамках процесса индексации кодовая база включает TF-IDF, BM25 и BERT в конвейере обработки текста. Непонятно, почему все эти механизмы существуют в коде, потому что в их использовании есть некоторая избыточность.

Кодовая база также содержит много информации о факторах ссылок и о том, как ссылки расставляются по приоритетам.

Калькулятор ссылочного спама Яндекса учитывает 89 факторов. Все, что помечено как SF_RESERVED, устарело. Там, где это предусмотрено, вы можете найти описания этих факторов в таблице Google, указанной выше.

Примечательно, что у Яндекса есть рейтинг хоста и некоторые оценки, которые, по-видимому, сохраняются в течение длительного времени после того, как сайт или страница заработали репутацию спама.

Еще одна вещь, которую делает Яндекс, — это просмотр копии по всему домену и определение наличия дублированного контента с этими ссылками. Это могут быть размещения ссылок по всему сайту, ссылки на дубликаты страниц или просто ссылки с одинаковым анкорным текстом с одного и того же сайта.

Это показывает, насколько тривиально не учитывать несколько ссылок из одного и того же источника, и разъясняет, насколько важно нацеливаться на большее количество уникальных ссылок из более разнообразных источников.

Что мы можем применить от Яндекса к тому, что мы знаем о Google?

Естественно, этот вопрос до сих пор волнует всех. Хотя между Яндексом и Google, безусловно, есть много аналогов, по правде говоря, только инженер-программист Google, работающий над поиском, может окончательно ответить на этот вопрос.

Но это неправильный вопрос.

Действительно, этот код должен помочь нам расширить наши представления о современном поиске. Коллективное понимание поиска во многом основано на том, что SEO-сообщество узнало в начале 2000-х посредством тестирования и из уст поисковых инженеров, когда поиск был гораздо менее непрозрачным. Это, к сожалению, не поспевает за быстрым темпом инноваций.

Информация о многих особенностях и факторах утечки Яндекса должна дать больше гипотез о вещах, которые нужно проверить и рассмотреть для ранжирования в Google. Они также должны ввести больше вещей, которые можно анализировать и измерять с помощью SEO-сканирования, анализа ссылок и инструментов ранжирования.

Например, мера косинусного сходства между запросами и документами, использующими встраивание BERT, может быть полезна для понимания по сравнению со страницами конкурентов, поскольку это то, что делают сами современные поисковые системы.

Во многом так же, как журналы поиска AOL уводят нас от угадывания распределения кликов в поисковой выдаче, кодовая база Яндекса уводит нас от абстрактного к конкретному, и наши утверждения «это зависит» могут быть лучше квалифицированы.

С этой целью эта кодовая база является подарком, который будет продолжаться. Прошли только выходные, а мы уже почерпнули очень убедительные выводы из этого кода.

Я ожидаю, что некоторые амбициозные SEO-инженеры, располагающие гораздо большим количеством свободного времени, будут продолжать копаться и, возможно, даже дополнять недостающее, чтобы скомпилировать эту штуку и заставить ее работать. Я также считаю, что инженеры различных поисковых систем также изучают и анализируют инновации, на которых они могут учиться и добавлять в свои системы.

Одновременно юристы Google, вероятно, готовят агрессивные письма о прекращении и воздержании, связанные со всей очисткой данных.

Мне не терпится увидеть эволюцию нашего пространства, которой руководят любознательные люди, которые максимально используют эту возможность.

Но, эй, если получение информации из фактического кода не имеет для вас ценности, вы можете вернуться к чему-то более важному, например, спорить о поддоменах и подкаталогах.

Мнения, высказанные в этой статье, принадлежат приглашенному автору и не обязательно принадлежат Search Engine Land. Штатные авторы перечислены здесь.