Поисковая система: что это такое, как она работает

Поисковая система (поисковик) — это специальная программа, которая в ответ на запрос пользователя через веб-интерфейс (сайт) выдает список ресурсов, отсортированных по релевантности этому запросу.

Хорошая поисковая система предлагает материалы, которые наиболее корректно отвечают на запрос пользователя. При этом многие поисковики могут искать нужное не только по словам, но и по картинке или голосовому сообщению.

Прародителем всех поисковых систем считают программу Арчи — первый инструмент для поиска контента в интернете. Арчи предлагал пользователям архив со списком доступных файлов и возможностью поиска по ним. 

Лишь в 1994 году появилась первая полноценная поисковая система — WebCrawler, которая стала индексировать не только названия файлов или заголовки страниц, но и их содержимое. А уже через три года, в 1997 году, на рынок вышли привычные нам Google и Яндекс — самые популярные поисковые системы в России, по данным Яндекс. радар.

Если обратиться к мировой статистике, то здесь лидирует Google (84,8%), а «Яндекс» (1,06%) уходит на 6-е место.

Доля рынка наиболее часто используемых поисковых систем по всему миру по состоянию на сентябрь 2022 г. Источник

Зачем нужна поисковая система

Без поисковых систем обычный пользователь вряд ли найдет в интернете нужную информацию, так как без них не будет привычного нам списка сайтов. Придется вручную вбивать адрес каждого ресурса, чтобы проверить, есть ли там то, что вы ищите. К счастью, алгоритмы поисковиков уже знают, какая информация есть на большинстве сайтов, и в ответ на запрос выдают список страниц, которые больше всего соответствуют этому запросу.

Кроме того, современные поисковые системы давно вышли за границы обычных поисковиков и превратились в целые экосистемы, которые помогают пользователям решать множество бытовых и бизнес-задач. В том же «Яндексе» есть электронная почта, маркетплейс, онлайн-кинотеатр, такси, доставка еды, карты, различные сервисы для бизнеса, а еще собственная платежная система и знакомый многим голосовой помощник Алиса.

У Яндекса столько разных сервисов, что они не поместились на одном экране даже мелким шрифтом

Этапы работы поисковиков

У каждой поисковой системы — свой алгоритм работы, который держится в строгом секрете. Однако условно весь процесс подбора нужной информации поисковиком можно разделить на три этапа: сканирование (поиск и сохранение страниц), индексация и ранжирование.

Сканирование

Чтобы поисковая система смогла найти нужную информацию в большом количестве сайтов, эти сайты должны быть ей известны, то есть прочитаны и сохранены в памяти.

 

Можно сравнить с библиотекой: если вы не знаете, какие книги стоят на полках и никогда не заглядывали в них, то вероятность того, что вы быстро сориентируетесь и найдете нужную цитату, равна нулю.

Поисковая система узнает о содержимом сайтов с помощью специального робота — краулера, или паука. Название происходит от английского crawler (ползающее насекомое, ползунок). Робот обходит все страницы, переходит по ссылкам и постепенно охватывает миллиарды веб-страниц в сети, сохраняет их и отправляет на индексацию.

Индексация

Следующий этап — подробный анализ загруженных страниц и добавление информации о том, какие сведения в них содержатся, в базу поисковой системы (создание индекса).

Индексный робот разбивает каждую сохраненную страницу на части (заголовки, текст, ссылки, теги html и т.д), изучает их содержимое, переваривает и структурирует. В результате получается упорядоченный список адресов страниц и размещенной на них информации.

 

По аналогии с библиотекой недостаточно знать, какие книги есть на полках. Важно составить подробный и удобный каталог, который расскажет, в каких книгах и на каких страницах искать нужную информацию.

Другой пример — предметный указатель в справочниках, который помогает без труда найти ответ на нужный вопрос. Все термины здесь размещены по алфавиту с указанием страниц, на которых они встречаются

Пока страница не проиндексирована, для поисковика она не существует. Поэтому важно, чтобы сайт был открыт для индексации. При необходимости можно закрыть от поисковых роботов отдельные страницы, например личный кабинет и корзину, чтобы они не попали в выдачу.

 

Как ускорить индексацию страниц

Если страница открыта для индексации, то самая распространенная причина того, что она не появляется в выдаче — она новая, и поисковый робот просто не успел ее проиндексировать. 

В зависимости от характеристик сайта и возможностей поисковых роботов обновление или апдейт страниц может занять от нескольких минут до нескольких недель.

Проверить индексирование страницы можно в «Яндекс.Вебмастере» раздел «Индексирование», а в Google Search Console «Проверка URL».

Яндекс.Вебмастер помогает понять, виден ли сайт в поисковой выдаче

Также в «Яндекс Вебмастере» можно направить страницы сайта на индексацию вручную с помощью функции «Переобход страниц», а в Google Search Console — сделать запрос индексирования.

Ранжирование и поисковая выдача

Когда человек вводит запрос в поисковую строку, поисковик выбирает все страницы, которые имеют отношение к запросу, прогоняет их через свои алгоритмы и выдает список сайтов в определенном порядке. При этом чем выше сайт оказался в выдаче, тем лучше он соответствует запросу пользователя и требованиям поисковика.

Процесс сортировки сайтов по определенному списку критериев называется ранжированием. На результаты ранжирования влияет релевантность контента запросу, качество и удобство сайта, его технические и пользовательские характеристики и многое другое. Точный список критериев поисковые системы держат в секрете и постоянно обновляют свои алгоритмы.

По итогам ранжирования можно получить разные результаты поисковой выдачи:

  • в разных поисковиках, так как используются различные критерии фильтрации;
  • в разных регионах, так как в запросах учитывается местонахождение пользователя;
  • на разных устройствах — в десктопной и мобильной версии, так как имеет значение удобство использования сайта на разных устройствах;
  • по одинаковым запросам у разных пользователей, так как учитывается индивидуальная история поиска.  

По запросу «Муми тролли» «Яндекс» и Google выдают разные результаты, на первой странице совпадает только один сайт из шести

Ранжирование позволяет пользователям быстрее получить нужную и достоверную информацию, а компаниям использовать поисковую выдачу для продвижения своего сайта.

Альтернативные поисковые системы

Большинству поисковых систем далеко до Яндекса и Гугла, и все же некоторые из них могут быть полезны в той или иной ситуации. Вот несколько примеров поисковиков, которые ориентируются на определенную нишу или предлагают больше конфиденциальности.

DuckDuckGo — поисковая система с открытым исходным кодом. Не собирает и не хранит данные о посетителях, а значит, обеспечивает максимальную конфиденциальность своим пользователям. Кроме того, Google и Яндекс стремятся персонализировать выдачу и учитывают предпочтения посетителя. В DuckDuckGo такого нет, поэтому поисковая выдача получается чуть более объективной. Например, через поисковик удобнее искать информацию на иностранном языке.

FindSounds — поисковик по звукам. Можно ввести текстовый запрос или загрузить образец. Запросы на русском не поддерживаются, но есть большой список русскоязычных тегов. Можно уточнить запрос, выбрав желаемый формат и качество звучания. Легко найти рев леопарда, жужжание осы, тикание часов и даже звук дыхания Дарта Вейдера. Все найденные звуки доступны для скачивания. 

BoardReader — поиск по форумам, сервисам вопросов и ответов и другим сообществам. Специальные настройки помогут быстро найти посты и комментарии, которые соответствуют заданным критериям: языку, дате публикации и названию сайта.

Главные мысли

Описана работа поисковика со встроенным ИИ — Газета.Ru

Описана работа поисковика со встроенным ИИ — Газета.Ru | Новости

Размер текста

А

А

А

close

100%

В ответ на ChatGPT и другие чат-боты с технологиями искусственного интеллекта компания Google добавит функцию прямых ответов внутрь своего поисковика. Телеканал CNBC со ссылкой на источники описал дизайн чат-бота, который будет расположен у поисковой строки.

«Поисковик Google получит дополнительный небольшой логотип чата в правом конце поля поиска. Сейчас там доступны ярлыки для голосового поиска и Google Lens. Предварительно ради чат-бота могут убрать один из этих ярлыков для удобства пользователей», — говорится в статье.

При этом под панелью поиска будет пять разных подсказок для потенциальных вопросов пользователей. Эти подсказки могут заменить кнопки «Мне повезет» и «Поиск в Google». Таким образом компания хочет привлечь пользователей к тому, чтобы они активнее пробовали функцию чат-бота со встроенным ИИ.

На странице результатов прямые ответы также могут отображаться в «облаке с текстом серого цвета прямо под строкой поиска». Google предложит несколько дополнительных вопросов под ними и лишь затем добавит стандартные 10 ссылок на сайты.

Ранее «Яндекс» подтвердил работу над YaLM 2.0 — своей версией чат-бота, который станет частью «Поиска», «Алисы», «Почты» и других сервисов компании.

Чат-бот ChatGPT от компании OpenAI использует технологию ИИ для генерирования текстового контента. Модель доступна пользователям интернета — она умеет отвечать на вопросы, создавать тексты в разных жанрах и переводить с одного языка на другой.

Подписывайтесь на «Газету.Ru» в Новостях, Дзен и Telegram.

Чтобы сообщить об ошибке, выделите текст и нажмите Ctrl+Enter

Новости

Дзен

Telegram

Анастасия Миронова

Божество по имени прописка

О том, что как шансы на жизнь в России все еще зависят от места регистрации

Мария Дегтерева

А кто это?

О том, как и почему люди хвастаются незнанием

Наталья Тарасова

Страховать нельзя отказывать

Управляющий директор – начальник управления методологии и компетенций СберСтрахования жизни Наталья Тарасова о полисах для людей с инвалидностью

Юлия Меламед

Муж дурак, хоть и помер

О бабификации населения

Георгий Бовт

Сталин жив

К 70-летию временно усопшего

Найдена ошибка?

Закрыть

Спасибо за ваше сообщение, мы скоро все поправим.

Продолжить чтение

Нет необходимости в Google: 12 альтернативных поисковых систем в 2018 году

Работа в Search Engine Watch заключается не только в изучении, понимании и отчетности в Google. Поскольку более 9% веб-пользователей выполняют поиск на других поисковых системах, важно, чтобы мы время от времени уделяли время проверке того, что они используют и чем занимаются эти платформы.

Продолжайте читать мой горячий список из 12 альтернатив «Большому G». Как вы увидите, в мире альтернативного поиска произошли некоторые изменения с тех пор, как мой коллега Кристофер Рэтклифф написал свой исчерпывающий список еще в начале 2014 года. С тех пор некоторые из них исчезли с карты, а другие были узурпированы по полезности все более богатыми функциями Google. , и здесь не представлены.

  1. Бинг

В глобальном масштабе Bing по-прежнему является второй по величине поисковой системой после Google, а также третьей по величине Yahoo!.

С чистым белым фоном, синими ссылками и зелеными URL-адресами он выглядит знакомо, хотя в нем также есть несколько вещей, которые выделяют его. Например, его схема «Вознаграждения» дает вам баллы, когда вы делаете покупки или выполняете поиск через службу, которые затем можно использовать для покупки таких вещей, как приложения и фильмы.

 

Bing также имеет функцию «Мои сохранения», действующую как инструмент закладок. Он также может похвастаться некоторыми заметными и удобными фильтрами результатов по дате, языку и региону.

  1. Байду

Если вы интересуетесь цифровыми технологиями в Азии, вам нужно знать о Baidu.

Baidu является поисковой системой, которую выбирают около 77% китайского интернет-рынка. Хотя можно увидеть, что его доминирование колеблется — благодаря жесткой конкуренции со стороны других внутренних конкурентов, таких как Shenma и Haosou.

Как и Bing, вы должны внимательно присмотреться к Baidu, чтобы увидеть много различий между ним и Google (кроме того, что он на китайском языке). Он похож эстетически, полагается на рекламу, а также предпринимает шаги по включению более богатых функций в поисковую выдачу.

Ресурсы

С другой стороны, сервис известен своей цензурой определенных изображений и блокировкой продемократических веб-сайтов — до такой степени, что это может показаться довольно экстремальным пользователям, привыкшим к Google.

  1. Яндекс

Яндекс для России, как Baidu для Китая. Более 53% пользователей российских поисковых систем отдают предпочтение Яндексу. Он также присутствует в Украине, Казахстане, Турции и Беларуси.

Поисковая система доступна на английском и кириллице и включает в себя вход через социальные сети. А если пользователи решат использовать Яндекс Диск — его облачное хранилище — они легко смогут искать ваши файлы прямо из строки поиска.

  1. Экозия

По мере того, как все больше наших вычислений перемещается в облако, пользователи все больше осознают воздействие повседневной цифровой деятельности на окружающую среду.

Поиск в Google — что, возможно, удивительно для такой быстрой и безобидной деятельности — является огромным источником СО2.

Выпущенная в 2009 году, Ecosia является альтернативой с нулевым выбросом углекислого газа. С каждым выполненным поиском социальный бизнес использует полученный доход для реализации своей схемы посадки деревьев. В среднем для создания одного дерева требуется 45 поисков.

Большая часть самого движка питается от Bing.

  1. ДакДакГо

В прошлом мы много рассказывали о DuckDuckGo, и движок все еще работает.

Его USP прост: он не собирает, не хранит и не передает никакой личной информации о своих пользователях. Это логичный выбор, если вам нужен опыт поиска, свободный от таргетинга рекламы, и если потенциальное хранилище данных о ваших поисковых действиях вызывает у вас беспокойство.

Хотя сервис не направляет пользователям рекламу или предложения на основе истории поиска, он не свободен от рекламы совсем. Реклама, которую он доставляет, синдицируется через Bing.

  1. Начальная страница

Как и DuckDuckGo, StartPage была основана со строгой конфиденциальностью пользователей в качестве USP. Опять же, он не отслеживает и не хранит ваши данные и не таргетирует рекламу на основе вашего поведения.

Движок работает на базе Google и использует рекламу (поставляемую Google) для получения дохода. Каждый результат поиска также поставляется с опцией «Прокси», которая позволяет пользователям анонимно просматривать следующий сайт.

  1. Твиттер

Я включил Twitter, потому что думаю, что его функция поиска может быть полезна в определенных ситуациях.

Например, во время экстренных новостей твиты от людей поблизости, вероятно, будут самыми быстрыми обновлениями того, что происходит, с точностью до секунды, прежде чем первоначальные новостные сайты и алгоритмы Google догонят.

Вы можете видеть, что этот авторитет «Первый для новостей» является тем, что служба все больше изучает. Любой поиск в Твиттере изначально приведет к отфильтрованной вкладке «Новости», но пользователи могут легко перейти на вкладку «Последние», чтобы каждую секунду видеть обновления, поступающие от любого, кто использует этот поисковый запрос.

  1. CC Поиск

CC Search — отличный инструмент для поиска контента, защищенного от авторских прав.

Хотите ли вы изображение для публикации в блоге, музыкальное произведение для добавления в видео или просто хотите сделать ремикс на медиафайл — это действительно мощный движок.

Сайт работает, используя результаты поиска с существующих платформ, таких как Flickr или Soundcloud, которые были помечены как материалы Creative Commons.

  1. Интернет-архив

Следуя духу доступного контента, Интернет-архив (часто известный по URL-адресу, archive.org) представляет собой обширную коллекцию документированных материалов, включая музыку, книги, видео, учебные тексты и многое другое.

Здесь также находится бесконечно увлекательный Wayback Machine, инструмент, который делает снимки Интернета с 90-х годов.

  1. Wiki.com

Вы, наверное, все знакомы с Википедией, но есть тысячи других вики, которые являются прекрасным ресурсом по целому ряду тем — от политики до поп-культуры.

Wiki.com — удобная поисковая система, которая извлекает содержимое из вики только в том случае, если вам нужны энциклопедические ноу-хау о чем-либо (кроме Википедии).

  1. Устройство чтения карт

Boardreader — это поисковая система, которая извлекает результаты с форумов и досок объявлений.

Это удобный инструмент, если вы ищете контент, написанный обычными пользователями по теме, но вы не обязательно достаточно знакомы с нишей, чтобы с самого начала знать лучший форум или доску для посещения.

  1. Слайдшер

Slideshare, который теперь размещается на LinkedIn, является отличным инструментом для поиска документированных презентаций в виде слайд-шоу, а также PDF-файлов и электронных книг.

Если перед вами стоит задача сделать презентацию самостоятельно или вам нужна информация по теме, по которой, вероятно, в прошлом уже была сделана презентация, Slideshare — ценный репозиторий. Вы можете сохранять слайды, которые могут понадобиться вам позже, и загружать целые слайд-шоу прямо с платформы.

Подробнее о:

    Что такое поисковая система? — Определение из Techopedia

    Что означает поисковая система?

    Поисковая система — это служба, позволяющая пользователям Интернета осуществлять поиск содержимого через Всемирную паутину (WWW). Пользователь вводит ключевые слова или ключевые фразы в поисковую систему и получает список результатов веб-контента в виде веб-сайтов, изображений, видео или других онлайн-данных, которые семантически соответствуют поисковому запросу.

    Список контента, возвращаемый пользователю через поисковую систему, называется страницей результатов поисковой системы (SERP).

    Реклама

    Techopedia объясняет поисковую систему

    Поисковая система выполняет ряд шагов, чтобы выполнить свою работу. Сначала паук/веб-краулер просматривает сеть в поисках контента, который добавляется в индекс поисковой системы. Эти небольшие боты могут сканировать все разделы и подстраницы веб-сайта, включая такой контент, как видео и изображения.

    Гиперссылки анализируются для поиска внутренних страниц или новых источников для сканирования, когда они указывают на внешние веб-сайты. Чтобы помочь ботам выполнять сканирование более эффективно, более крупные веб-сайты обычно отправляют в поисковую систему специальную карту сайта в формате XML, которая действует как дорожная карта самого сайта.

    После того, как все данные получены ботами, сканер добавляет их в обширную онлайн-библиотеку всех обнаруженных URL-адресов. Этот постоянный и рекурсивный процесс известен как индексация и необходим для отображения веб-сайта в поисковой выдаче. Затем, когда пользователь запрашивает поисковую систему, соответствующие результаты возвращаются на основе алгоритма поисковой системы.

    Чем выше рейтинг сайта в поисковой выдаче, тем более релевантным он должен быть для запроса пользователя. Поскольку большинство пользователей просматривают только лучшие результаты, для веб-сайта особенно важно иметь достаточно высокий рейтинг для определенных запросов, чтобы обеспечить его успех с точки зрения трафика.

    За последние несколько десятилетий была разработана целая наука, чтобы гарантировать, что веб-сайт или, по крайней мере, некоторые его страницы «масштабируют» рейтинг, чтобы достичь первых позиций. Эта дисциплина известна как поисковая оптимизация (SEO).

    Ранние результаты поисковых систем в основном основывались на содержании страницы, но по мере того, как веб-сайты научились играть с системой с помощью передовых методов SEO, алгоритмы стали намного сложнее, и возвращаемые результаты поиска могут основываться буквально на сотнях переменных.

    Теперь каждая поисковая система использует собственный алгоритм, который взвешивает множество сложных факторов, таких как релевантность, доступность, удобство использования, скорость страницы, качество контента и намерения пользователя, чтобы сортировать страницы в определенном порядке.