Как работают поисковые машины Интернета

Главный элемент современного Интернета – это поисковые машины или поисковики, Yandex, Rambler, Google и прочие. В Интернете находится море различной информации, и именно поисковики помогают пользователю быстро найти необходимую информацию.

В учебниках или научных книгах есть список важных терминов – алфавитно-предметный указатель или индекс. В индексе перечислены наиболее важные термины данной книги (ключевые слова) и номера страниц на которых они встречаются.

Работа поисковиков основана на подобном принципе. По сути, когда пользователь вводит поисковой запрос (ключевое слово), он обращается к предметному указателю Интернета или индексу – списку всех ключевых слов Интернета, с указанием страниц, где они встречаются.

Поисковая машина – это программа, которая составляет и хранит предметный указатель Интернета (индекс), а также находит в нем заданные ключевые слова.

Этапы составления индекса и поиска по нему:

Сбор адресов веб-страниц в Интернете

В поисковую машину загружают первоначальный список адресов страниц сайтов. Затем поисковая машина, а точнее ее составная часть – поисковый робот, собирает все гипертекстовые ссылки с каждой из заданных страниц на другие страницы и добавляет все, найденные в ссылках адреса, к своему первоначальному списку адресов. Таким образом, первоначальный список быстро увеличивается.

Страница, на которую не ведет ни одна ссылка, не попадет в индекс поисковика никогда, поэтому если вы сделали новый сайт его необходимо зарегистрировать в поисковых системах, чтобы он попал в индекс.

Выкачивание страниц

Поисковой робот  или паук обходит страницы, скачивает с них текстовый материал и хранит на дисках своих компьютеров, затем передает на индексирование индексному роботу.

Составление индекса

Для начала текст индексируемой страницы очищается от всяких нетекстовых элементов (графики, разметки языка HTML и пр.). Далее слова, выбранные из текста, приводятся к своим основам или именительному падежу. Собранные основы слов выстраивают в алфавитном порядке с указанием номера страницы, где взята основа, и номера вхождения, где стояла основа на данной странице.

Поиск

Когда пользователь вводит слово в строку запроса, поисковая машина обращается к индексу. Находит все номера страниц, относящиеся к заданному слову, и показывает пользователю результат поиска (список страниц).

Качество поисковой машины

Синонимом качества поиска считается его релевантность. В отношении поисковых машин слово релевантный ( относящийся к делу) – чуть ли не главный термин. Релевантность результатов поиска поисковой машины означает, что эти результаты содержат страницы, которые относятся к смыслу поискового запроса. Релевантность или качество поиска – довольно сложная вещь.

Еще одним важным критерием  качества работы поисковика является

точность.

Точность – это мера качества выданных результатов, она вычисляется как количество релевантных страниц в общем объеме страниц, выданных в результатах поиска. Однако важна не только точность поиска, но и ранжирование результатов поиска.

Ранжирование – расположение результатов поиска по релевантности.

Невозможно сказать какая поисковая машина лучше. Для пользователя лучше поисковик, выдающий наиболее релевантные и точные результаты. Для владельца сайта хороша, та машина, в которой хорошо виден сайт и которая приводит наибольшее количество целевых посетителей.

< Что такое CMS?   Что такое SEO оптимизация сайта? >

Компания Яндекс — Технологии — Индексирование интернета

Поисковая машина Яндекса отвечает на вопросы пользователей, находя нужные документы в интернете. А размеры современного интернета исчисляются в эксабайтах, то есть в миллиардах миллиардов байтов. Конечно же, Яндекс не обходит весь интернет каждый раз, когда ему задают вопрос. Поисковая система, так сказать, делает домашнее задание.

Поиск в интернете состоит из двух частей. Первая — поисковик обходит интернет, создавая его слепок на своих серверах. Вторая — пользователь задаёт запрос и получает ответ с серверов поисковика.

Яндекс ищет по поисковому индексу — базе данных, где для всех слов, которые есть на известных поиску сайтах, указано их местонахождение — адрес страницы и место на ней. Индекс можно сравнить с предметным указателем в книге или адресным справочником. В отличие от обычного предметного указателя, индекс содержит не только термины, а вообще все слова. А в отличие от адресного справочника, у каждого слова-адресата есть не одно, а очень много «мест прописки».

Подготовка данных, по которым ищет поисковая машина, называется индексированием. Специальная компьютерная система — поисковый робот — регулярно обходит интернет, выкачивает документы и обрабатывает их. Создается своего рода слепок интернета, который хранится на серверах поисковика и обновляется при каждом новом обходе.

У Яндекса два поисковых робота — основной и быстрый (он называется Orange). Основной робот индексирует интернет в целом, а Orange отвечает за то, чтобы в поиске можно было найти самые свежие документы, которые появились минуты или даже секунды назад. У каждого робота есть список адресов документов, которые нужно проиндексировать.

Когда при обходе робот видит на уже известных сайтах новые ссылки, он добавляет их в свой список, увеличивая количество индексируемых страниц. Впрочем, владелец сайта сам может помочь основному роботу Яндекса найти свой ресурс и подсказать, например, как часто обновляются его страницы — через сервис Яндекс.Вебмастер.

Сначала программа-планировщик выстраивает маршрут — очередность обхода документов. При этом планировщик учитывает важные для поисковой системы характеристики сайтов, такие как, например, цитируемость или частота обновления документов. После создания маршрута планировщик отдаёт его другой части поискового робота — «пауку». Паук регулярно обходит документы по заданному маршруту. Если сайт на месте, то есть работает и доступен, паук выкачивает запланированные в маршруте документы. Он определяет тип скачанного документа (html, pdf, swf и т.п.), кодировку и язык, а затем отправляет данные в хранилище.

Там программа разбирает документ по кирпичику: очищает от html-разметки, оставляя чистый текст, выделяет данные о местоположении каждого слова и добавляет их в индекс. Сам документ в исходном виде также остается в хранилище до следующего обхода. Благодаря этому пользователи могут найти в Яндексе и посмотреть документы, даже если сайт временно недоступен. Если сайт закрылся или документ был удалён или обновлён, Яндекс удалит копию со своих серверов или заменит её на новую.

Поисковый индекс, данные о типе документов, кодировке, языке и сохраненные копии документов вместе составляют поисковую базу. Она обновляется постоянно, но, чтобы это обновление стало доступно пользователям, её нужно перенести на «базовый поиск». Базовый поиск — сервера, которые отвечают пользователям на запросы. Туда переносится не вся поисковая база, а только её полезная часть — без спама, дубликатов сайтов (зеркал) и других ненужных документов.

Обновление поисковой базы из хранилища основного робота попадает в поиск «пакетами» — раз в несколько дней. Этот процесс создаёт дополнительную нагрузку на сервера, поэтому производится ночью, когда к Яндексу обращаются на порядок меньше пользователей. Сначала новые части базы помещаются рядом с такими же частями из прошлого обхода. Затем они проверяются по целому ряду факторов, чтобы обновление не ухудшило качество поиска. Если проверка прошла успешно, новая часть базы заменяет собой старую.

Робот Orange предназначен для поиска в реальном времени. Его планировщик и паук настроены так, чтобы находить новые документы и выбирать из огромного их количества все, хоть сколько-нибудь интересные. Каждый такой документ Orange сразу обрабатывает и выкладывает на базовый поиск. Срочных документов не очень много по сравнению с общим объемом интернета, поэтому обновление базы в реальном времени можно делать и при дневных нагрузках на сервера.

Чак Прайс, автор журнала Search Engine

О

Нужна программа контент-маркетинга, которая собирает ссылки и увеличивает прибыль?

Я основатель Measurable SEO и бывший главный операционный директор We Build Pages (теперь InternetMarketingNinjas. com). Помимо того, что я являюсь VIP-писателем здесь, я выступал на ведущих конференциях по поиску, включая SES, ClickZLive, SMX и Subscription Show

.

Вопросы? Свяжитесь со мной на MeasurableSEO.com

Артикул

Для SEO не существует «простой кнопки». Но эти 5 тактик зарекомендовали себя как достойная часть вашей стратегии.

  • 10 минут чтения
  • 173 тыс. прочтений
  • 7 июля 2022 г.

Можете ли вы удвоить, утроить или даже в 10 раз увеличить свой органический трафик, не отклоняясь на темную сторону? Чак Прайс говорит «да», и вот как.

  • 8 минут чтения
  • 75 тыс. прочтений
  • 16 мая 2022 г.

Могут ли платный доступ и SEO сосуществовать? Сбалансировать бесплатный и премиум-контент для SEO сложно, но контент с платным доступом может занять место в органическом поиске.

  • 9 минут чтения
  • 16 000 прочтений
  • 17 марта 2022 г.

Воспользуйтесь этими советами по видеомаркетингу и пошаговыми инструкциями, чтобы запустить видеостратегию Google Business Profile.

  • 9 минут чтения
  • 18 000 прочтений
  • 29 ноя, 2021

Ищете больше конфиденциальности или возможности поиска без рекламы? В этом посте мы представим 20 альтернативных поисковых систем, которые можно использовать помимо Google.

  • 10 минут чтения
  • 5,3 млн чтений
  • 23 сентября 2021 г.

Вам интересно, сколько нужно потратить на SEO? Как разработать бюджет? Проверьте этот калькулятор SEO для ответов на эти вопросы.

  • 8 минут чтения
  • 143 тыс.  прочтений
  • 7 мая 2021 г.

Вы получили отчет о ручном действии в Google Search Console? Не паникуйте! Читайте дальше, чтобы узнать больше о штрафах Google и способах восстановления.

  • 20 минут чтения
  • 80 000 прочтений
  • 29 марта 2021 г.

Вот как можно быстро сравнить свой сайт с конкурентами SEO и извлечь из них уроки.

  • 6 минут чтения
  • 79 тыс. прочтений
  • 2 февраля 2021 г.

Используете ли вы Google Trends, чтобы получить конкурентное преимущество? Узнайте 12 советов о том, как использовать Google Trends для улучшения SEO.

  • 12 минут чтения
  • 76 тыс.  прочтений
  • 7 октября 2020 г.

Изучите основные методы SEO, которые вам нужно знать, и как оптимизировать свой веб-сайт для достижения успеха.

  • 7 минут чтения
  • 94 тыс. прочтений
  • 3 августа 2020 г.

Спрос на услуги цифрового маркетинга никогда не был выше. Вы достаточно заряжаетесь? Слишком много? Прочитайте это руководство, чтобы узнать.

  • 6 минут чтения
  • 35 000 прочтений
  • 5 июня 2020 г.

Вот список БЕСПЛАТНЫХ учебных ресурсов, которые вы можете использовать для изучения востребованных навыков и методов SEO.

  • 11 минут чтения
  • 31 тыс.  прочтений
  • 3 февраля 2020 г.

Узнайте, что такое схема, зачем она вам нужна и как добавить ее на свои веб-страницы.

  • 10 минут чтения
  • 178 тыс. прочтений
  • 29 декабря 2019 г.

Узнайте, что такое маркетинг Google Maps, почему он важен для локального SEO и как это сделать правильно.

  • 7 минут чтения
  • 23 000 прочтений
  • 14 окт. 2019 г.

Вот восемь советов по локальному SEO, которые должны помочь улучшить ваш локальный рейтинг в Bing.

  • 6 минут чтения
  • 7,0 000 прочтений
  • 12 августа 2019 г.

Вот как вы можете создавать полезные ресурсные центры, которые привлекают мощные ссылки и стимулируют трафик и рейтинг.

  • 7 минут чтения
  • 19 тыс. прочтений
  • 3 июня 2019 г.

Это пошаговое руководство поможет вам удалить вашу личную информацию из Google.

  • 9 минут чтения
  • 27 000 прочтений
  • 8 апреля 2019 г.

Эти страницы «Контакты» заняли высокие позиции в Google. Вот чему вы можете у них научиться.

  • 6 минут чтения
  • 22 000 прочтений
  • 4 июня 2018 г.

Вам нужно больше репостов и ретвитов в социальных сетях? Больше обратных ссылок? Тогда вам нужно больше визуального контента.

  • 10 минут чтения
  • 8,4 К чтений
  • 13 ноября 2017 г.

Давайте рассмотрим методы SEO, которые больше не работают, и выясним, не пора ли вам переосмыслить свою собственную стратегию SEO.

  • 7 минут чтения
  • 5,4 К чтений
  • 9 окт, 2017

Вот почему полагаться на тактику ссылочного спама не получится в мире Google Penguin 4.0.

  • 9 минут чтения
  • 4,5 К прочтений
  • 14 августа 2017 г.

Является ли ранжирование ключевых слов важной функцией или пустой тратой времени? В этом посте исследуется, какую роль (если таковая имеется) должны играть ключевые слова в современном…

  • 6 минут чтения
  • 4,9 К прочтений
  • 15 марта 2017 г.

Поздравляем — вы пережили Mobilegeddon и недавнее введение «Mobile First Index». Итак, что вы делаете, чтобы подготовиться к Mobile 2.0? Это…

  • 7 минут чтения
  • 5,7 К прочтений
  • 20 января 2017 г.

Я уверен, что вы слышали термины «входящий» и «исходящий» маркетинг, но знаете ли вы на самом деле разницу между ними?

  • 6 минут чтения
  • 5,8 К чтений
  • 26 ноября 2016 г.

Ссылки еще долго будут иметь значение. Все сводится к тому, чтобы иметь правильный контент, найти нужную аудиторию, а затем достичь ее…

  • 8 минут чтения
  • 12 000 прочтений
  • 12 сентября 2016 г.

Snapchat не для всех. Но довольно крутая кривая обучения и более высокие затраты, связанные с созданием аудитории, обеспечивают высокий уровень вовлеченности.

  • 5 минут чтения
  • 1 000 прочтений
  • 8 августа 2016 г.

Решение о том, какие информационные бюллетени являются «лучшими», по общему признанию, субъективно. Вот список полезных информационных бюллетеней и блогов, предлагающих действенные рекомендации.

  • 7 минут чтения
  • 1,5 тыс.  прочтений
  • 28 июня 2016 г.

Устраняя точки трения, внушая доверие и упрощая процесс покупки, вы обязательно значительно увеличите доход своего веб-сайта.

  • 7 минут чтения
  • 3 000 прочтений
  • 2 марта 2016 г.

У меня есть партнер, который управляет очень большим и до сих пор успешным информационным сайтом. Он опытный и компетентный предприниматель и генеральный директор. Уже несколько лет…

  • 3 минуты чтения
  • 1,5 тыс. прочтений
  • 30 сентября 2011 г.

Службы поиска в Интернете

Главная » Советы по использованию Интернета » Службы поиска в Интернете

« предыдущая Страница 7 из 10 следующая »

Небрежная организация сети

Огромное количество информации, доступной в Интернете, может вызвать головокружение. По некоторым оценкам, количество документов в Интернете составляет около 800 миллионов. Другие говорят, что число неизвестно. К счастью, есть инструменты, которые помогут разобраться в массе информации: поисковые системы или поисковые каталоги.

Поисковые системы собирают информацию с веб-сайтов, а затем просто сбрасывают эту информацию в базу данных. В поисковой системе можно выбрать больше информации, но получить релевантную информацию сложнее.

Каталоги поиска пытаются упорядочить информацию, которую они собирают, и вы, скорее всего, найдете информацию, относящуюся к теме вашего исследования, но они не предлагают огромные объемы информации, которые вы могли бы найти с помощью поисковой системы. . Собранные сайты просматриваются людьми, которые принимают решения о том, к каким тематическим категориям могут относиться сайты.

Поисковые системы

Поисковые системы — это просто массивные базы данных, в которых хранится информация из интернет-документов. Информация в этих базах данных собирается с помощью компьютерной программы (называемой «пауком» или «роботом»), которая сканирует Интернет и собирает информацию об отдельных документах. Эти специальные программы работают автоматически, чтобы найти документы, или создатель веб-сайта просит их посетить сайт для включения в базу данных.

Когда вы выполняете поиск в поисковой системе, порядок отображения результатов также различается в разных поисковых системах. Многие поисковые системы перечисляют результаты, используя рейтинг релевантности. Такие факторы, как:

  • частота появления поисковых запросов на веб-странице;
  • где они расположены на странице; и,
  • сколько других веб-страниц ссылаются на страницу

…влияет на то, как высоко в списке посещений находится страница. Многие поисковые системы позволяют веб-сайтам платить за то, чтобы их страницы располагались выше в результатах поиска.

В Интернете доступны сотни поисковых систем, но все они работают по-своему, собирая и систематизируя найденную информацию. Информация с веб-сайтов может быть собрана из всех слов на сайте, только из первых нескольких предложений в теле сайта или только из заголовка или метатегов (скрытых дескрипторов содержимого сайта). Разные поисковые системы собирают разную информацию, поэтому вы получите разные результаты одного и того же поиска в разных поисковых системах.

Каталоги поиска

Каталоги лучше всего использовать, когда вы ищете информацию, которая легко классифицируется, например, «Университеты и колледжи в Джорджии». Вы можете найти нужную информацию, даже не вводя в поиск, а просматривая каталог, начиная с очень широкой предметной категории (Образование) и продвигаясь по каталогу, пока не дойдете до отдельных списков школ в Грузии. Вы также можете выполнять обычный поиск, но каталоги не собирают тот же диапазон сайтов, что и поисковая система, поэтому вы не будете использовать все богатство информации, которую вы можете получить от поисковой системы.

GALILEO также имеет базу данных полезных веб-сайтов, которые оцениваются педагогами. Эти сайты не представлены разработчиком и не собираются пауками. Они выбраны намеренно из-за их полезности для исследований в учебной программе университетской системы Джорджии.