Ищем новости: обзор специализированных поисковиков

Для таких целей и существуют специальные поисковые системы новостей, которые после
ввода в форму поиска ключевого слова дают возможность пробежаться по ссылкам на
другие издания. Технологии поиска наиболее актуальных и свежих материалов постоянно
совершенствуются и обретают новую функциональность. В этом материале мы постараемся
дать краткую характеристику наиболее интересным проектам из этого сегмента.

Комерційний аудіопродакшн.

Хочеш створювати саунд-дизайн, аудіобрендинг та джингли?

Давай до нас на курс


Англоязычные системы

AllTheWeb
News

Разработчики норвежской компании FAST,
постоянно расширяющие функциональность своего главного поисковика, расположенного
по адресу www.alltheweb.com
(лицензированного компании Lycos), также создали интерфейс для поиска новостей.
AllTheWeb News везде рекламируется как наиболее быстрый: действительно, если ввести
в поисковую форму некое популярное словосочетание, вам представят результаты,

которые попали в базу всего одну минуту назад. Однако при столь высоких скоростных
показателях ресурс разочаровывает своей неразборчивостью в плане отсеивания ненужных
данных. Если, скажем, история о какой-то компании была опубликована агентством
Reuters и после этого попала в полсотни американских газет, то AllTheWeb услужливо
предложит полсотни ссылок на один и тот же материал, опубликованный в различных
изданиях. В последнее время данное неудобство проявляется не так часто, как раньше,
однако релевантность ссылок AllTheWeb, безусловно, требует доработки.

Хочеш в IT, а кодити не хочеш?

Не біда! Ставай рекрутером

Ву-ху! Хочу!

Moreover.com

Компания Moreover уже долгое время считается бесспорным лидером в области
поставки тематических новостей пользователям Internet и своим коммерческим клиентам.
Поскольку новостные ленты являются основным ее бизнесом, то и неудивительно, что
упор делается на коммерческие предложения от Moreover, которыми уже воспользовались
такие структуры, как PeopleSoft, Wells Fargo и British Telecom. Кроме оперативного
поиска по огромной базе англоязычных новостных ресурсов (всего же, как утверждает
компания, она охватывает до 3000 сайтов), робот Moreover отсеивает заголовки по

тематическим категориям. Последние из отобранных заголовков доступны на бесплатном
сайте компании, кроме того, по новостям всегда можно пробежаться с помощью поисковой
формы. Найденные результаты автоматически сортируются по дате публикации, так
что наиболее свежая информация оказывается в верхней части списка. Механизм от
Moreover используется для новостного поисковика компании AltaVista.


Google News Search Beta

Удобным сервисом в рассматриваемом направлении порадовал и Google, бета-версия
его поиска новостей предлагает услуги, аналогичные описанному AllTheWeb News.
Однако здесь полученные результаты можно сортировать и по дате появления, что

полезно в тех случаях, когда интересны наиболее свежие, а не наиболее релевантные
материалы по теме. В процессе использования AllTheWeb и Google создается впечатление,
что по объему баз данных поисковики находятся примерно на одном и том же уровне.
Так, в поиске новостей о компании Microsoft AllTheWeb выдал 808 заголовков, в
то время как Google News Search показал 760 ссылок, однако ссылкой номер один
в AllTheWeb был немецкий сайт поддержки пользователей Microsoft, что трудно рассматривать
как новостной ресурс.


RocketNews

Небольшая компания из Оттавы создала весьма удобный ресурс, который индексирует
заголовки и тексты статей крупнейших изданий в течение последних пяти дней. Результаты
выдаются в хронологическом порядке, так что наверху всегда окажутся наиболее свежие
заголовки, при этом никаких дополнительных настроек интерфейса не предусмотрено.
Компания собирается зарабатывать деньги на продаже собственных технологий корпоративным
клиентам и с этой целью предлагает различные продукты, связанные с поиском новостей.
RocketNews также проделала определенную работу в области категоризации ссылок
и так же, как и Moreover, предлагает новостной
портал, где заголовки разбиты на тематические разделы.

Search.com
News

Неплохой поисковик по материалам прессы создала и поддерживает в актуальном состоянии компания CNET Networks. Область поиска разбита на категории, среди которых «Последние новости», «Газеты», «Деловые новости» и т. д. При желании настроить поле поиска можно самостоятельно, однако выбирать придется из изданий, предложенных CNET. Поиск по категориям по умолчанию выдает результаты, основанные на релевантности. Если документы нужно отсортировать в обратном хронологическом порядке, то это можно сделать, приложив дополнительные усилия.

NewsFind

Сайт NewsFind является подразделением компании WorldNews Network, которая задалась целью собрать ссылки на огромное количество ежедневно публикуемого контента в рамках одного поисковика. Из всех поисковых средств NewsFind обладает наиболее обширной базой ссылок, причем лидерство в данной категории бесспорное. Так, на запрос о новостях, касающихся Microsoft (новости и статьи о компании появляются в прессе весьма регулярно), он ответил более 24 тысячами заголовков. Даже после сужения области поиска до статей на английском языке показатель превысил 21 тысячу. Поисковик на момент написания материала поддерживал 18 языков, хотя русского и украинского в их числе не было.


Northern Light

Проект Northern Light, который еще недавно весьма высоко котировался в
качестве инструмента для поиска сайтов, в целях увеличения финансовых потоков
начал специализироваться на поиске документов и обзавелся весьма неплохим новостным
роботом. Работу с новостными ресурсами можно ограничить по тематическим категориям,
а что касается хронологических настроек, то здесь Northern Light предлагает весьма
узкий выбор опций «За две недели», «За сегодня» и «За

последние два часа». Отличительной особенностью ресурса является создание
тематических «папок». В случае, если запрос был слишком объемным, пользователь
может выбрать интересующую его тематику.


Русскоязычные поисковики

Яndex
Новости

В числе ресурсов, которые ежедневно проверяются российским Яndex на предмет свежих новостей, есть и украинские сайты — поисковик предпочитает ограничивать свое поле действий не политическими, а языковыми границами, т. е. попасть в число индексируемых имеют шанс ресурсы, интересные русскоязычному читателю. Результаты работы системы автоматически сортируются в обратном хронологическом порядке, а в опциях расширенного поиска можно настроить источники, по которым хотелось бы провести поиск. Одна из наиболее удобных функций — это возможность подписаться на новости, содержащие определенное ключевое слово. Заголовки в виде ежедневного дайджеста будут поступать в ваш почтовый ящик.

Сми.ру

Курс

Курс Executive Leadership англійською

З тобою працюватиме Academic director & Program adviser у Google Девід Слокум

Хочу на курс

Еще один весьма удобный ресурс для поиска новостей в русскоязычных изданиях.
На Сми.ру собираются заголовки и первые абзацы статей из крупнейших печатных и

онлайновых изданий. Поисковик принимает запросы на материалы, опубликованные в
течение последнего года, однако если есть желание проследить хронологию публикаций
в определенном разделе, то ссылка «предыдущие 25» выведет на список
статей, размещенных ранее. У проекта существуют и украинские «филиалы»,
однако здесь непосвященный пользователь может запутаться. По адресу www.smi.
ru/ukraine/ расположены ссылки на материалы об Украине, опубликованные в российских
изданиях, в то время как на https://ukr.smi.ru/
— список заголовков «избранных» украинских изданий. Поиск поддерживается
на всех вышеуказанных сайтах, однако списки заголовков в определенных случаях
представляют продукты не первой свежести — это, пожалуй, один из главных недостатков.


Rambler

Удобный механизм для обнаружения русскоязычных новостей работает и на портале
Rambler. Форма поиска новостей находится на заглавной странице Rambler, а по адресу
news.rambler.ru расположился собственный информационный проект компании, и поиск
там ведется по заголовкам Rambler Media. По умолчанию Rambler ранжирует документы
по серверу, на котором они находятся, однако в опциях настройки присутствуют и
варианты сортировки по релевантности страницы, а также дате публикации материала.


Судя по набору получаемых ссылок, индексируются только российские издания. Что
касается информационной насыщенности поисковой базы Rambler, то тут преимущество
Яndex трудно оспорить — на горячую тему «выборы Украина» Rambler
выдал всего 5 документов (4 из них — с российского сервера Lenta.ru),
в то время как Яndex порадовал 53 ссылками. Аналогичный поиск на сайте
Сми.ру без временного ограничения публикации материала представил свыше 14 тысяч
документов, а поиск на ukr.smi.ru
сообщил об обнаружении более чем 7 тысяч статей (была выбрана опция «Все
слова», так как по умолчанию Сми.ру ищет «Любое из слов»).

Meta

С недавних пор возможность поиска по украинским Internet-изданиям предоставляет и Meta. На соответствующей странице пользователь может задать как ранжирование документов, так и желаемые источники. На момент написания материала поисковик индексировал новости 23 информационных сайтов украинского сектора Internet. Как сообщили разработчики, страницы с анонсами новостей соответствующих ресурсов сканируются каждые 15 минут, а в случае обнаружения нового документа новость загружается роботом, после чего может быть доступна по ссылке «Текст документа на Мете». В ближайшее время число сайтов-источников планируется довести до 35.


Сравнение англоязычных поисковиков

Сравнение
англоязычных поисковиков

Назвать данные эксперименты тестированием,
наверное, будет не совсем корректно. Во-первых, объективно оценить можно только
количественную составляющую, так как о качестве предложенных новостей каждый должен
судить сам. Во-вторых, и число новостей — критерий изменчивый, и поиск, совершенный
днем позже, будет отличаться от предыдущего и количеством, и качеством ссылок.
Поэтому лучший поисковик новостей каждый для себя должен выбрать сам, мы же постарались
дать примерную картину состояния дел в данной области сквозь призму нескольких
запросов.

Для оценки объема баз данных поисковиков первые два запроса были довольно общими, так как требовалось гарантированное количество ссылок для сравнения возможностей поиска. Search.com на странице результатов поиска разбивает их по категориям, и поэтому сравнивать ресурсную базу поисковика от CNET с конкурентами весьма трудно. Moreover.com аналогично предлагает пять наиболее актуальных заголовков, приглашая зарегистрироваться для увеличения количества результатов, однако на странице поиска новостей от AltaVista движок Moreover не накладывает в этом плане никаких ограничений.

Третий запрос представляет собой имя американского сенатора, который недавно предложил на рассмотрение Конгресса США весьма спорный законопроект в области высоких технологий. Его имя неоднократно появлялось в изданиях, в основном, технологической и юридической направленности. Четвертый запрос позволяет делать выводы о том, в каком поисковике лучше всего искать новости географического характера.

В пятом — фигурирует имя китайского руководителя правительства, так как именно он присутствовал при запуске беспилотного космического модуля в день написания этого материала. Результаты данного поиска дают возможность судить и об оперативности новостных поисковиков. Имя президента КНР, безусловно, появлялось в прессе и по другим поводам, и поэтому количество результатов здесь не так важно, как их качество. «Космическую новость» не указал в списке результатов только поисковый механизм AltaVista-Moreover, а в Google ссылка на соответствующие материалы возглавила список.

Как можно видеть, по количеству результатов NewsFind оставляет далеко позади всех своих соперников, причем о конкуренции в данном случае говорить не приходится. Вместе с тем по умолчанию NewsFind обрабатывает весьма обширную коллекцию изданий, язык которых необязательно знаком пользователю. Движок Moreover на сайте AltaVista хорош, когда требуется найти новость общего характера, однако если речь идет о конкретном событии и конкретных личностях, то эффективность Moreover стремительно падает. Аналогичная ситуация характерна и для AllTheWeb и Google. Качественные результаты в процессе поиска показывает и Northern Light, использование которого дает еще одно небольшое преимущество — многие новости хранятся поисковиком непосредственно на сайте, что иногда ускоряет время загрузки.


Сравнение русскоязычных поисковиков

Сравнение
русскоязычных поисковиков

Проверочный поиск на русскоязычных поисковиках
был начат с ключевых слов весьма общего характера. Ввиду своей российской направленности
Rambler оказался крайне неудачным источником для поиска новостей, имеющих отношение
к Украине. Здесь наибольшее количество результатов выдали Meta и Сми.ру. Относительный
успех проектов Сми.ру в данной сфере вызван специализацией изданий, а также тем
фактом, что в Сми.ру первоначальный поиск выдает результаты за все время. При
попытке уравнять Яndex и Сми.ру и заставить поисковики «отчитаться»
за последнюю неделю количественная разница была незначительной, для того чтобы
говорить о преимуществе одного из них. Украинский поисковик Meta вырывался в лидеры
в случаях, когда речь шла об информации, имеющей непосредственное отношение к
Украине.

Фильм «Игры разума» (A Beautiful Mind) стал обладателем «Оскара» за лучшую кинокартину 2001 года, однако только Яndex сумел найти достаточное количество новостей для поклонников культуры. Компания IBM в течение недели привлекала внимание новыми технологиями, что вызвало неоднократное упоминание имени корпорации в прессе. Здесь Яndex оказался на голову выше конкурентов, и о противостоянии новостных поисковиков Rambler и Яndex говорить не приходится. В Сми.ру, напомним, поисковик выдал результаты за все время индексации заголовков.

AllTheWeb также поддерживает поиск новостей на русском языке, и для сравнительного анализа все запросы в данном тесте были сделаны с ограничением языка документа.

Что не вошло в обзор В данном материале мы попытались сравнить инструменты для поиска новостей.
Из обзора пришлось исключить новостные ресурсы как таковые, хотя в последнее время
некоторые онлайн-сервисы трудно отнести к определенной группе. Скажем, популярный
сайт Yahoo! News (news. yahoo.com) также дает возможность пользователю осуществить
поиск по заголовкам и текстам статей десятков изданий, однако все эти издания
должны размещать свой контент на Yahoo! News. Другими словами, поисковик, который
вполне можно квалифицировать как новостной, на самом деле является локальным по
сайту news.yahoo.com и поэтому
в данный обзор включен не был. Есть еще несколько подобных примеров.

В целом, новостные поисковики в последнее время получили импульс к развитию. В некоторых случаях — оставаясь дополнительным сервисом при больших проектах, а в других — обретая собственную нишу на корпоративном рынке.

searchininternet — lovelyvikus

 

  1. Понятие «поисковая система».
  2. История развития.
  3. Обзор и сравнение англоязычных, русскоязычных и международных поисковых систем.
  4. Специальзированные поисковые системы.
  5. Запрос в поисковых системах. Оптимизация поисковых запросов.
  6. Алгоритмы поиска.
  7. Литература.
  1. Понятие «поисковая система».
    Поисковая система — веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet. В последнее время появился новый тип поисковых движков, основанных на технологии RSS.
    Комплекс программ, обеспечивающий функциональность поисковой системы, называют поисковый движок или поисковая машина. Основными критериями качества работы поисковой машины являются релевантность (степень соответствия запроса и найденного), полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. Основные проблемы в работе поисковых систем описаны в статье Глубокая паутина.
  2. История развития.
    Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэйем (англ. Matthew Gray) из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т. н. «crawler-based» — то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице, с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.
    В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Rambler и Aport. 23 сентября 1997 года была открыта поисковая машина Яндекс.
    В апреле 1997 был запущен Ask Jeeves как поисковик, позволяющий формулировать запросы на естественном языке. Ask Jeeves использовал людей в качестве редакторов. Ask использовал технологию DirectHit для ранжирования результатов по популярности, но эта технология оказалась неустойчива к спаму. В 2000 году вышел поисковик Teoma, который использовал систему кластеров по теме, спецификации, популярности. В 2001 Ask купил Teoma для того чтобы заменить им технологию DirectHit.
    AllTheWeb — это поисковая платформа, запущенная в мае 1999 для того, чтобы продемонстрировать возможности быстрых поисковых технологий. У них был глянцевый интерфейс и множество возможностей для продвинутого поиска, но 23 февраля 2003 года AllTheWeb был куплен Overture за 70 миллионов. После того как Yahoo! Выкупила Overture, они позаимствовали некоторые из технологий AllTheWeb и сейчас иногда используют AllTheWeb как тестовую площадку.
    Помимо поисковых машин для Всемирной паутины существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным FTP-серверам и «Veronica» для поиска в Gopher.

Хронология

Год

Система

Событие

1993

Aliweb

Запуск

1994

WebCrawler

Запуск

1994

Lycos

Запуск

1995

AltaVista

Запуск (Создана DEC)

1995

Excite

Запуск

1996

Inktomi

Основана

1996

Ask Jeeves

Основана

1996

Rambler

Запуск

1996

Aport

Запуск

1997

Northern Light

Запуск

1997

Яндекс

Запуск

1998

Google

Запуск

1999

AlltheWeb

Запуск

2000

Teoma

Основана

2004

Yahoo! Search

Окончательный запуск (первые собственные результаты)

2004

MSN Search

Бета запуск

2005

MSN Search

Окончательный запуск

2006

Webalta

Начало публичного тестирования

Примечание: годом запуска считается год, когда появилась возможность получать результаты поиска через Всемирную паутину.

  1. Обзор и сравнение англоязычных, русскоязычных и международных поисковых систем.
    • Всеязычные:
      • Google
        Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д. Например, поиск «intitle:Google site:wikipedia.org» даст все статьи википедии на всех языках, в заголовке которых встречается слово «Google»
      • Yahoo! и принадлежащие этой компании поисковые машины:
        Overture
        Inktomi
        AltaVista
        AltaVista
        Alltheweb FAST-Engine
      • MSN — крупный интернет-провайдер и веб-портал, созданный компанией Microsoft
  2. Англоязычные и международные:
    • AskJeeves (механизм Teoma)
  3. Русскоязычные — большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках — украинском, белорусском, английском и др. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что в основном индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык или другими способами ограничивают своих роботов русскоязычными сайтами.
    • Aport — российская поисковая система. Используется с 1995 года. Часть портала РОЛ. Принадлежит Golden Telecom. При поиске учитываются особенности русского языка. В Рунете с начала 2000-х годов поисковая система стала резко сдавать позиции, заметно уступая по популярности Яндексу и Рамблеру. По богатству языка запросов заметно уступает другим популярным системам.
    • Rambler — интернет-холдинг, включающий в качестве сервисов поисковую систему, рейтинг-классификатор ресурсов российского Интернета, информационный портал. Настройки языка поиска: любой, русский, английский, украинский. Учитывается морфология. Одно время поисковая система Рамблер была самой популярной в рунете, но позже уступила лидерство Яндексу.
    • Яндекс — российская система поиска в Сети и интернет-портал. Поиск Яндекса позволяет искать по Рунету документы на русском, украинском, белорусском, английском, немецком и французском языках с учётом морфологии русского и английского языков и близости слов в предложении. Отличительная особенность Яндекса — возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов.
    • Mail.ru — один из крупнейших в Рунете бесплатных сервисов электронной почты. Компания работает на рынке под данным именем с 16 октября 2001 года. До этого момента бренд Mail.ru принадлежал компании Port.ru. В конце 2006 года было заключено стратегическое соглашение о предоставлении поискового сервиса, основанного на движке Яндекса.
    • Webalta — Российская поисковая система, находящаяся на стадии публичного тестирования (прогонки).
  4. Специализированные поисковые системы.
    • Поиск картинок
      • Поиск картинов Яндекс
      • Поиск картинок Google
      • Поиск картинок Yehoo!
      • Поиск картинок Picsearch
  5. Поисковые системы с фильтрами
    • Scandoo: Поиск с проверкой сайтов на наличие вирусов, вредоносных программ
  6. Поиск по глубокой паутине (часть веб-страниц Всемирной паутины, не индексированная поисковыми системами):
    • Yahoo! Subscriptions: Поиск по «подписным» сайтам
    • CompletePlanet: Поиск по базам данных и специальным движкам
    • QProber: Классификация и поиск по «скрытым» базам данных
    • MetaQuerier: Обследуя и интегрируя глубокую паутину
  7. Поиск файлов:
    • Filesearch. ru
  8. Поиск электронных компонентов:
    • eINFO.ru
    • eFind.ru
  9. Поиск кода программ:
    • Google codesearch
    • Koders.com
    • Codase.com
  10. Поиск вредоносных программ (вирусы, трояны и т.п.):
    • Malware Search
  11. Поиск кряков (специальная программа (либо файл, содержащий инструкции для такой программы), изменяющая некоторые байты в другой программе, выполняемая с целью отключения защиты от копирования, отключение nagscreen’ов или запрещение чтения системного времени) и вареза (термин, обозначающий незаконно распространяемое программное обеспечение)
    • Astalavista Security Group: поиск через все движки «подпольного Интернета»
  12. Поиск новостей :
    • Новотека
    • Новостная поисковая система «Redtram»
  13. Метапоисковые системы:
    • Metabot.ru

 

  1. Запрос в поисковых системах. Оптимизация поисковых запросов.
    Запрос — это формулирование своей информационной необходимости пользователем некоторой поисковой системы. Для составления запроса используется язык поисковых запросов.
    Все запросы к поисковым системам условно (из-за некоторых случаев неоднозначности) можно разделить на три типа.

1.     Информационные запросы. Пользователь ищет определенную информацию, не заботясь о том, на каком именно веб-сайте он ее обнаружит.

2.     Навигационные запросы. Пользователь ищет сайт, где, по его предположению, содержится интересующая его информация.

3.     Транзакционные запросы. В формулировке запроса пользователь выражает свою готовность совершить какое-либо действие.

Поисковая оптимизация (англ. search engine optimization, SEO) — оптимизация HTML-кода, текста, структуры и внешних факторов сайта с целью поднятия его в выдаче поисковой системы.
Поисковая система учитывает следующие параметры сайта при вычислении его релевантности (степени соответствия введённому запросу):

    • частота ключевых слов; сложные алгоритмы современных поисковиков позволяют производить семантический анализ текста, чтобы отсеять поисковый спам, когда ключевое слово встречается слишком часто (более определённого процента от всего содержимого) на странице;
    • индекс цитирования сайта, или количество ресурсов, ссылающихся на данный сайт; многими поисковиками не учитываются обратные ссылки (друг на друга), также важно, чтобы ссылки были с сайтов той же тематики, что и раскручиваемый сайт.


    Соответственно, работа по оптимизации включает в себя работу с внутренними факторами — приведение текста и разметки страниц в соответствие с выбранными запросами, улучшение качества и количества текста на сайте, оптимизация структуры, навигации и внутренних ссылок сайта, а также внешними факторами — обмен ссылками, регистрация в каталогах и прочие мероприятия для повышения и стимулирования ссылаемости на ресурс. Лицо, проводящее работу по оптимизации, называется оптимизатор.
    Методы оптимизации можно разделить на три класса:

      1. «Белая» оптимизация.
        Белым называется оптимизаторская работа над ресурсом без применения официально запрещённых поисковиками методов раскрутки ресурса.
      2. «Серая» оптимизация.
        Под серым SEO понимается, что вебмастер, который занимается продвижением ресурса так или иначе затрагивает методы, запрещенные поисковыми системами — например, использует линкаторы (автоматизировання система обмена ссылками), покупает ссылки с других ресурсов и т. п.
      3. «Чёрная» оптимизация.
        Чёрная оптимизация обычно представляется как использование дорвеев — страниц и ресурсов, созданных (зачастую автоматически) специально для роботов поисковых систем. В теории человек не должен читать текст, который размещен на дорвее, так как он представляет собой бессмысленный набор из ключевых слов и популярных запросов. Методы раскрутки дорвеев — это нарушения всех правил поисковых систем, это беспорядочный спам по любым чужим ресурсам (гостевым книгам, форумам, каталогам, блогам, вики-сайтам, и т. п.), где может остаться ссылка на дорвей.
    1. алгоритмы поиска

      Для того, чтобы выдать результат обработанного запроса пользователя, поисковые системы используют, так называемых, «пауков», которые занимаются поиском информации в сети. Это автоматические программы, которые обращаются к веб-страницам, так же как и обычные пользователи с помощью браузеров. В дополнение к «чтению» содержания веб-страниц, с целью их индексации, они также запоминают и записывают ссылки.

      • Индекс цитирования (частота встречаемости ссылки на сайт) может быть использован как механизм для определения степени доверия к этой странице других сайтов.
      • Текст ссылки может помочь при выяснении вопроса, чему посвящена страница.
      • Контекст, в котором встречается ссылка, может определить общую тематику страницы или сайта.
      • В дополнение к этому ссылки сохраняются, с тем, чтобы в будущем бот мог пройти по ним и проиндексировать страницу позже.

      Поисковики состоят из трех основных частей. Поисковые пауки идут по ссылкам, для того чтобы посетить страницы, которые еще не были проиндексированы или обновились со времени последнего посещения. Эти страницы, после прохода по ним бота индексируются и добавляются в индекс. Когда вы ищете информацию, используя один из основных поисковиков, вы на самом деле ищете не во всей сети, а в индексе контента, который достаточно грубо и часто с опоздание предоставляет вам содержание сети. Третьей частью поисковика является поисковый интерфейс и программа определения релевантности. Для каждого поискового запроса поисковики, как правило, выполняют следующую последовательность действий.

      • Принимают поисковый запрос и проверяют его на содержание специфических команд, а также проверяют его на ошибки и в случае обнаружения последних предлагают правильный или более популярный запрос.
      • Проверяют, соответствует ли запрос вертикальным поисковым базам данных (поиск по новостям или продуктам) и в случае совпадения, располагают вертикальные результаты рядом с основными.
      • Собирают список страницы из органического поиска. Эти результаты располагаются в зависимости от содержания страницы, а также от показателя индекса цитирования.
      • Запрашивают список соответствующих рекламных объявлений, для того чтобы расположить его рядом с результатами.

      Алгоритм поиска информации поисковой системой выглядит следующим образом:

      • Пользователь вводит запрос на естественном языке.
      • Далее на этапе обработки запроса из него извлекаются ключевые слова; выбрасываются стоп -слова; осуществляется расширение запроса синонимами и т. д.
      • Преобразованный запрос отправляется на несколько информационных источников.
      • Отклики источников обрабатываются, из них выделяются найденные документы и помещаются в полнотекстовую базу данных системы.
      • Запрос пользователя и найденные документы подвергаются лингвистическому анализу, включающему морфологический, синтаксический и семантический анализ.
      • По результатам обработки проводится сравнение образов и вычисление релевантности.
      • Найденные документы фильтруются и сортируются в соответствии с вычисленной на предыдущем этапе релевантностью. Низкорелевантные документы отбрасываются.
      • Результаты поиска выдаются пользователю.


      Алгоритм работы поисковой системы:


       

    2. Литература.
      1. Search engine // The free encyclopedia Wikipedia — http://ru.wikipedia.org/wiki/Search_Engine
      2. Aaron Wall. History of Search Engines: From 1945 to Google 2006 — http://www. optimization.ru/subscribe/163.html

     

    Последние новости и обновления о SEO, контекстной рекламе, поиске и социальных сетях

    Реклама

    AllSEOLocal SEOPPCСоциальные сетиWordPressShopifyContent

    Последние новости, обновления, тренды и самая последняя информация, которую вам нужно знать о SEO, Google и других поисковых системах, ведущих платформах PPC и популярных социальных сетях.

    Мэтт Г. Саутерн

    Google реструктурирует подразделение Assistant, отдавая приоритет технологии чата Bard AI, что может повлиять на ландшафт виртуального помощника.

    • 4 минуты чтения
    • 8,1 К прочтений
    • 31 марта 2023 г.

    Мэтт Г. Саутерн

    Google объявляет об обновлении до чат-бота Bard, расширяющего математические и логические возможности благодаря интеграции PaLM.

    • 3 минуты чтения
    • 1,3 К прочтений
    • 31 марта 2023 г.

    Роджер Монти

    Google объясняет, как он выявляет поддельные и вводящие в заблуждение бизнес-отзывы и учетные записи на Картах Google

    • 3 минуты чтения
    • 9,1 К прочтений
    • 31 марта 2023 г.

    Мэтт Г. Саутерн

    Microsoft представит рекламу в чате Bing, преобразуя платформу без рекламы и предлагая новые возможности для издателей.

    • 3 минуты чтения
    • 8,0 000 прочтений
    • 30 марта 2023 г.

    Кристи Хайнс

    Google запустил Центр прозрачности рекламы и опубликовал отчет о безопасности рекламы за 2022 год. Узнайте больше о том, как рекламодатели могут извлечь выгоду из обоих вариантов.

    • 4 минуты чтения
    • 2,8 К прочтений
    • 29 марта 2023 г.

    Мэтт Г. Саутерн

    Даниэль Вайсберг из Google рассказывает, как выявлять и анализировать падение трафика с помощью отчета об эффективности Search Console и Google Trends.

    • 3 минуты чтения
    • 7,1 К прочтений
    • 29 марта 2023 г.

    Мэтт Г. Саутерн

    Google Ads представляет многоканальный импорт данных о конверсиях, улучшает анализ пути клиента к покупке и расширяет возможности принятия обоснованных маркетинговых решений.

    • 2 минуты чтения
    • 3,5 тыс. прочтений
    • 29 марта 2023 г.

    Мэтт Г. Саутерн

    Google борется с экстремальной жарой с помощью поисковых оповещений, расширения Tree Canopy и инвестиций в размере 5 миллионов долларов в проекты по инновациям в области климата.

    • 3 минуты чтения
    • 2,4 К прочтений
    • 29 марта 2023 г.

    Кристи Хайнс

    Microsoft запустила пилотную программу для сторонних поставщиков государственных услуг. Узнайте больше об избранных услугах, соответствующих критериям, и о том, как подать заявку.

    • 3 минуты чтения
    • 369Читает
    • 29 марта 2023 г.

    Роджер Монти

    Плагин специальных возможностей WordPress сканирует и создает отчеты на неограниченном количестве страниц — бесплатно

    • 5 минут чтения
    • 2,7 тыс.  прочтений
    • 29 марта 2023 г.

    Мэтт Г. Саутерн

    Google расширяет поиск с помощью «Об этом авторе» и других функций, позволяя пользователям оценивать онлайн-информацию и источники.

    • 3 минуты чтения
    • 5,5 К прочтений
    • 28 марта 2023 г.

    Кристи Хайнс

    Любопытно, как генеративные чат-боты с искусственным интеллектом сочетаются друг с другом? Вот восемь подсказок с ответами от ChatGPT, Bing AI, Google Bard и Claude.

    • 9 минут чтения
    • 23 000 прочтений
    • 28 марта 2023 г.

    Брук Осмундсон

    В этом пошаговом руководстве показано, как успешно создать и оптимизировать кампанию «Максимальная эффективность для целей путешествия».

    • 5 минут чтения
    • 779Читает
    • 28 марта 2023 г.

    Мэтт Г. Саутерн

    Google переносит дату вступления в силу новой политики в отношении рекламы на 24 мая, что дает дополнительное время для внесения необходимых корректировок.

    • 3 минуты чтения
    • 1,4 К прочтений
    • 27 марта 2023 г.

    Роджер Монти

    Google Search Console добавляет отчеты о кликах и показах для фрагментов продуктов и списков продавцов

    • 3 минуты чтения
    • 5,9K читает
    • 27 марта 2023 г.

    Мэтт Г. Саутерн

    Новые функции в объявлениях Google Discovery позволяют брендам привлекать потребителей индивидуальным подходом и более точным анализом данных.

    • 3 минуты чтения
    • 3,2 К прочтений
    • 27 марта 2023 г.

    Роджер Монти

    Движение искусственного интеллекта с открытым исходным кодом достигает еще одной вехи с выпуском клона ChatGPT, который может использовать каждый

    • 3 минуты чтения
    • 30 000 прочтений
    • 27 марта 2023 г.

    Кристи Хайнс

    Стоит ли платная верификация через Twitter Blue и Meta Verified? Узнайте больше о преимуществах и недостатках платы за известность.

    • 5 минут чтения
    • 5,0 000 прочтений
    • 24 марта 2023 г.

    Роджер Монти

    Уязвимость плагина WordPress позволяет злоумышленникам, не прошедшим проверку подлинности, полностью захватить сайт. Затрагивает более 500 000 сайтов WordPress WooCommerce

    • 3 минуты чтения
    • 4,1 К прочтений
    • 24 марта 2023 г.

    Мэтт Г. Саутерн

    Пристальное внимание на слушаниях в Конгрессе США посвящено вопросам конфиденциальности, безопасности данных и связям TikTok с Китаем.

    • 3 минуты чтения
    • 533 чтения
    • 23 марта 2023 г.

    Мэтт Г. Саутерн

    OpenAI представляет поддержку плагинов для ChatGPT. Теперь он может получать доступ к Интернету, интерпретировать код и извлекать данные из пользовательских баз знаний.

    • 3 минуты чтения
    • 12 000 прочтений
    • 23 марта 2023 г.

    Роджер Монти

    Mozilla объявила о противовесе с открытым исходным кодом компаниям, занимающимся ИИ, ориентированным на прибыль. Создаст конкурента ChatGPT и Bard 9 с открытым исходным кодом.0003

    • 3 минуты чтения
    • 8,5 тыс. прочтений
    • 23 марта 2023 г.

    Кристи Хайнс

    Узнайте больше о завтрашнем слушании с генеральным директором TikTok о конфиденциальности данных и создании более безопасного цифрового пространства для более молодой аудитории.

    • 4 минуты чтения
    • 1 000 прочтений
    • 22 марта 2023 г.

    Мэтт Г. Саутерн

    Opera представляет функции на основе ИИ, улучшая просмотр рабочего стола с помощью ИИ-подсказок, ChatGPT, ChatSonic и планирует создание движка ИИ для браузера.

    • 3 минуты чтения
    • 1,3 К прочтений
    • 22 марта 2023 г.

    Мэтт Г. Саутерн

    Новое решение Microsoft для поисковой рекламы для розничных продавцов может повысить эффективность кампании за счет таргетинга на категории и повышенных ставок.

    • 2 минуты чтения
    • 3,6 К прочтений
    • 22 марта 2023 г.

    Кристи Хайнс

    TikTok обновил свои принципы сообщества, включив в них новые правила, касающиеся контента, созданного ИИ, и того, как общественные деятели могут использоваться для художественного и образовательного контента.

    • 3 минуты чтения
    • 1,1 К прочтений
    • 21 марта 2023 г.

    Кристи Хайнс

    Является ли TikTok единственной компанией, которая представляет угрозу для пользователей в США? Узнайте, как такие компании, как Amazon, Apple, Google и Meta, несут схожие риски.

    • 3 минуты чтения
    • 297 прочтений
    • 21 марта 2023 г.

    Мэтт Г. Саутерн

    Последние функции LinkedIn для бизнес-страниц направлены на повышение узнаваемости бренда, вовлечения аудитории и эффективности найма.

    • 2 минуты чтения
    • 4,5 К прочтений
    • 21 марта 2023 г.

    Мэтт Г. Саутерн

    Google выпускает BARD, чат-бот с искусственным интеллектом, выходящий на рынок, чтобы конкурировать с ChatGPT OpenAI и Microsoft Bing Chat.

    • 3 минуты чтения
    • 49K читает
    • 21 марта 2023 г.

    Мэтт Г. Саутерн

    Мгновенно создавайте визуальный контент с помощью Bing Image Creator, инструмента на основе искусственного интеллекта в Bing и Microsoft Edge.

    • 3 минуты чтения
    • 3 000 прочтений
    • 21 марта 2023 г.

    поисковых систем | Последние новости, фото и видео

    Поисковые системы | Последние новости, фото и видео | WIRED

    Перейти к основному содержанию

    История сохранена

    Чтобы вернуться к этой статье, перейдите в раздел «Мой профиль» и выберите Просмотреть сохраненные истории.

    SearchSearch

    Business

    Поиск Google на украинах раскрывает год страха — и надежда

    Business

    Мой странный день с новым AI Chatbot

    . Начали

    Gear

    Как посмотреть событие поиска Google AI

    Идеи

    Google Search тихо повреждает демократию

    Security

    7776. Результаты поиска

    Безопасность

    Браузер конфиденциальности DuckDuckGo наконец-то появился на рабочем столе0376 Выпускник Google хочет снова сделать поиск чистым быть жутким, чтобы зарабатывать деньги

    Gear

    Стартап тестирует модель подписки для поисковых систем

    Бизнес

    Хотите посадить больше деревьев? Просто используйте другую поисковую систему

    Бизнес

    Google Search Now Читает на более высоком уровне

    Gear

    Чувствуете стресс? Pinterest хочет помочь

    Gear

    Кому принадлежат тексты песен в Интернете? Это сложно