Поисковые системы в исторической перспективе

Автор работы: Пользователь скрыл имя, 03 Марта 2013 в 19:27, реферат

Описание работы

В мире написаны сотни поисковых систем, а если считать функции поиска, реализованные в самых разных программах, то счет надо вести на тысячи. И как бы ни был реализован процесс поиска, на какой бы математической модели он не основывался, идеи и программы, реализующих поиск, достаточно просты. Хотя эта простота, относится, по-видимому, к той категории, про которую говорят «просто, но работает». Так или иначе, но именно поисковые системы стали одним из двух новых чудес света, предоставив Homo Sapiens неограниченный и мгновенный доступ к информации. Первым чудом, очевидно, можно считать Интернет как таковой, с его возможностями всеобщей коммуникации.

Содержание работы

Введение…………………………………………………………………………2
ПОИСКОВЫЕ СИСТЕМЫ В ИСТОРИЧЕСКОЙ ПЕРСПЕКТИВЕ………………...3
АЛГОРИТМ + СТРУКТУРА ДАННЫХ = ПОИСКОВАЯ СИСТЕМА………………3
МАТЕМАТИЧЕСКИЕ МОДЕЛИ………………………………………………………….5
Поиск «по смыслу»…………………………………………………………………..6
НЕ ТОЛЬКО ПОИСК………………………………………………………………………..8
ЛИНГВИСТИКА……………………………………………………………….8
ПОИСК В ВЕБЕ……………………………………………………………………………….9
Качество ранжирования…………………………………………………………….10
Качество индекса……………………………………………………………………..10
ЦЕНА ОДНОГО ПРОЦЕНТА……………………………………………………………….11
Список литературы…………………………………………………………….12

Файлы: 1 файл

Введение.doc

— 119.00 Кб (Скачать файл)

считать решенным! Легко оценить  долю плагиата в любой статье12.  Чтобы у читателя не создалось впечатление, что информационный поиск исключительно западная наука, упомяну про альтернативный алгоритм определения почти-дубликатов, придуманый и воплощенный у нас в Яндексе [ilyinsky]. В нем используется тот факт, что большинство поисковых систем уже обладают индексом в виде инвертировнного файла (или инвертировнным индексом) и этот факт удобно использовать в процедуре нахождения почти- дубликатов.

ЦЕНА ОДНОГО ПРОЦЕНТА

Архитектурно современные поисковые  системы представляют собой сложные многокомпьютерные комплесы. Начиная с некоторого момента по мере роста системы основная нагрузка ложится вовсе не на робота, а на поиск. Ведь в течении секунды приходит десятки и сотни запросов.  Для того, чтобы справиться с этой проблемой, индекс разбивают на части и раскладывают по десяткам, сотням и даже тысячам компьютеров. Сами компьютеры, начиная с 1997 года (поисковая система Inktomi) представляют собой

обычные 32-битные машины (Linux, Solaris, FreeBSD, Win32) с соответствующими ограничениями по цене и производительности. Исключением из общего правила осталась лишь AltaVista, которая с самого начала использовала относительно  «большие» 64-битные компьютеры Alpha.  Поисковые системы для Интернета (и, вообще, все большие поисковые сиcтемы)  могут ускорять свою работу при помощи техник эшелонирования и прюнинга.  Первая техника состоит в разделении индекса на заведомо более релевантную и менее релевантную части. Поиск сначала выполняется в первой, а затем, если ничего не найдено, или найдено мало, поисковая система обращается ко второй части индекса. Pruning (от англ. отсечение, сокращение), состоит в том, чтобы динамически прекращать обработку запроса после накопления достаточного количества релевантной информации. Бывает еще статический pruning, когда на основании некоторых допущений индекс сокращается за счет таких документов,  которые заведомо никогда не будут найдены.  Отдельная проблема – организовать бесперебойную работу многокомпьютерных комплесов, бесшовное обновление индекса, устойчивость к сбоям и задержкам с ответами отдельных компонент. Для общения между поисковыми серверами и серверам, собирающими отклики и формирующими страницу выдачи  разрабатываются специальные протоколы. 12 в т.ч. и в данной; надеюсь, что 0%; можете проверить Заметьте, что один процент производительности (скажем неудачно написанный оператор в каком-нибудь цикле) для десятитысячнокомпьютерной13 системы стоит примерно ста компьютеров. Поэтому, можно себе представить, как вычищается код, отвечающий за поиск и ранжирование результатов, как оптимизируется использование всех возможных ресурсов: каждого байта памяти, каждого обращения к диску.  Решающее значение приобретает продумывание архитектуры всего комплекса с самого начала, так как любые изменения, например добавление необычного фактора при ранжировании или сложного источника данных, становится исключительно болезненной и сложной процедурой. Очевидно, системы стартующие позже, имеют в это ситуации преимущество. Но инертность пользователей весьма высока, так, например, требуется 2-4 года, чтобы сформированная многомиллионная аудитория сама, пусть и медленно, но перешла на непривычную поисковую систему, даже при наличии у нее неоспоримых преимуществ. В условиях жесткой конкуренции, это порой неосуществимо. 13 размер кластера Google в конце 2001 – начале 2002 года

Список литературы

Алгоритмы: построение и анализ, Т. Кормен, Ч. Лейзерсон, Р.Ривест

МЦНМО, 2000

http://www.ozon.ru/?context=detail&id=114200

 


Информация о работе Поисковые системы в исторической перспективе