Автор работы: Пользователь скрыл имя, 22 Мая 2013 в 21:08, реферат
Бурное развитие сети Internet, которое происходило на протяжении 90-х годов, обусловлено в первую очередь появлением новой технологии WWW(WorldWideWeb).
WorldWideWeb(или всемирная паутина) – это десятки миллионов Web-серверов Internet,
содержащихWeb-страницы, в которых используется технология гипертекста. Она позволяет доставлять и обрабатывать информацию, содержащуюся в специально отформатированных документах, и включает в себя три основных компонента: HypertextMarkupLahguage (HTML), HyperTextTransferProtocol (HTTP), UniversalResourceLocator (URL).
ВВЕДЕНИЕ 2
Глава1 3
1.1 История возникновения WWW 3
1.2 Понятие гипертекста 4
Глава 2 5
2.1 Краткая история развития поисковых систем Internet 5
2.2 Состав и принципы работы поисковой системы Internet 6
2.3 Основные характеристики поисковой системы Internet 8
2.4 Обзор основных Российских поисковых Internet - систем 11
Глава 3 15
3.1.Метапоисковая система Internet 15
3.2.Принцип работы метапоисковой системы 15
ЗАКЛЮЧЕНИЕ 18
Cписок источников и литературы: 19
Существуют различные
поисковые серверы, которые могут
использовать различные механизмы
поиска, хранения и предоставления
пользователю информации. Поисковые
серверы интернета можно
Рассмотрим подробнее каждую из них. Поисковые системы общего назначения являются базами данных, содержащими тематически сгруппированную информацию об информационных ресурсах Всемирной паутины. Такие поисковые системы позволяют находить Web-сайты или Web-страницы по ключевым словам в базе данных или путем поиска в иерархической системе каталогов.
Интерфейс таких поисковых систем общего назначения содержит список разделов каталога и поле поиска в поле поиска пользователь может ввести ключевые слова для поиска документа, а в каталоге выбрать раздел, что сужает поле поиска и таким образом ускоряет его.
Примером поисковой системы общего назначения может служить поисковая система Яндекс.
.
Рис1.
Теперь перейдем к специализированным поисковым системам. Они позволяют искать информацию в других информационных «слоях» Internet: серверах файловых архивов, почтовых серверах, и др. Например, для поиска файлов на серверах файловых архивов существуют специализированные поисковые системы двух типов:
Для поиска файлов в системе с использованием базы данных достаточно ввести имя файла в поле поиска и поисковая система выдаст URL-адреса мест хранения данного файла. Примером специализированной системы может служить российская файловая поисковая система FileSearch (www.filesearch.ru)
Первоочередная задача любой поисковой системы, как общего назначения, так и специализированной – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.
Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто.
Опишем основные характеристики поисковых систем, которые частично или полностью были перенесены на поисковые системы Internet:
1. Полнота – способность системы выдавать все релевантные документы. Это одна из основных характеристик поисковой системы.
Полнота = (РВ/РВ+РН)*100%
РВ –релевантные выданные
РН-релевантные не выданные
Говоря о поисковой системе сети Интернет, полнота представляет собой отношение количества найденных по запросу документов к общему числу документов, удовлетворяющих данному запросу, то есть свойство было полностью перенесено с обычной поисковой системы на поисковую систему Internet. К примеру, если в Интернете имеется 100(РВ+РН) страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60(РВ ) из них, то полнота поиска будет 60.
Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.
2. Точность – способность системы отфильтровывать все нерелевантные документы. Это еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя.
Точность = (РВ/РВ+НВ)*100%
НВ-не выданные релевантные
Это свойство, так же как и «полнота», было полностью перенесено на поисковые системы Internet. Например, если по запросу «как выбрать автомобиль» находится 100 (РВ+НВ) документов, в 50(РВ) из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова, то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.
3.Актуальность - составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день. Актуальность – свойство, характеризующее любую поисковую систему.
4.Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов. Свойство относится преимущественно к поисковым системам сети Internet.
5. Наглядность (свойство поисковых систем сети Internet) представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска.
В русскоязычной части сети Интернет работают около двух десятков поисковых систем, но подавляющие большинство пользователей работает лишь с несколькими, подробно остановимся на самых крупных:
Яндекс - На сегодня наиболее популярная поисковая система, ежемесячно к ней обращаются более 35 миллионов пользователей Русскоязычной части Интернета. Начала свою работу во второй половине 1997 года, учитывая морфологию русского языка. История компании "Яндекс" началась в 1990 году с разработки поискового программного обеспечения в компании "Аркадия". За два года работ были созданы две информационно-поисковые системы - Международная Классификация Изобретений, 4 и 5 редакция, а также Классификатор Товаров и Услуг. Обе системы работали локально под DOS и позволяли проводить поиск, выбирая слова из заданного словаря, с использованием стандартных логических операторов. В1993 году "Аркадия" стала подразделением компании CompTek. В 1993-1994 годы программные технологии были существенно усовершенствованы благодаря сотрудничеству с лабораторией Ю. Д. Апресяна (Институт Проблем Передачи Информации РАН). В частности, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300Кб, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов.
Слово Яндекс придумал за несколько
лет до этого один из основных и
старейших разработчиков
В начале 1996 года был разработан алгоритм построения гипотез. Отныне морфологический разбор перестал быть привязан к словарю - если какого-либо слова в словаре нет, то находятся наиболее похожие на него словарные слова и по ним строится модель словоизменения. В это время Интернет в России только начинался. Еще через полгода стало очевидно, что ничто не отделяет CompTek от создания собственной глобальной поисковой машины. Объем Рунета составлял тогда всего несколько гигабайт. Осенью 1997 года был открыт Yandex.Ru.
Помимо поисковой системы, сегодня Яндекс - огромный портал с целым набором широко используемых сервисов. Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997 года на выставке Softool. Основными отличительными чертами Yandex.Ru на тот момент были проверка уникальности документов (исключение копий в разных кодировках), тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу), учитывающий не только количество слов запроса, найденных в тексте, но и "контрастность" слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе. Сегодня Яндекс имеет внутри мощный поисковый робот, позволяющий производить поиск по самым различным критериям.
Rambler –одна из старейших поисковых систем российского Интернет, запущена в 1996 году, на сегодня - вторая по популярности с обращением более 25 миллионов посетителей в месяц. Помимо поисковой системы, сегодня Рамблер - один из крупнейших порталов Русскоязычной части Интернета с большим набором широко известных сервисов, таких как каталог Рамблер, Рамблер-почта, Рамблер-ICQ или Рамблер-ТВ. Сегодня Рамблер - больше, чем просто поисковая система и набор сервисов, это крупная медиагруппа. Поисковая машина "Рамблер" начала работу в октябре 1996 года, на стартовом этапе содержала всего 100 тысяч документов. "Рамблер" не был первой отечественной поисковой системой, однако в первый год своего существования (когда весь русский веб с приемлемой степенью правдоподобия индексировался "Рамблером", "Апортом", "Русской поисковой машиной", а также шведской и калифорнийской AltaVista) вынес основной груз поисковых запросов. Вторая версия "Рамблера" начала разрабатываться летом 2000 года. В нее были введены функции, давно уже имевшиеся в конкурирующих системах. Она учитывает координаты слов, была обучена строгой и нечеткой морфологии, связывает поиск с каталогом, в качестве которого используется Top100 (http://top100.rambler.ru/), группирует результаты поиска по сайтам, ищет по числам. Достаточно удачная архитектура продукта позволяет "Рамблер" иметь для поисковика количество серверов в 2 раза меньшее, чем у "Яндекса", и в 3 раза меньшее, чем у "Апорта".
Апорт – Третья популярности на сегодня поисковая система с обращением более 16 миллионов посетителей в месяц. Поисковая система построена на основании новейших достижений в области информационного поиска и использует уникальные алгоритмы сортировки найденных результатов. Разнообразные специализированные поиски (Знакомства, Товары, Новости, Рефераты, MP3 и др.) дают пользователям дополнительные возможности находить различную информацию в Сети. В поисковую машину интегрирован один из крупнейших в Русскоязычной части Интернет каталогов Интернет-ресурсов "Апорт-каталог".
Поисковая машина "Апорт" была впервые продемонстрирована в феврале 1996 года на пресс-конференции "Агамы" по поводу открытия "Русского клуба". Тогда она искала только по сайту russia.agama.com. Потом она начала искать по четырем, потом по шести серверам... В общем, день рождения и фактический старт системы сильно "размазались" по времени, а официальная презентация "Апорта" состоялась только 11 ноября 1997 года. К тому времени в его базе был проиндексирован первый миллион документов, расположенных на 10 тысячах серверов. Создателем системы выступила компания "Агама" - разработчик программного обеспечения для платформы Windows, главным из которых являлся корректор орфографии "Пропись". Лингвистические разработки "Агамы" использовались при создании поисковой машины, в которой, скажем, в отличие от "Рамблер", изначально учитывалась морфология слов и осуществлялась по желанию клиента проверка орфографии запроса.
Важнейшими свойствами первой версии "Апорта" являлся перевод запроса и результатов поиска на английский язык и обратно, а также реконструкция всех проиндексированных страниц из собственной базы (что означает возможность просмотра страниц, уже несуществующих в оригинале).
Апорт 2000" стал первой российской поисковой машиной, практически реализовавший две базовых технологии американской поисковой машины Google. Первая - учет "ранга страницы" (Page Rank), который характеризует ее популярность (вычисляется по количеству ссылок на ресурс из внешнего Интернета: вес ссылки с популярного сайта выше, чем вес ссылки с менее популярного; ссылки, включающие слова запроса, имеют больший вес, чем, скажем, слово "здесь"). Вторая - обработка запроса, ориентируясь на HTML-код страницы. В "Апорт 2000" учитывается также вхождение слов запроса в URL.
Национальная почтовая служба Mail.ru – это не только поисковая система, но и один из крупнейших порталов российского Интернета. Ежедневная аудитория Mail.ru - более 5 миллионов пользователей. Общее число регистраций со дня основания около 60 миллионов. Mail.ru - самый быстроразвивающийся российский Интернет-ресурс. Через почтовые ящики Mail.ru ежедневно проходит более 25 миллионов писем. Mail.ru занимает лидирующую позицию среди бесплатных почтовых сервисов, предоставляя своим пользователям почтовый ящик неограниченного размера с защитой от спама и вирусов, переводчиком, проверкой правописания, архивом для хранения фотографий и многое другое.