Автор работы: Пользователь скрыл имя, 22 Мая 2013 в 21:08, реферат
Бурное развитие сети Internet, которое происходило на протяжении 90-х годов, обусловлено в первую очередь появлением новой технологии WWW(WorldWideWeb).
WorldWideWeb(или всемирная паутина) – это десятки миллионов Web-серверов Internet,
содержащихWeb-страницы, в которых используется технология гипертекста. Она позволяет доставлять и обрабатывать информацию, содержащуюся в специально отформатированных документах, и включает в себя три основных компонента: HypertextMarkupLahguage (HTML), HyperTextTransferProtocol (HTTP), UniversalResourceLocator (URL).
ВВЕДЕНИЕ 2
Глава1 3
1.1 История возникновения WWW 3
1.2 Понятие гипертекста 4
Глава 2 5
2.1 Краткая история развития поисковых систем Internet 5
2.2 Состав и принципы работы поисковой системы Internet 6
2.3 Основные характеристики поисковой системы Internet 8
2.4 Обзор основных Российских поисковых Internet - систем 11
Глава 3 15
3.1.Метапоисковая система Internet 15
3.2.Принцип работы метапоисковой системы 15
ЗАКЛЮЧЕНИЕ 18
Cписок источников и литературы: 19
Оглавление
ВВЕДЕНИЕ 2
Глава1 3
1.1 История возникновения WWW 3
1.2 Понятие гипертекста 4
Глава 2 5
2.1 Краткая история развития поисковых систем Internet 5
2.2 Состав и принципы работы поисковой системы Internet 6
2.3 Основные характеристики поисковой системы Internet 8
2.4 Обзор основных Российских поисковых Internet - систем 11
Глава 3 15
3.1.Метапоисковая система Internet 15
3.2.Принцип работы метапоисковой системы 15
ЗАКЛЮЧЕНИЕ 18
Cписок источников и литературы: 19
Глоссарий 20
Потребность формирования единого мирового информационного пространства привели к созданию глобальной компьютерной сети Internet. В настоящее врем на более чем 150 миллионах компьютеров, подключенных к Internet, хранится громадный объем информации (сотни миллионов файлов, документов и т.д.). Глобальная сеть Internet привлекает пользователей своими информационными ресурсами и сервисами (услугами), которыми пользуются около миллиарда человек во всех странах мира.
Internet - это крупнейшая мировая компьютерная сеть, которая:
Бурное развитие сети Internet, которое происходило на протяжении 90-х годов, обусловлено в первую очередь появлением новой технологии WWW(World Wide Web).
World Wide Web (или всемирная паутина) – это десятки миллионов Web-серверов Internet,
содержащих Web-страницы, в которых используется технология гипертекста. Она позволяет доставлять и обрабатывать информацию, содержащуюся в специально отформатированных документах, и включает в себя три основных компонента: Hypertext Markup Lahguage (HTML), HyperText Transfer Protocol (HTTP), Universal Resource Locator (URL).
Применяемый в сети протокол TCP/IP (Transmission Control Protocol/Internetwork Protocol - протокол управления передачей/межсетевой протокол) разработан с учетом того, чтобы компьютеры всех видов могли совместно использовать сетевые средства и непосредственно взаимодействовать друг с другом как одна эффективно интегрированная компьютерная сеть.
В последнее время часто приходится слышать, что WWW (World Wide Web) - это очень просто. Однако за этой кажущейся простотой скрывается хорошо продуманная сложная система. При этом следует заметить, что система бурно развивается.
В 1989 году Т. Бернерс-Ли предложил проект "World Wide Web: Proposal for HyperText Project" , он считал, что информационная система, построенная на принципах гипертекста, должна объединить все множество информационных ресурсов CERN, которое состояло из базы данных отчетов, компьютерной документации, списков почтовых адресов, информационной реферативной системы, наборов данных результатов экспериментов и т.п. Гипертекстовая технология должна была позволить легко "перепрыгивать" из одного документа в другой.
В октябре 1990 года проект стартовал. К рождеству "задышал" line mode browser, разработке которого придавалось особое значение, т.к. он открывал доступ к системе через telnet, а в марте его можно было уже демонстрировать. Через год в Internet был установлен анонимный telnet для доступа в систему. Первое сообщение об WWW было послано в телеконференции в августе 1991 года.
Прошло еще целых полтора года до того момента, когда программа Mosaic, разработанная Марком Андресеном (Mark Andressen) из Национального Центра Суперкомпьютерных Приложений (NCSA), и построенная на принципах WWW, обеспечила бурный рост популярности "паутины" в Internet.
Мультипротокольный переносимый интерфейс в WWW, создание которого начала Группа Разработки Программного Обеспечения NCSA, был назван Mosaic. Пробная версия программы была закончена в первой половине 1993 года, а в августе 1993 была анонсирована альфа-версия для Internet.
Следует отметить, что сам проект Mosaic внес огромный вклад в развитие спецификаций World Wide Web, существенно обогатив различные компоненты системы. Разработчики Mosaic ввели в стандарты WWW большое количество новшеств. С самого начала Mosaic разрабатывалась как программа с возможностями доступа к ресурсам Internet посредством различных протоколов, в число которых входили FTP, telnet, NNTP, SMTP. Mosaic на некоторое время затмила разработки CERN. Однако эта группа имела хорошо продуманную стратегию развития системы, которая включала в себя следующие основные моменты: разработка и поддержка стандартов спецификаций системы, разработка библиотеки свободно распространяемых мобильных кодов системы, полного комплекта средств, обеспечивающих разработку и реализацию компонентов системы на любом типе компьютера в сети, подготовка набора справочных и демонстрационных документов о состоянии сети и направлениях ее развития. Данная стратегия позволила распространять программное обеспечение, разработанное в рамках проекта в Internet, а наличие line mode browser'а позволила открыть возможности WWW для огромной аудитории пользователей алфавитно-цифровых устройств, подключенных в сеть. К 1995 году были разработаны программы - браузеры Netscape , Arena , Chimera .
Следующим важным этапом развития технологии World Wide Web стало появление весной 1995 года языка программирования Java, анонсированного компанией Sun Microsystems. Если быть более точным, то прямое отношение к World Wide Web имеет не сам язык, а мобильные коды и возможность их интерпретации программами просмотра Web. Создав свой браузер (программу просмотра) HotJava, Sun смогла продемонстрировать, что идеология интерпретации языка разметки документов может быть расширена. В страницы теперь можно стало встраивать фрагменты программ, которые после передачи по сети активировались на компьютере пользователя, расширяя тем самым концепцию распределенных вычислений.
К этому времени кроме Java появились еще и языки управления сценариями просмотра документов, самым известным из которых стал JavaScript. Тем самым, к середине 1996 года технология World Wide Web превратилась в полноценную гипертекстовую технологию, которая стала позволять решать большинство из тех задач, до которых доросли локальные гипертекстовые системы.
1.2 Понятие гипертекста
В это время в мире информационных технологий наблюдался повышенный интерес к новому и модному в то время направлению - гипертекстовым системам. Сама идея, но не термин, была введена В.Бушем в 1945 году в предложениях по созданию электромеханической информационной системы Memex. Несмотря на то, что Буш был советником по науке президента Рузвельта, она не была реализована. Идея гипертекстовой информационной системы состоит в том, что пользователь имеет возможность просматривать документы (страницы текста) в том порядке, в котором ему это больше нравится, а не последовательно, как это принято при чтении книг. Т.Нельсон определил гипертекст как нелинейный текст. Достигается это путем создания специального механизма связи различных страниц текста при помощи гипертекстовых ссылок, т.е. у обычного текста есть ссылки типа "следующий-предыдущий", а у гипертекста можно построить еще сколь угодно много других ссылок.
Сеть Internet растет очень быстрыми темпами,
и найти нужную информацию среди миллиардов
Web-страниц и файлов становится все сложнее.
Для поиска информации используются специальные
поисковые серверы, которые содержат более
или менее полную и постоянно обновляемую
информацию о Web-страницах, файлах и других
документах, хранящихся на десятках миллионов
серверов Internet. Вообще, поисковая
система - это программно-аппаратный комплекс,
предназначенный для осуществления поиска
в сети Интернет и реагирующий на запрос
пользователя, задаваемый в виде текстовой
фразы (поискового запроса), выдачей списка
ссылок на источники информации, в порядке
релевантности (в соответствии запросу).Одним
из первых способов организации доступа
к информационным ресурсам сети стало
создание каталогов сайтов, в которых
ссылки на ресурсы группировались согласно
тематике. Первым таким проектом стал
сайт Yahoo, открывшийся в апреле 1994 года.
После того, как число сайтов в каталоге
Yahoo значительно увеличилось, была добавлена
возможность поиска информации по каталогу.
Это, конечно же, не было поисковой системой
в полном смысле, так как область поиска
была ограничена только ресурсами, присутствующими
в каталоге, а не всеми ресурсами сети
Интернет.
Каталоги ссылок широко использовались
ранее, но практически утратили свою популярность
в настоящее время. Причина этого очень
проста – даже современные каталоги, содержащие
огромное количество ресурсов, представляют
информацию лишь об очень малой части
сети Интернет. Самый большой каталог
сети DMOZ (или Open Directory Project) содержит информацию
о 5 миллионах ресурсов, в то время как
база поисковой системы Google состоит из
более чем 8 миллиардов документов.
Первой полноценной поисковой системой стал проект WebCrawler появившийся в 1994 году.
В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в Интернет.
В 1997 году Сергей Брин и Лари Пейдж создали Google самую популярную на сегодняшний момент поисковую систему в мире.
23 сентября 1997 года была официально
анонсирована поисковая
В настоящее время существует 3 основных международных поисковых системы – Google, Yahoo и MSN Search, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих можно насчитать очень много) использует в том или ином виде результаты 3 перечисленных. Например, поиск AOL (search.aol.com) и Mail.ru используют базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.
В России основной поисковой системой является «Яндекс», далее - Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса». Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.
1. Модуль индексирования
Модуль индексирования состоит из трех вспомогательных программ (роботов):
Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.
Ссылки извлекаются из тэгов (Тег- признак. Часть элемента данных, обычно один или несколько разрядов, определяющих его тип). Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:
Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.
Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности и т.д.
Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.
2. База данных
База
данных, или индекс поисковой системы
- это система хранения данных, информационный
массив, в котором хранятся специальным
образом преобразованные
3. Поисковый сервер
Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.
Поисковый сервер работает следующим образом:
Полученный от пользователя запрос подвергается анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).
Полученные
данные передаются в качестве входных
параметров специальному модулю ранжирования.
Происходит обработка данных по всем
документам, в результате чего, для
каждого документа
В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).
Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.
Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.
Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.