Поисковые системы Internet. Структура и принципы работы

Автор работы: Пользователь скрыл имя, 19 Октября 2015 в 20:12, курсовая работа

Описание работы

В архивах свободного доступа сети Internet можно найти информацию практически по всем сферам человеческой деятельности, начиная с новых открытий в различных областях науки до прогноза погоды на завтра или курса иностранной валюты на сегодня.
Объектом и предметом исследования являются компьютерная сеть Интернет.
Цель работы: сформировать информационно-наглядное представление о поисковых системах. Дать характеристику поисковых систем и их видов, показать их важность.

Содержание работы

Введение………………………………………………………………………..….4
Глава I. Характеристика компьютерной сети Интернет………………………..5
1.1.История создания Интернета………………………… ……………...5
1.2. Понятие Интернета…………………………………………….….….6
1.3. Структура Интернета…………………………………………………8
1.4. Протоколы сети Интернет……………………………….....………...9 Глава II. Понятие поисковых систем………………..............................…….....13
2.1. Определение поисковых систем……………………………..….....13
2.2. Классификация поисковых систем…………………………….…...16
2.3. Структура поисковых систем ………………………………..……..23
2.4. Принципы работы поисковых систем ………………………….….24
2.5. Перспективы развития поисковых систем …………...……………26
Заключение……………………………………………………………………….30
Список использованных информационных источников………

Файлы: 1 файл

Семестровая Тараненко.docx

— 71.80 Кб (Скачать файл)

 

      Протоколы сетевого уровня отвечают за передачу данных между устройствами в разных сетях, то есть занимаются маршрутизацией пакетов в сети. К протоколам сетевого уровня принадлежат IP (Internet Protocol) и ARP (Address Resolution Protocol).

 

      Протоколы транспортного уровня управляют  передачей данных из одной программы  в другую. К протоколам транспортного уровня принадлежат TCP (Transmission Control Protocol) и UDP (User Datagram Protocol).

 

      Протоколы уровня сеансов связи отвечают за установку, поддержание и уничтожение  соответствующих каналов. В Internet этим занимаются уже упомянутые TCP и UDP протоколы, а также протокол UUCP (Unix to Unix Copy Protocol).

 

      Протоколы представительского уровня занимаются обслуживанием прикладных программ. К программам представительского уровня принадлежат программы, запускаемые, к примеру, на Unix-сервере, для предоставления различных услуг абонентам. К таким программам относятся: telnet-сервер, FTP-сервер, Gopher-сервер, NFS-сервер, NNTP (Net News Transfer Protocol), SMTP (Simple Mail Transfer Protocol), POP2 и POP3 (Post Office Protocol) и т.д.  К протоколам прикладного уровня относятся сетевые услуги и программы их предоставления.

 

Выводы по главе:

 

1. В настоящее время подключиться к Интернету можно через спутники связи, радио-каналы, кабельное телевидение, телефон, сотовую связь, специальные оптико-волоконные линии или электропровода. Всемирная сеть стала неотъемлемой частью жизни в развитых и развивающихся странах. В течение пяти лет Интернет достиг аудитории свыше 50 миллионов пользователей. Другим средствам коммуникации требовалось гораздо больше времени для достижения такой популярности.

2. Интернет —всемирная система объединённых компьютерных сетей для хранения и передачи информации. Часто упоминается как Всемирная сеть и Глобальная сеть, а также просто Сеть[2]. Построена на базе стека протоколов TCP/IP. На основе Интернета работает Всемирная паутина и множество других систем передачи данных.

3. На каждой почтовой подстанции определяется следующая подстанция, куда будет далее направлена корреспонденция, т.е. намечается дальнейший путь (маршрут) - этот процесс называется маршрутизацией. Для осуществления маршрутизации каждая подстанция имеет таблицу, где адресу пункта назначения соответствует указание почтовой подстанции, куда следует посылать далее этот конверт. Их сетевые аналоги называются таблицами маршрутизации. Эти таблицы рассылаются почтовым подстанциям централизовано соответствующим почтовым подразделением.

4. Протокол — это, образно говоря, «язык», используемый компьютерами для обмена данными при работе в сети. Чтобы различные компьютеры сети могли взаимодействовать, они должны «разговаривать» на одном «языке», то есть использовать один и тот же протокол. Проще говоря, протокол — это правила передачи данных между узлами компьютерной сети. Систему протоколов Интернет называют «стеком протоколов TCP/IP».

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ГЛАВА II ПОНЯТИЕ ПОИСКОВЫХ СИСТЕМ

 

2.1 Определение поисковых систем

 

На ранней стадии разработки интернета был список веб-серверов под редакцией Тима Бернерса-Ли, размещённый на веб-сервереЦЕРН. Остался один снимок списка в 1992 года, но поскольку всё больше веб-серверов переходило в онлайн, центральный список больше не мог поддерживаться на высоком уровне. На сайте NCSAо новых серверах объявили под заголовком «Что нового!».

Первым инструментом, используемым для поиска в Интернете, был Арчи, что расшифровывается как архив. Он был создан в 1990 году Аланом Эмтэджем, Биллом Хиланом и Дж. Питером Дойчем, студентами в области информатики вуниверситете Макгилла в Монреале. Программа создавала доступную для поиска базу данных имён всех файлов, расположенных на общедоступных анонимных FTP-серверах; однако, Арчи не индексировал содержание этих сайтов, так как объем данных был небольшой и их можно было легко найти вручную.

Развитие и распространение сетевого протокола Gopher, созданного в 1991 году Марком П. Маккэхилом в университете Миннесоты, привело к двум новым поисковым программам,Veronica и Jughead. Как Арчи, они искали имена файлов и заголовки, сохраненные в индексных системах Gopher. Veronica (англ. Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) обеспечила поиск по ключевым словам большинства заголовков меню Gopher во всех списках Gopher. Летом 1993 года не существовало ни одной поисковой системы для веб-сети, хотя многочисленные специализированные каталоги поддерживались вручную.

Оскар Нирштрасс в Женевском университете написал ряд сценариев на Perl, которые периодически копировали эти страницы и переписывали их в стандартный формат. Это сформировало основу дляW3Catalog, первой примитивной поисковой системы сети, выпущенной 2 сентября 1993 года.

Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэем изМассачусетского технологического института в июне 1993 года. Цель Wandex состояла в том, чтобы измерить размер всемирной паутины. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Aliweb не использовал поискового робота, но вместо этого зависел от получения уведомления от администраторов веб-сайтов на наличие на каждом объекте индексного файла в определенном формате.

JumpStation , созданный в декабре 1993 года Джонатоном Флетчером, искал веб-страницы и строил их индексы с помощью поискового робота и использовал веб-форму в качестве интерфейса. Таким образом, это был первый инструмент поиска в Интернете, который сочетал три существенных функции поисковой системы. Из-за ограниченных ресурсов, доступных на платформе, где система была запущена, её индексация и, следовательно, поиск были ограничены названиями и заголовками, найденными в полученных роботом веб-страницах.

Первой полнотекстовой  поисковой системой стала «WebCrawler», запущенная в 1994 году. В отличие от своих предшественниц она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, который получил широкое распространение.

Вскоре появилось множество других конкурирующих поисковых машин, таких, как «Magellan», «Excite», «Infoseek», «Inktomi» , «Northern Light» и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими, как «Yahoo!». Позже каталоги объединялись или добавляли к себе поисковых роботов с целью улучшение поиска.

В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины «Рамблер» и «Апорт». 23 сентября 1997 года была открыта поисковая машина Яндекс. 22 мая 2014 года компанией Ростелеком была открыта национальная поисковая машина Спутник.

Большую популярность получили методы кластерного анализа и поиска по метаданным. Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivisimo . В 2005 году в России при поддержке МГУ запущен поисковик «Нигма», поддерживающий автоматическую кластеризацию. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака тегов. «Нигма» тоже экспериментировала с визуальной кластеризацией.

Поисковые системы участвовали в «Пузыре доткомов» конца 1990-х. Несколько компаний эффектно вышли на рынок, получив рекордную прибыль во время их первичного публичного предложения. Некоторые выключили публичные поисковые движки и стали работать только с корпоративным сектором, например, Northern Light.

В 1996 году Netscape хотела заключить эксклюзивную сделку с одной из поисковых систем, сделав её поисковой системой по умолчанию на веб-браузере Netscape. Это вызвало настолько большой интерес, что Netscape заключил сделки сразу с пятью крупнейшими поисковыми системами. За 5 млн долларов США в год они предлагались по очереди на поисковой странице Netscape .

Поисковая система — это программное обеспечение, состоящее из базы данных документов, снабженной пользовательским интерфейсом, которое разработано для поиска информации во всемирной паутине. Пользуясь поисковой системой, пользователи составляют свои собственные поисковые запросы с ключевыми словами, а не используют заданные системой пути поиска.

Результаты поиска обычно представлены в серии результатов, часто называемых страницами результатов поисковой системы. Информация может быть совокупностью веб-страниц, изображений и других типов файлов. Основная задача поисковой системы заключается в выборе наилучшего возможного подмножества в ответ на конкретный запрос, то есть множества документов, которые наиболее соответствуют тому, что ищет пользователь (обычно в порядке убывания релевантности). Полноценность поисковой системы зависит от релевантности результатов, которые она предоставляет.

По методам поиска и обслуживания поисковые системы разделяют на четыре типа: системы, использующие поисковых роботов, системы, управляемые человеком, гибридные системы и мета-системы. Сам механизм поиска состоит из трёх ключевых частей: поисковый робот, индексатор, поисковик.

По состоянию на 2014 год самой популярной поисковой системой в мире является Google, однако есть страны, где пользователи отдали предпочтение другим поисковикам. Так, например, в России Яндекс обгоняет Google больше, чем на 10 %.

Поисковые системы созданы, чтобы находить и выдавать пользователю релевантную информацию, но есть понятие пузырь фильтров. Оно объясняет почему пользователь может не получить некоторую информацию. Так же стоит учитывать факт влияния различных факторов, таких как политические, экономические или социальные.

 

2.2 Классификация поисковых систем

На сегодняшний день всемирная сеть Интернет насчитывает огромное множество поисковых систем во всех странах мира, из них всех можно выделить несколько самых крупных и пользующихся наибольшей популярностью среди пользователей:

Google - лидер поисковых машин Интернета, Google занимает более 60 % мирового рынка, а значит, шесть из десяти находящихся в сети людей обращаются к его странице в поисках информации в Интернете. Сейчас регистрирует ежедневно около 50 миллионов поисковых запросов индексирует более 8 миллиардов веб-страниц.

Была разработана в 1998 выпускниками Стэндфордского университета Сергеем Брином  и Лари Пейджем, которые применили для ранжирования документов технологию PageRank, где одним из ключевых моментов является определение «авторитетности» конкретного документа на основе информации о документах, ссылающихся на него. Говоря общими словами, чем больше документов ссылается на данный документ и чем они авторитетнее, тем более авторитетным данный документ становится. Количественное значение авторитетности документа относится к так называемым статическим факторам и учитывается при определении релевантности документа конкретному запросу как весовой коэффициент. Наряду с этим Google применил для определения релевантности документа не только текст самого документа, но и текст ссылок на него. Эта технология позволила ему обеспечить выдачу довольно релевантных результатов на фоне других поисковиков. Довольно быстро Google стал лидировать в различных опросах по такому показателю, как удовлетворенность пользователей результатами поиска.

Google осуществляет поиск по документам на более чем 35 языках, в том числе русском. В настоящее время многие порталы и специализированные сайты предоставляют услуги поиска информации в Интернете на базе Google, что делает задачу успешно гопозиционирования сайтов в Google еще более важной. Google проводит переиндексацию своей поисковой базы примерно раз в четыре недели. Во время этого усовершенствования, неофициально называемого Google dance, происходит обновление базы на основе информации, собранной роботами за время, прошедшее с предыдущего усовершенствования, и перерасчет значений PageRank документов. Также существует определенное количество документов с достаточно большимзначением PageRank, информация о которых в поисковой базе обновляетсяежедневно, однако значение PageRank пересчитывается только во время Googledance. Нормированное значение PageRank для конкретного документа, загруженногов браузер, можно узнать, скачав и установив Google ToolBar — специальную панельинструментов для работы с этим поисковиком. Не смотря на то, что в поисковикеимеется форма для бесплатного добавления страницы в базу, Google предпочитаетсам находить новые документы по ссылкам с уже известных и не будетиндексировать добавленную через форму страницу, если в его базе не найдется ниодной страницы, ссылающейся на нее.

Yahoo - одна из самых первых поисковых систем (создана Дэвидом Фило и Джерри Янгом в апреле 1994года) по сей день остается и самой популярной из них, традиционно сочетая поиск, как по ключевым словам, так и с помощью иерархического дерева разделов.

Нынешнее развитие Yahoo можно определить как движение в он-лайн, интерактивность. Yahoo быстро осваивает эту область Интернет-услуг, но возникает одна проблема: ядро Yahoo! не было на это рассчитано. Не была в 1994году заложено в него «онлайновая» составляющая, ее«приклеил» Тим Кугл несколькими годами позже. Естественно возникает угроза хакерских атак через эту незащищенную область.

Одно из новшеств поисковой системы Yahoo — панель задач для браузера Firefox. Этот инструмент помогает пользоваться поиском Yahoo, не заходя на официальный сайт, а лишь используя функциональные кнопки панели.

1 сентября 2005 года поисковик Yahoo, которому принадлежит более200 миллионов адресов электронной  почты по всему миру, анонсировал  запуск новой системы поиска текстов, фотографий и других документов, содержащихся в письмах.

Необходимость такого нововведения возникла вслед за увеличением объёма хранимых данных, ведь некоторые пользователи создают целые почтовые архивы. Подгоняемый конкурентом Google и его почтовым сервисом e-mail, Yahoo для хранения почты предлагает отныне 1 гигабайт бесплатного места, или 2 гигабайта по годовому абонементу. «Как только вы получаете возможность хранить больше информации, вам необходимы и расширенные поисковые возможности», — объясняет Эрик Петерсон, аналитик компании Jupiter Research.

Пользователи поисковой системы Yahoo, в свою очередь, смогут теперь использовать возможности детализированного поиска слов в названии или непосредственно в тексте письма, а также в присоединенных документах, не открывая их. Результат поиска отражается в трёх строках с указанием всех атрибутов. На панели справа отображаются все похожие документы. Найденные фотографии выводятся на экран в уменьшенном виде, что значительно облегчает поиск. Система также учитывает орфографические ошибки, позволяя искать слова лишь по первым буквам.

Для начала Yahoo планирует предложить новую систему небольшому числу американских пользователей, а затем распространить её по всему миру. Со стороны клиентов это не потребует никаких дополнительных усилий. «Когда услуга станет, доступна, в левом верхнем углу страницы вашего почтового ящика появится соответствующий баннер», — обещает компания Yahoo.

По данным comScore Media Metrix на июль этого года, домену Yahoo принадлежит 219 миллионов адресов электронной почты, что составляет 31,5%мирового рынка, уступая лишь Microsoft с 221 миллионом пользователей сервиса Hotmail (35,5% рынка).

Яндекс — на сегодня наиболее популярная поисковая система, ежемесячно к ней обращаются более 35 миллионов пользователей русскоязычной части Интернета. Начала свою работу во второй половине 1997 года учитывая морфологию русского языка. История компании «Яндекс» началась в 1990 году с разработки поискового программного обеспечения в компании «Аркадия». За два года работ были созданы две информационно-поисковые системы — Международная Классификация Изобретений, 4 и5 редакция, а также Классификатор Товаров и Услуг. Обе системы работали локально под DOS и позволяли проводить поиск, выбирая слова из заданного словаря, с использованием стандартных логических операторов. В1993 году«Аркадия» стала подразделением компании CompTek. В 1993-1994 годы программные технологии были существенно усовершенствованы благодаря сотрудничеству с лабораторией Ю. Д. Апресяна (Институт Проблем Передачи Информации РАН). В частности, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300Кб, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов.

Информация о работе Поисковые системы Internet. Структура и принципы работы