Автор работы: Пользователь скрыл имя, 11 Апреля 2014 в 15:26, курсовая работа
В Интернете сосредоточено такое количество информации, что ее поиск уже превращается в отдельную задачу и отнимает очень много времени. Поисковые серверы выдают на запрос тысячи ссылок вместо нескольких страниц, где действительно имеется нужная информация. Пользователи всемирной сети Интернет, осознав преимущества, предоставляемые возможностью анализа пространственных данных, нуждаются в инструменте, позволяющем осуществлять быстрый и удобный поиск и доступ к цифровым снимкам местности и другой пространственной информации, сосредоточенной во многих правительственных, коммерческих и академических организациях.
Целью данной работы является изучение поисковых систем интернета.
Введение 2
1. Общая информация о поисковых системах 4
1.1. Понятие и функция поисковой системы 4
1.2. Принцип работы поисковых систем 7
1.3. Как работают механизмы поиска 8
2. Сравнительный обзор справочно-поисковых систем. Их виды. 12
2.1 Популярные и необычные поисковые системы 12
2.2 Характеристики поисковых систем 13
2.3. Основные характеристики поисковой системы 16
3. Поисковые системы Internet: эволюция и перспективы 19
3.1. Преимущества и недостатки поисковых систем………………………….24
Заключение 27
Список использованной литературы 28
Федеральное агентство по образованию РФ
Нижегородский Государственный Университет им. Н.И. Лобачевского
Финансовый факультет
Дневное отделение
Специальность «Финансы и кредит»
Курсовая работа
По дисциплине Информатика
На тему «Поисковые системы Internet»
Выполнила:
Студентка гр.13101
Иванова И.И.
Руководитель:
Назарова Е.В.
Нижний Новгород
2010
Cодержание:
Введение
Интернет - всемирная компьютерная сеть, представляющая собой единую информационную среду и позволяющая получить информацию в любое время. Но с другой стороны в Интернете храниться очень много полезной информации, но для поиска её требуется затрачивать много времени. Эта проблема послужила поводом к появлению поисковых машин.
Поисковые системы уже давно стали неотъемлемой частью российского Интернета. Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса.
Сегодня каждый человек, включая компьютер и заходя в интернет, использует поисковые системы для любых целей.
В Интернете очень много полезной информации. В архивах свободного доступа можно найти информацию практически по всем сферам человеческой деятельности, начиная с новых научных открытий до прогноза погоды на завтра. Интернет сегодня является бесценным информационным источником: подключившись к Сети, можно узнать курс доллара и расписание поездов, найти кулинарный рецепт и почитать мировые новости, купить компьютер и забронировать отель.
«Поисковик» в наши дни необходимая машина. Сегодня всё чаще и чаще люди пользуются интернетом, в качестве источника информации. Поисковая система неотъемлемая часть поиска этой искомой информации.
Но информация в сети не упорядочена, не структурирована, нужно суметь отыскать среди тысяч серверов и миллионов страниц то, что необходимо. Поэтому большую помощь в поиске информации по сети оказывают поисковые системы и каталоги.
Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обрабатки запросов пользователей, о том, из чего эти системы состоят и как функционируют.
Поисковые системы при использовании Интернет играют очень важную роль. В Интернете сосредоточено такое количество информации, что ее поиск уже превращается в отдельную задачу и отнимает очень много времени. Поисковые серверы выдают на запрос тысячи ссылок вместо нескольких страниц, где действительно имеется нужная информация. Пользователи всемирной сети Интернет, осознав преимущества, предоставляемые возможностью анализа пространственных данных, нуждаются в инструменте, позволяющем осуществлять быстрый и удобный поиск и доступ к цифровым снимкам местности и другой пространственной информации, сосредоточенной во многих правительственных, коммерческих и академических организациях.
Актуальность темы обусловлена популярностью и массовым использованием сети Интернет во всём мире. Именно поэтому я выбрала данную тему.
Целью данной работы является изучение поисковых систем интернета.
1. Общая информация о поисковых системах
1.1. Понятие и функция поисковой системы
Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN». В русском Интернете это – «Яндекс», «Рамблер», «Апорт».
Рассмотрим подробнее понятие поискового запроса на примере поисковой системы «Яндекс». Поисковый запрос должен быть сформулирован пользователем в соответствии с тем, что он хочет найти, максимально кратко и просто. Допустим, мы хотим найти информацию в «Яндексе» о том, как выбрать автомобиль. Для этого, открываем главную страницу «Яндекса», и вводим текст поискового запроса «как выбрать автомобиль». Далее, наша задача сводится к тому, чтобы открыть предоставленные по нашему запросу ссылки на источники информации в Интернет. Однако, вполне можно и не найти нужную нам информацию. Если таковое произошло, то либо нужно перефразировать свой запрос, либо в базе поисковой системе действительно нет никакой актуальной информации по нашему запросу (такое может быть при задании очень «узких» запросов, как, например «как выбрать автомобиль в Архангельске»).
Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию. Основная задача поисковой системы - минимизировать время, затрачиваемое пользователем на поиск релевантной запросу информации. Релевантность - одно из самых субъективных и запутанных понятий в науке информационного поиска. Наиболее часто говорят о релевантности с точки зрения пользователя, и тогда «релевантная запросу информация» и «нужная пользователю информация» - одно и то же. Именно о такой релевантности мы говорим в данном разделе. Вопрос заключается в том, какую информацию пользователь посчитает нужной? В некоторых обстоятельствах релевантную информацию можно определить как всю информацию из базы, имеющую отношение к запросу. Так, например, если пользователю нужно узнать все о конкретной фирме, то он заинтересован в нахождении всех документов, в которых упоминается об этой фирме. В других обстоятельствах релевантная информация - это только та информация, которая достаточна для выполнения определенной задачи пользователя, например, поиска ответа на конкретный вопрос. Если в последнем случае в результатах поиска будет много избыточных данных, т.е. данных, которые имеют отношение к запросу, но не нужны для выполнения данной задачи, то выборка нужной/релевантной информации займет у пользователя дополнительное время.
Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось перефразировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или же сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Найдется ли нужная информация, при обращении к поисковой системе, скажем, через неделю, или через месяц?
Для того, чтобы удовлетворить ответами все эти вопросы, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.
1.2. Принцип работы поисковых систем
Поисковая система - веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на серверах, товары в интернет-магазинах, а также информацию в группах новостей.
В большинстве случаев информационная потребность возникает после изучения какой-либо новой информации, полученной пользователем.
Основатели и разработчики первых поисковых систем воспользовались методом поиска книг в библиотеках. Они создали тематические каталоги, в категориях которых и располагались нужные сайты. Человек заходил в каталог, выбирал нужную рубрику и получал несколько сайтов по тематике, к ней относящихся. По началу, когда сайтов было не много, все было прекрасно, а потом стало все сложней и сложней отыскать нужный ресурс. Рубрик становилось все больше и больше, вложенность категорий все росла и росла. В конеце концов приходилось проделывать путь во множество подкатегорий, а если в какой-то категории «свернуть» не туда, то можно было просто ничего не найти.
Потом постепенно все поисковые системы начали переходить на «поисковые указатели». В отличие от каталогов, поисковые указатели формируют связки «Запрос - ответ», и к «ответам» могли приписываться несколько разных ресурсов. Но впоследствии выяснилось, что это трудно не только для людей, но и для поисковых машин, потому что на любой распространенный запрос «высыпались» сотни тысяч ответов, в которых просто невозможно было разобраться. И именно поэтому возможность выбора поисковиком из этой «горы» информации полезных двадцати-тридцати ссылок и стала определяющей на поисковом рынке.
Как правило, основной частью поисковой системы является поискоовая машиина (поискоовый движоок) - комплекс программ, обеспечивающий функциональность поисковой системы. Основными критериями качества работы поисковой машины являются релевантность (степень соответствия запроса и найденного, то есть уместность результата), полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. В последнее время появился новый тип поисковых движков, основанных на технологии RSS, а также среди XML-данных разного типа.
Поисковые cистемы обычно состоят из трех компонентов:
1. агент (паук или кроулер), который перемещается по Сети и собирает информацию;
2. база данных, которая содержит всю информацию, собираемую пауками;
3. поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.
1.3. Как работают механизмы поиска
Средства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как находить и обрабатывать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы.
Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.
Агенты могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.
Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.
Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.
База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:
1. Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).
2. Тэги, в которых эти слова располагаются.
3. Местоположение искомых слов в документе.
4. Удельный вес слов, относительно
которых определяется
5. Время - как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует в Интернете сайтов, которые живут максимум месяц! Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.