Системы поиска информации

Автор работы: Пользователь скрыл имя, 02 Декабря 2011 в 01:16, реферат

Описание работы

В первой части рассмотрена история создания самых первых поисковых систем.
Во второй части рассматривается понятие поиска в сети Интернет, также рассматриваются методы информационного поиска, средства поиска, основные характеристики поиска, понятие робота-индексировщика.
В третьей части рассматриваются международные поисковые системы на примере Google и Yahoo!.
В последней части рассматриваются русскоязычные поисковые машины и русскоязычные каталоги.

Содержание работы

Список сокращений 3
Введение 4
История 6
Понятие поиска в сети Интернет 7
Методы информационного поиска 7
Средства поиска. Основные характеристики поиска. 8
Роботы-индексировщики 13
Международные поисковые системы 16
Google ……………………………………………………………………16
Yahoo! ……………………………………………………………………17
Русскоязычные поисковые системы 18
Русскоязычные каталоги 23
Заключение 25
Список источников 26

Файлы: 1 файл

Системы поиска информации.doc

— 533.00 Кб (Скачать файл)
 

Федеральное агентство по образованию

Государственное образовательное  учреждение высшего

Профессионального образования

«Рязанский  государственный  университет

Имени С.А. Есенина» 

Факультет: экономики

Кафедра Бухгалтерский учет анализ и аудит 
 
 

Реферат

По дисциплине «Информатика»

На тему: «Системы поиска информации». 
 

Выполнил: студент 2 курса.

Группа  «с\о»

Спец. « Бухгалтерский учет

 анализ  и аудит»

Шаюсупов  Ф.Ф.

Проверил: Андреев В.В 
 
 
 

Рязань 2011г.

 

Оглавление

 

Список  сокращений

Русскоязычные сокращения

ИПС Информационно-поисковая  система

Англоязычные  сокращения

HTML Hyper Text Markup Language
NNTP News Network Transfer Protocol
URL Uniform Resource Locator
WWW World Wide Web

 

Введение

      Сегодня, когда Интернет стал одним из основных источников информации, поиск в Сети приобретает все большую практическую ценность. Но с быстрым увеличением объема доступных данных все более усложняется и сама процедура поиска.

      Сеть  Internet можно назвать необъятной - количество Web-документов в ней исчисляется миллиардами.

      Такой объем информации требует правильной организации процесса поиска и применения специальных технических средств, таких как поисковые

        машины. Простой поиск по достаточно  распространенному ключевому слову  дает обычно от десятков тысяч до нескольких миллионов ссылок. Очевидно, что работа с таким большим количеством документов практически невозможна, тем более что подавляющая их часть нерелевантна, то есть содержит информацию, не относящуюся к делу.

      Одна  из самых больших сложностей в Internet - нахождение интересующей в данный момент информации. Этот процесс порой может отнимать немыслимо много времени.

      Несколько десятилетий назад, когда Internet еще не была такой большой, пользователи узнавали о существовании и местонахождении файлов главным образом из общения между собой. Те, кто больше общался с другими пользователями и посещал больше конференций, также больше знал о том, где находятся те или иные ресурсы. Этот принцип работал прекрасно, пока Сеть была небольшой и работали в ней, в основном, программисты и ученые.

      Однако  теперь, когда Internet предоставляет информацию широким массам пользователей, найти в ней какой-то ресурс без специальных средств практически невозможно. Но это под силу поисковым системам. Принцип работы таких систем весьма прост, но ушли годы, чтобы его разработать в том виде, в каком он существует сегодня.

      Пополнение  информационных ресурсов Интернета  происходит высокими темпами, и найти  необходимую информацию становиться  всё труднее. Различные печатные справочники устаревают ещё до выхода в свет. Единственным надёжным способом поиска информации является использование различных поисковых систем, которые постоянно отслеживают изменение информации в сети.

      За  время существования Интернета  предпринимались различные попытки организации поисковых средств. Многие из этих попыток оказались неудачными, другие же привели к созданию удобных средств поиска информации. Наиболее удачные проекты появились в последние пять лет. Мы рассмотрим поиск информации во Всемирной паутине с помощью нескольких наиболее распространённых систем поиска. Всего же в мире существуют сотни различных поисковых систем, и выбор той или иной системы зависит только от ваших личных пристрастий. Отметим, что поисковые системы часто называют поисковыми машинами или машинами поиска.

      В первой части рассмотрена история  создания самых первых поисковых  систем.

      Во  второй части рассматривается понятие  поиска в сети Интернет, также рассматриваются  методы информационного поиска, средства поиска, основные характеристики поиска, понятие робота-индексировщика.

      В третьей части рассматриваются  международные поисковые системы  на примере Google и Yahoo!.

      В последней части рассматриваются  русскоязычные поисковые машины и русскоязычные каталоги.

История

      Первой  поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэйем (Matthew Gray) из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т. н. «crawler-based» — то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице, с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.

      Вскоре  появилось множество других конкурирующих  поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». В некотором смысле они конкурировали  с популярными интернет-каталогами, такими, как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям Интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Rambler и Aport. 23 сентября 1997 года была открыта поисковая машина  Яндекс.

      Помимо  поисковых машин для Всемирной  паутины существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным FTP-серверам и «Veronica» для поиска в Gopher.

Понятие поиска в сети Интернет

    Методы  информационного  поиска

      Поиск информации в Интернете может  быть произведен по нескольким методам, значительно различающимся как  по эффективности и качеству поиска, так и по типу извлекаемой информации. Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:

1. Непосредственный  поиск с использованием гипертекстовых ссылок. Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью браузера. Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей более 60 млн. узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска.

2. Использование поисковых машин. Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Сети, подлежащих детальному рассмотрению. Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать.

Средства  поиска. Основные характеристики поиска.

Рис. 1 Схема взаимодействия пользователя с ИПС 

      Можно выделить следующие поисковые инструменты  для WWW: поисковые системы, метапоисковые системы (поисковые службы) и программы ускоренного поиска (поисковые агенты).

      Центральное место по праву принадлежит информационно-поисковым  системам (ИПС).

      ИПС – это система, обеспечивающая поиск и отбор необходимых данных в специализированной базе с описаниями источников информации на основе информационно-поискового языка и соответствующих правил поиска.

      Каждая  поисковая система имеет и  постоянно пополняет свою (локальную) базу данных. База данных поисковой системы содержит основные параметры (индексы) каждого известного данной системе (проиндексированного) документа. Каждая поисковая система использует свои методы индексации. Кроме того, различные поисковые системы имеют разные объемы базы данных.

      Главной задачей ИПС является поиск информации в соответствии с информационными потребностями пользователя, формируемыми в виде запросов. Очень важно найти в индексе все документы, относящиеся к запросу (полнота поиска). И не найти ничего лишнего (точность поиска). Поэтому вводится качественная характеристика процедуры поиска – релевантность.

      При индексации документов поисковые машины высчитывают так называемый "вес" слова на странице – соотношение количества повторов на странице заданного Вами слова к общему количеству слов на странице документа. Если Вы задаете запрос, состоящий из нескольких слов, то более релевантными будут документы, в которых совокупный вес слов будет максимальный. Однако, при подсчете веса не учитывается, рядом или раздельно стоят данные слова, и поэтому нет гарантий, что в первых документах содержится максимальное количество повторений словосочетания. Вполне возможно, что такого словосочетания там вообще не будет.

      В результате, механизм обработки запроса  пользователя поисковой машиной  выглядит следующим образом:

    • в соответствии с заданным в запросе ключевым словом или словосочетанием, машина проводит поиск в своей локальной базе данных, сверяя ключевое слово с наборами ключевых слов, соответствующих каждому документу из её базы данных;
    • затем, используя соответствующие алгоритмы, поисковая машина сортирует результаты поиска и выдает их пользователю;
    • в результате сортировки результатов, в начало списка помещаются наиболее соответствующие (с точки зрения поисковой машины) ключевым словам документы.

      ИПС подразделяются на каталоги, автоматические индексы (поисковые машины) и каталоги-машины.

      

Рис. 2 Средства поиска в WWW

      Каталог ресурсов в Интернете или каталог интернет-ресурсов или просто интернет-каталог (web directory) — структурированный набор ссылок на сайты с их кратким описанием. Сайты внутри каталога разбиваются по темам, а внутри тем могут быть ранжированы или по индексу цитирования (как в каталогах Яндекса или Google), или по дате добавления, или по алфавиту, или по другому параметру. Это один из старейших сервисов Интернета. Подавляющее большинство рейтингов посещаемости ресурсов имеют классификатор сайтов, но ранжирование всегда основано на посещаемости сайтов. В зависимости от широты тематики ссылок каталоги могут быть общими и специализированными (тематическими).

      Поисковая машина (Search Engine) – поисковая система, которая для автоматизации процедуры описания информационных ресурсов использует программу-робот.

      Последнее время во WWW стали появляться системы, автоматически осуществляющие поиск сразу в двух индексах (индексе каталога и индексе поисковой машины). Подобные системы позволяют использовать преимущества поисковых серверов обоих типов и называются каталогами-машинами. 

      Метопоисковая система – (Metacrawler) – поисковая система, не имеющая своего индекса, но способная послать запросы пользователя одновременно нескольким поисковым серверам, затем отобрать самые релевантные результаты, объединить их и представить пользователю в виде документа со ссылками.

      Программа ускоренного поиска (Searchbots) – это программа, устанавливаемая на компьютере пользователя, способная отправить запрос нескольким поисковым серверам и отсортировать полученные результаты, удаляя дубликаты. Примером такой программы является Copernic Agent

Информация о работе Системы поиска информации