Теория поиска информации

Автор работы: Пользователь скрыл имя, 04 Ноября 2013 в 22:30, реферат

Описание работы

Наверное, у каждого, кто в первый раз выходил в мировую Сеть, дух захватывало от обилия возможностей и самой разнообразной информации. Все было безумно интересно и хотелось бродить по просторам Интернета часами. Потом эффект новизны проходит и мы начинаем относиться к нему как к средству зарабатывания денег, поиска информации или способу связи. И вот уже это средство не кажется нам таким чудесным. В данном реферате раскрываются основные технологии поиска информации в Интернет, предоставляются общие черты поисковых инструментов, рассматриваются структуры поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем.

Содержание работы

Введение
Общая характеристика работы
1.Теория поиска информации
1.1 Как работают поисковые машины
1.2 Алгоритмы поиска. Законы Зипфа
1.3 Как поисковые машины могут использовать законы Зипфа
2.Представление базы данных
2.1 Матричное представление базы данных
2.2 Пространственно-векторная модель поисковой системы(ПС)
2.3 Полнота и точность поиска
3 Основные аспекты поиска информации
3.1 Этапы поисковой процедуры
3.2 Информационно-поисковый язык
4 Поисковые системы
4.1 Какая из поисковых машин лучше
4.2 Обзор основных поисковых систем
4.2.1 Google и его поисковые серверы
4.2.2 Яндекс и его поисковые серверы
4.2.3 Alta Vista и его поисковые серверы
4.2.4 Метапоисковые системы
4.2.5 Система поиска в конференциях Usenet News
4.2.6 Скрытый веб
5.Практическая часть
5.1 Сложные запросы в Яндекс
5.1.1 Анализ сложных запросов
5.1.2 Составление запросов
Заключение
Основные результаты работы
Рекомендации по практическому использованию результатов
Список использованных источников

Файлы: 1 файл

Общая характеристика работы.doc

— 340.00 Кб (Скачать файл)

Формула 5

Коэффициент точности поиска (или просто точность поиска) — это отношение количества релевантных результатов к общему количеству документов, ссылки на которые содержатся в ответе поисковой системы(ПС).

 

Коэф.точности поиска = Количество релевантных документов/Общее  количество документов в ответе ПС на запрос

Формула 6

В реальных ПС коэффициент  полноты поиска может достигать  значений 0,7-0,9, а коэффициент точности обычно находится в пределах 0,1-1,0.Иногда при оценке эффективности ПС используют и другие критерии — коэффициент потерь информации и коэффициент поискового шума.

В идеальной ПС коэффициент  потерь информации = 0, а коэффициент  поискового шума =1. В реальности эти  коэффициенты совсем другие. Нередко количество размещенных в Сети документов, релевантных запросу пользователя, достигает десятков и сотен тысяч. Вместе с тем содержащаяся во многих из них релевантная информация совпадает, и пользователя достаточно изучить лишь несколько документов из числа найденных. Таким

образом, при непрофессиональном поиске не требуется высокое значение коэффициента полноты, который даже при успешном поиске вполне может быть близок к нулю. Следовательно, этот коэффициент в данном случае является второстепенным критерием качества информационного поиска.

Пертинентность. На практике используется еще и неформальное понятие – пертинентность. Это соотношение объема полезной для пользователя информации к объему полученной.Зачастую это соотношение имеет решающее значение. Средства повышения пертинентности:

  • уточнение формулировок запросов,
  • ранжирование по весовым критериям,
  • ограничение числа выданных в результате поиска документов.

 

3 Основные аспекты поиска информации

Поиск, при котором  учитываются словоизменения, называется морфологическим. Его способны осуществлять все русскоязычные и многие зарубежные ПС. Когда мы вводим в поле запроса слона «мальчик пошел в лес», мы, скорее всего, хотим найти документы, содержащие все четыре слова. Однако поисковая машина, представив вначале документы со всеми словами, начнет затем давать ссылки на документы, в которых есть хотя бы одно из указанных нами ключевых слов. Существуют способы точно указать поисковой машине, как должны быть связаны между собой введенные пользователем ключевые слова. Для этого используются логические операторы, а сам поиск называется булев.

Более подробно об операторах будет говориться далее.

Эффективный поиск. Будем считать, что эффективность поиска информации тем выше, чем больше коэффициенты полноты и точности, в то же время – меньше время и другие ресурсы, затрачиваемые на проведение поиска. Многие современные ПС с целью повышения эффективности поиска позволяют вместо простого поиска производить т.н. «расширенный».Он доступен по ссылке на странице поиска и представляет собой форму, которую нужно заполнить, ответив на дополнительные вопросы. Кроме этого возможен и т.н. «сложный» поиск с использованием булевых операторов, то есть поиск с помощью логических операторов.

3.1 Этапы поисковой процедуры

Процедура поиска имеет  вполне определенную этапность —  от определения информационной потребности и области поиска до анализа результатов и выбора пертинентных объектов.

1.Формирование  потребности в информации.

На этой фазе определяется цель поиска, его стратегия и область  проведения (поисковые серверы, каталоги, тематические порталы).

Информационные потребности пользователя могут относиться к разным областям, которые могут быть как узкоспециализированными, так и достаточно типовыми. На практике основная часть информационных потребностей приходится именно на типовые области применения:

• поиск отдельных Web-страниц;

• поиск новостей;

• поиск людей и  организаций;

• поиск литературных произведений;

• поиск программного обеспечения;

• поиск музыкальных  произведений;

• поиск графических  изображений;

• поиск видеоинформации;

• поиск коммерческой информации.

2. Формирование  запроса.

Основной задачей второго  этапа является формирование эффективных  запросов к ИПС.

Наибольшую проблему при формировании запросов представляет то, что на каждом поисковом сервере  используется свой информационно-поисковый  язык (ИПЯ), несмотря на то что у различных языков этого типа много общего, — например, схожий набор булевых операций. В настоящее время не существует единого стандарта, хотя на протяжении многих лет ведутся попытки такой стандартизации.

3. Поиск нужной  информации.

Третий этап поиска в  сети Internet является определяющим, —  от его реализации зависит, будет  ли найденное решение пертинентно. На этом этапе пользователь работает с конечными документами, полученными  в виде отклика ИПС. От правильного  выбора набора документов-первоисточников зависит результат работы всех трех этапов поисковой процедуры.

3.2 Информационно-поисковый язык

Информационно-поисковые  языки (ИПЯ), то  есть языки, на которых обращаются  пользователи к системе. Все поисковые системы обеспечивают поиск хотя бы по одному слову.Некоторые системы рассматривают все слова запроса как правые усечения.У некоторых такая возможность не реализована, например у Google, Alltheweb. В Рамблер и в Яndex, морфологический инструментарий позволяет искать по всем словоформам исходного терма. Поиск по словоформам является результатом серьезного лингвистического анализа и реализован в русскоязычных системах Апорт, Яndex и Рамблер, а также в укранской системе META.

Большинство современных  систем способно реализовывать контекстный поиск заключенной в кавычки фразы (Google, Alltheweb, AltaVista, Lycos и др.). В большинстве современных систем реализованы булевы операторы AND, OR и NOT, а также работа со скобками. Можно отметить, что у самой популярной в мире системы Google - самый лаконичный набор логических операторов - "+", OR и "-".Большинство поисковых систем обеспечивает выполнение операций контекстной близости, одна из реализаций которой - поиск выражений в кавычках.

Слова запроса, заключенного в двойные кавычки, ищутся в документах в том порядке и в тех  формах, в которых они встретились  в запросе.

В свое время функции  контекстной близости получили наибольшее развитие в системе Lycos, где были реализованы с помощью трех операторов: NEAR, FAR и BEFORE.

При построении запросов может быть реализована возможность  объединения слов в группы, которые  будут аргументами некоторого оператора. Такие группы заключаются в скобки. Использование скобок позволяет  создавать вложенные запросы, а также изменять приоритеты операторов, принятые по умолчанию. Возможность поиска по параметрам документов зачастую позволяет ограничивать диапазон поиска значениями URL, датам, заглавий и т.п. Чаще всего выйти на возможность поиска по параметрам можно из режима расширенного поиска. Во многих системах обеспечивается поиск по данным в форматах: HTML, PDF, RTF, MsWord.

В Google, например, обеспечивается поиск по сайту ("site:"), определение  ссылок на сайт ("admission site:"), поиск  по ценам, например "DVD player $250..350", странам, датам, доменам и т.д. Наиболее частоупотребляемые операторы ИПЯ представлены в таблице 3.2.1

 

Таблица 3.2.1

пробел или &

логическое И (краткое - в пределах одного абзаца)

Пример: легкая промышленность

Результат: все документы, где в пределах одного абзаца встречаются слова "легкая" и "промышленность"

&&

логическое И (в пределах документа)

Пример: легкая&&промышленность

Результат: все документы, где встречаются слова "легкая" и "промышленность"

, или |

логическое ИЛИ

Пример: легкая,промышленность

Результат: все документы, где встречается либо слово "легкая", либо слово "промышленность"

~

бинарный оператор И НЕ (в пределах одного абзаца)

Пример: производство~газета

Результат: все документы, где в пределах одного абзаца встречается слово "производство", но не в словосочетании "газета производство"

~~

бинарный оператор И НЕ (в пределах документа)

Пример: производство~газета

Результат: все документы, где встречается слово "производство", но не в словосочетании "газета производство"

( )

группирование слов

Пример: (швейное&&производство)~газета

Результат: все документы, где встречаются слова "швейное" и "производство", но не в словосочетании со словом "газета"

/(число)

расстояние  в словах, где "число" - число слов между словами в запросе плюс единица.

Пример: швейное/1 производство

Результат: все документы, где встречается словосочетание "швейное производство"

+

Обязательное наличие слова  в документе

Пример:+быть или +не быть

&&/(число)

Расстояние в предложениях

Пример: банк &&/1 налоги

“”

Поиск точной фразы

Пример: “Красная шапочка”

!

Без учета морфологии

!!

Для поиска форм только этого слова

Пример:!!день

Ищет дня,дни но не формы глагола  деть

*

позволяет усекать термин справа

$title(выражение)

Поиск в заголовке.

$anchor(выражение)

Поиск в тексте ссылок

image=”значение”

Поиск файла изображения

hint=(выражение)

Поиск в подписях к изображению

url =”значение”

Поиск на заданном сайте

link=”www......”

Поиск ссылок на заданной странице

mime=” “

Поиск файлов заданного  типа (pdf,doc...)

lang=«язык»

Поиск документов на определенном языке

date=«ГГГГ{*|ММ{*|ДД}}»

Поиск документов датированных определенной датой




 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Продолжение таблицы 3.2.1

Следует отметить, что у каждой поисковой системы есть свой особенный язык запросов, поэтому для наиболее точного поиска нужной информации следует обратиться в Помощь соответствующего поисковика.

4 Поисковые системы

Поисковые системы (ПС) стали  применяться уже с середины 60-х  годов прошлого века. Они появились  практически одновременно с внедрением компьютерных систем в разнообразные сферы человеческой деятельности, открывая все более широкие возможности эффективного использования различных видов информации.

Главное требование к  любой поисковой системе –  быстрое формирование точного и полного ответа, адекватного запросу пользователя.

4.1 Какая из поисковых машин лучше?

Чтобы ответить на этот вопрос, обратимся к исследованию компании Nielsen NetRatings согласно которому популярность поисковиков в мире в конце 2005 года распределилась следующим образом: в 47,7% случаев пользователи обращались к Google, в 21,8% — к Yahoo! и в 11,3% — к MSN. Однако их лидерство условно — аналитики свидетельствуют, что даже постоянные пользователи Google не всегда удовлетворены результатами поиска, 58% из них регулярно прибегают к помощи Yahoo Search и MSN Search, а 71% тех, кто ищет при помощи Yahoo!, посещают Google или MSN Search. Аналогично 70% пользователей, предпочитающих MSN, пользуются дополнительно одной-двумя другими поисковыми системами.

Активная борьба между основными поисковыми службами — Google, Yahoo! и MSN — заставляет генерировать все новые сервисы. Большее количество поисковиков, ранжируя их по популярности, приводит аналитическая служба SearchEngine.com (см. рис.4.1.1)

 Рис.4.1.1 Популярность поисковых систем (доля каждой системы в общем поисковом трафике) (источник: SearchEngine.com, 2005 год)

Для оценки популярности русскоязычных поисковых систем можно обратиться к исследованию специалистов агентства «Артон Консалтинг», проведенному в 2005 году. Анализ популярности поисковых систем осуществлялся на базе 110 тыс. обращений на исследуемые сайты риелторских агентств и автосалонов. На рис.5.1.2 показаны результаты исследования, согласно которым первые два места в списке популярных поисковых систем занимают Яндекс и Рамблер, причем перевес в пользу Яндекса составляет 3:1. MSN опережает Aport, а Google занимает третье место.

 

Рис. 4.1.2 Популярность поисковых систем (доля каждой системы в общем поисковом трафике) (источник — «Артон Консалтинг»)

4.2 Обзор основных поисковых систем

Поисковые системы предназначены  для поиска информации в глобальной сети Интернет. Информации сегодня в Сети существует огромное количество, и без поисковых систем практически невозможно было бы найти что-либо в этой самой сети Интернет. Работа пользователя с ПС основывается на формировании запроса, по которому происходит отбор нужных документов из базы данных. Запрос формируется с помощью ключевых слов (одного или нескольких). Результаты поиска выдаются пользователю в виде списка адресов (гиперссылок) и краткой аннотации к ним.Ключевое слово-Это лексическая единица, являющаяся существительным, прилагательным, глаголом, числительным, наречием или местоимением, которая в наибольшей степени отражает содержание всего искомого документа. При формировании запроса могут использоваться не только отдельные ключевые слова, но и словосочетания, состоящие из нескольких ключевых слов. Запрос - это набор соединенных операторами ключевых слов, с помощью которых поисковая система автоматически ведет поиск и отбор необходимых документов. Другими словами, запрос - это инструкция (команда) для ПС на поиск нужных документов. Запросы бывают двух типов: простые и сложные (или расширенные, advanced).

Простые запросы состоят  из отдельных ключевых слов или словосочетаний.

Сложные запросы, кроме  ключевых слов, содержат логические и другие операторы.

4.2.1 Google и его поисковые сервисы

Электронный адрес: http://google.com;

 

Google заставил мир поисковых  систем перевернуться с ног  на голову благодаря своей  концепции PageRank, которая оказалась  на тот момент прорывом в области информационных технологий. Данная поисковая система была создана в 1998 году выпускниками Стэндфордского университета Сергеем Брином и Ларри Пейджем. Изначально название системы звучало как «Googol», что означало число 10, возведенное в степень 100, но из-за ошибки первого инвестора, который выписал чек на имя компании «Google», название пришлось изменить.

На сегодняшний день поисковик Google проиндексировал наибольшее число web-страниц – свыше 8 млрд. Это  значит, что вероятность найти  нужный документ с помощью Google выше. При этом, как правило, Google обеспечивает более высокую релевантность поиска, чем другие ПС. Фирменная кнопка Google — «I’m Feeling Lucky», или, в русской версии, «Мне повезет», отправляет пользователя на единственную страничку, которую Google выбрала на ваш запрос. Однако в этом случае других результатов поиска он не увидит. Кнопка «Мне повезет» помогает сэкономить время и действительно полезна, если вы уверены в том, что система легко может дать однозначный прогнозируемый вариант.

Информация о работе Теория поиска информации