Теория поиска информации

Автор работы: Пользователь скрыл имя, 04 Ноября 2013 в 22:30, реферат

Описание работы

Наверное, у каждого, кто в первый раз выходил в мировую Сеть, дух захватывало от обилия возможностей и самой разнообразной информации. Все было безумно интересно и хотелось бродить по просторам Интернета часами. Потом эффект новизны проходит и мы начинаем относиться к нему как к средству зарабатывания денег, поиска информации или способу связи. И вот уже это средство не кажется нам таким чудесным. В данном реферате раскрываются основные технологии поиска информации в Интернет, предоставляются общие черты поисковых инструментов, рассматриваются структуры поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем.

Содержание работы

Введение
Общая характеристика работы
1.Теория поиска информации
1.1 Как работают поисковые машины
1.2 Алгоритмы поиска. Законы Зипфа
1.3 Как поисковые машины могут использовать законы Зипфа
2.Представление базы данных
2.1 Матричное представление базы данных
2.2 Пространственно-векторная модель поисковой системы(ПС)
2.3 Полнота и точность поиска
3 Основные аспекты поиска информации
3.1 Этапы поисковой процедуры
3.2 Информационно-поисковый язык
4 Поисковые системы
4.1 Какая из поисковых машин лучше
4.2 Обзор основных поисковых систем
4.2.1 Google и его поисковые серверы
4.2.2 Яндекс и его поисковые серверы
4.2.3 Alta Vista и его поисковые серверы
4.2.4 Метапоисковые системы
4.2.5 Система поиска в конференциях Usenet News
4.2.6 Скрытый веб
5.Практическая часть
5.1 Сложные запросы в Яндекс
5.1.1 Анализ сложных запросов
5.1.2 Составление запросов
Заключение
Основные результаты работы
Рекомендации по практическому использованию результатов
Список использованных источников

Скачать архив (101.92 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

Общая характеристика работы.doc

— 340.00 Кб (Скачать файл)

Введение

Наверное, у каждого, кто в первый раз выходил в мировую Сеть, дух захватывало от обилия возможностей и самой разнообразной информации. Все было безумно интересно и хотелось бродить по просторам Интернета часами. Потом эффект новизны проходит и мы начинаем относиться к нему как к средству зарабатывания денег, поиска информации или способу связи. И вот уже это средство не кажется нам таким чудесным. Да, действительно, чаще там можно найти интересующую информацию, но для этого приходится часами перебирать разнообразные файлы, и в какой-то момент осознаешь, что в поисках не всегда критично важной информации тратится самый важный наш ресурс время. Особенно дорог этот ресурс у высокооплачиваемых специалистов (поиск-то ведется в рабочее время) и у бизнесменов (пока вы теряете время на поиск, конкуренты наступают).

С каждым годом объемы Интернета увеличиваются в разы, поэтому вероятность найти необходимую информацию резко возрастает. Для сравнения: объем информации библиотеки Конгресса США, где хранится 19 млн. книг и 56 млн. рукописей – содержит

около 10 терабайт информации, в то время как Интернет - 5000000 терабайт. Интернет объединяет миллионы компьютеров, множество разных сетей, число пользователей увеличивается на 15-80% ежегодно. И, тем не менее, все чаще при обращении к Интернет основной проблемой оказывается не отсутствие искомой информации, а возможность ее найти. Как правило, обычный человек в силу разных обстоятельств не может или не хочет тратить на поиск нужного ему ответа больше 15-20 минут. Поэтому особенно актуально правильно и грамотно научиться, казалось бы, простой вещи – где и как искать, чтобы получать желаемые ответы.

Общая характеристика работы

В данном реферате раскрываются основные технологии поиска информации в Интернет, предоставляются общие черты поисковых инструментов, рассматриваются структуры поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем.

Задачами данной работы являются:

Изучить теорию поиска информации в Интернет
Сравнить основные поисковые системы в Интернет
Описать основной язык запросов большинства поисковых систем Интернет
Рассмотреть основные методики эффективного поиска в теории и на практике

1 Теория поиска информации

Большинство современных молодых людей имеют мобильные телефоны; подавляющее большинство из них не знает, как работает сеть мобильной связи. Поисковыми системами можно пользоваться так же, как мобильными телефонами — освоив нехитрые элементы управления ими, научившись нажимать нужные кнопочки. Для того чтобы уметь пользоваться поисковой машиной (или поисковой системой), не обязательно понимать, как она работает, и тем более знать ее внутреннее устройство.

Однако ситуация здесь примерно такая же, как с автомобилем: на нем можно ездить, умея лишь заправлять его, управлять им и зная правила дорожного движения. Но тот, кто хочет чувствовать себя за рулем уверенно и при необходимости самостоятельно устранять мелкие неисправности, должен знать устройство автомобиля, названия и принципы функционирования хотя бы важнейших узлов. Поэтому далее мы будем говорить об устройстве поисковых машин и основных терминах, которые приступающий к поиску информации в интернет пользователь должен знать так же хорошо, как автомобилист термины «карбюратор» и «зажигание».

Условно инструменты поиска подразделяются на поисковые средства справочного типа (directories) и поисковые системы в чистом виде (search engines). Первые подобны глобальным электронным справочникам, имеющим привычную логико-тематическую структуру, что позволяет ориентироваться в ресурсах Интернет в пределах отдельных отраслей знания. Вторые представляют собой системы, действующие по аналогии с традиционными базами данных, когда при вводе термина выдается перечень документов, содержащих искомое определение. Деление же это условно потому, что практически все средства справочного типа обладают некоторой возможностью непосредственного поиска, а многие поисковые системы снабжены небольшими справочниками.

Поисковые системы (search engines) распространены в гораздо большем количестве нежели электронные справочники и число их продолжает увеличиваться. Работа с ними требует серьезных навыков, поскольку простой ввод искомого термина в поисковую строку может привести к получению в ответ списка из сотен тысяч документов, содержащих данное понятие. Поисковые системы по существу представляют собою базы данных слов, полученных при периодическом сканировании виртуального информационного пространства. С помощью специальных компьютерных программ поисковые системы регулярно обследуют Интернет, выявляя все существующие, и, в особенности, новые и обновленные источники и удаляя сведения о вышедших из употребления. Этот колоссальный материал, с указанием ссылки на то где хранится каждое слово, содержится в виде гигантских индексных файлов, к которым и происходит обращение при конкретном запросе. Достоинства и недостатки поисковых систем складываются из нескольких важнейших характеристик. Принципиальным вопросом является то, насколько полно та или иная система обследует тексты, т.е. все ли слова заносятся в индексные файлы или же только термины из названий, заголовков, резюме, первых двух страниц текста и т.д. Важно также как часто происходит обновление данных, каким образом системы "взвешивают" понятия, определяя их соответствие данному запросу. Безусловно, не последнюю роль играет простота и информативность интерфейса, возможность использовать булевые операторы и операторы расстояния, дополнительные сервисные функции.

1.1 Как работают поисковые машины

Поисковая машина представляет собой комплект программ, в основе которого лежат следующие пять:

Spider: Паук – это программа, которая скачивает веб-страницы. Он работает точно как браузер, когда вы соединяетесь с веб-сайтом и загружаете страницу. Паук не имеет никаких визуальных компонентов. То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете «просмотр HTML-кода» в своем браузере.

Crawler («червяк», или «путешествующий паук») — программа, способная найти на Web-странице все ссылки на другие страницы. Ее задача - определить, куда дальше должен ползти «паук», руководствуясь ссылками или заранее заданным списком адресов.
Indexer (индексатор) — программа, которая «разбирает» страницу на составные части и анализирует их. Вычленяются и анализируются заголовки Web-страниц, заголовки документов, ссылки, текст документов, отдельно — текст, выделенный полужирным шрифтом, курсивом и т.д.
Database (база данных) — хранилище всех данных, которые поисковая система загружает и анализирует. Требует огромных ресурсов как для хранения, так и для последующей обработки.
Search Engine Results Engine (система выдачи результатов поиска) решает, какие страницы удовлетворяют запросу пользователя и в какой степени. Именно с этой частью поисковой системы «общается» пользователь.

Первые две программы, работающие «в связке», часто называют поисковый робот (а иногда — НТТР-робот).

Поисковая машина, получив запрос на поиск, не отправляется в длительное путешествие по «Всемирной паутине», а анализирует лишь ту информацию, которую собрала ранее. С одной стороны, это позволяет резко повысить скорость обработки запроса на поиск. С другой, ограничивает область поиска внутренними ресурсами поисковой системы, которые, во-первых, ограниченны (ни одна поисковая машина не в состоянии загрузить в свою базу данных информацию со всех узлов Сети), во-вторых, уже в какой-то степени устарели. Ситуация в интернет изменяется очень быстро. Если «паук» с целью обновления информации об уже проиндексированных однажды Web-страницах «заползает» на них раз в два месяца, пользователь рискует получить в результатах запроса ссылку на уже несуществующую Web-страницу.

Процесс загрузки из Сети информации и предварительного анализа ее поисковой машиной называется индексация, а сама база данных поисковой машины, в которой хранится собранная информация, — индекс.

Глубина индексации может быть разной. Полные тексты документов, размещенных на странице, в базу данных копируют не все поисковые роботы — некоторые ограничиваются лишь заголовками. Когда пользователь формирует запрос на поиск, поисковая машина просматривает свою базу данных и выдает перечень Web-страниц, содержащих слова, введенные пользователем в поле ввода (их часто называют ключевые слова). Таких страниц может быть крайне много. Задача поисковой машины — отобрать те из них, которые в наибольшей степени отвечают запросу пользователя (т.е. релевантны ему) и указать ссылки на них в числе первых.

Высокая скорость поиска обеспечивается не только за счет того, что поисковая машина обращается к уже собранной и хранящейся тут же, у нее «под рукой», информации. Анализируя собранные данные, поисковая машина выполняет индексацию базы данных, в процессе которой каждому слову ставятся в соответствие его «координаты» — номер документа, в котором имеется данное слово, а зачастую и позиция слова в документе (номер предложения и номер слова в нем).

Алгоритмом поиска можно назвать метод, руководствуясь которым поисковая машина принимает решение, включать или не включать ссылку на страницу либо документ в результаты поиска.

Почти каждая поисковая машина использует свой собственный алгоритм поиска, и его детали представляют собой ноу-хау разработчиков поисковика. Но большинство из них отбирают документы, отвечая сами себе на вопросы:

Присутствует ли ключевое слово в заголовке документа?
Присутствует ли ключевое слово в имени домена или в адресе страницы?
Встречается ли ключевое слово в подзаголовках документа либо в элементах текста, выделенных полужирным, курсивом либо как-то иначе?
Как часто ключевое слово встречается на странице? (Долю ключевых слов в тексте страницы иногда называют плотностью ключевого слова.)
Встречаются ли ключевые слова в описаниях страниц, выполненных их разработчиками, и среди ключевых слов, указанных разработчиками страниц? (Поскольку очень часто разработчики Web-страниц с целью привлечения к ним внимания лукавят при их описании и выборе ключевых слов, данным критерием пользуются не все поисковики.)
На какие Web-узлы имеются ссылки на анализируемой странице и встречается ли ключевое слово в тексте ссылки?
Какие Web-узлы имеют ссылку на анализируемый сайт? Каков текст ссылки? (Это так называемый внестраничный критерий, потому что автор страницы не всегда может им управлять.)
На какие еще страницы данного сайта содержит ссылки анализируемая страница?

1.2 Алгоритмы поиска. Законы Зипфа

Как уже говорилось, применяемые поисковиками алгоритмы являются их ноу-хау. Тем не менее, существуют некоторых закономерности, которые используются при разработке алгоритмов и предшествующему их применению анализу текста.

Некоторые из этих закономерностей были подмечены Джорджем Зипфом (George К. Zipf); он опубликовал свои законы в 1949 году. Пять лет спустя знаменитый математик Беноит Мандлеброт (Benoit Mandlebrot) внес небольшие изменения в формулы Зипфа. добившись более точного соответствия теории практике. Хотя некоторые исследователи и подвергают исследования Зипфа острой критике, без учета подмеченных им закономерностей сегодня не способна работать ни одна система автоматического поиска информации.

Зипф заметил, что длинные слова встречаются в тексте реже, чем короткие. На основе этой закономерности Зипф вывел два закона.

Первый закон связывает частоту появления слова в тексте (она называется частота вхождения слова) с рангом этой частоты.

Выберем любое слово и посчитаем, сколько раз оно встречается в тексте. Эта величина называется частота вхождения слова. Измерим частоту каждого слова текста. Некоторые слова будут иметь одинаковую частоту, то есть входить в текст равное количество раз. Сгруппируем их, взяв только одно значение из каждой группы. Расположим частоты по мере их убывания и пронумеруем. Порядковый номер частоты называется ранг частоты. Так, наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними 2 и т.д. Вероятность встретить слово в тексте будет равна отношению частоты вхождения этого слова к общему числу слов в тексте.

Вероятность = Частота вхождения слова / Число слов

Формула 1

Зипф обнаружил интересную закономерность. Оказывается, если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина (С) приблизительно постоянна.

С = (Частота вхождения слова * Ранг частоты) / Число слов

Формула 2

Итак, первый закон Зипфа: Если к какому-либо достаточно большому тексту составить список всех используемых в нем слов, а затем проранжировать эти слова — расположить их в порядке убывания частоты вхождения в данном тексте и пронумеровать в возрастающем порядке, — то для любого слова произведение его порядкового номера в этом списке (ранга) и частоты его вхождения в тексте будет величиной постоянной

В математике такая зависимость отображается гиперболой. Отсюда, в частности, следует, что, если наиболее распространенное слово встречается в тексте 100 раз, то следующее по распространенности встретится не 99 и не 90, а примерно 50 раз.

Информация о работе Теория поиска информации