Автор работы: Пользователь скрыл имя, 04 Ноября 2013 в 22:30, реферат
Наверное, у каждого, кто в первый раз выходил в мировую Сеть, дух захватывало от обилия возможностей и самой разнообразной информации. Все было безумно интересно и хотелось бродить по просторам Интернета часами. Потом эффект новизны проходит и мы начинаем относиться к нему как к средству зарабатывания денег, поиска информации или способу связи. И вот уже это средство не кажется нам таким чудесным. В данном реферате раскрываются основные технологии поиска информации в Интернет, предоставляются общие черты поисковых инструментов, рассматриваются структуры поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем.
Введение
Общая характеристика работы
1.Теория поиска информации
1.1 Как работают поисковые машины
1.2 Алгоритмы поиска. Законы Зипфа
1.3 Как поисковые машины могут использовать законы Зипфа
2.Представление базы данных
2.1 Матричное представление базы данных
2.2 Пространственно-векторная модель поисковой системы(ПС)
2.3 Полнота и точность поиска
3 Основные аспекты поиска информации
3.1 Этапы поисковой процедуры
3.2 Информационно-поисковый язык
4 Поисковые системы
4.1 Какая из поисковых машин лучше
4.2 Обзор основных поисковых систем
4.2.1 Google и его поисковые серверы
4.2.2 Яндекс и его поисковые серверы
4.2.3 Alta Vista и его поисковые серверы
4.2.4 Метапоисковые системы
4.2.5 Система поиска в конференциях Usenet News
4.2.6 Скрытый веб
5.Практическая часть
5.1 Сложные запросы в Яндекс
5.1.1 Анализ сложных запросов
5.1.2 Составление запросов
Заключение
Основные результаты работы
Рекомендации по практическому использованию результатов
Список использованных источников
Две особенности Google:использование морфологического анализа слов;отсутствие разницы между прописными и строчными буквами в запросе. Работая с Google, полезно знать несколько операторов, которые упрощают поиск.
По умолчанию Google ставит вместо пробела между всеми словами в запросе логическое «И». Если общее слово является необходимым для получения результатов, можно включить его в запрос, помещая знак «+» перед ним без пробела.Наоборот, если необходимо исключить слово из результатов поиска, поместите знак «-» перед ним без пробела.Чтобы находить страницы с тем или иным ключевым словом, используется оператор OR.Если необходимо искать не только слово, указанное в запросе, но также и все его синонимы, поместите знак тильды («~») перед вашим словом без пробела. Для поиска определений слов в словарях используйте оператор define:
При поиске информации, содержащей диапазон чисел, используйте многоточие …
Для ограничения поиска документов по дате, укажите оператор date:
Иногда необходимо, чтобы в результаты поиска не попадали сайты «для взрослых». Для этого используйте оператор safesearch:
Для поиска информации на конкретном сайте используйте оператор site: в таком виде: слово site:адрес
Оператор, который позволяет искать первое слово в заголовке, а второе – или в заголовке, или в тексте: intitle:слово1 слово2
Google позволяет производить
несложные математические
сложение, вычитание, умножение, деление,доля в процентах, возведение в степень.
Google первой из поисковых машин начала индексацию документов в форматах PDF, PS, DOC, XLS, PPT, RTF и WP5. В последнее время Google расширила число не-HTML-файлов до 12 форматов, включив основные форматы Microsoft Office. Сейчас Google обеспечивает интерфейс на многих языках мира (более 100 языков), в том числе и на русском. Хотелось бы отметить одну из возможностей при выводе результатов — это опция Cached. Если по каким то причинам данная страница не загружается, то, кликнув по ссылке с таким названием, вы можете увидеть содержимое страницы на тот момент, когда Google в последний раз индексировал ее.
Google предоставляет не только поиск, но и множество сервисов — например, поиск картинок, книг, аудио и видео файлов, поиск товаров при помощи сервиса Froogle, калькулятор, а также сервис, аналогичный AltaVista Babel Fish translation, который называется Web Page Translation. При поиске в Google внизу окна появляется ссылка Language Tools, при открытии ее помимо выбора языка появляется форма Web Page Translation.
Яндекс — популярнейшая в России поисковая система, функционирующая с осени 1997 года. Поиск Яндекса позволяет искать по Рунету документы на русском, украинском, белорусском, английском, немецком и французском языках с учетом морфологии (Если вам необходимо искать без морфологии, можно заставить Яндекс не учитывать формы слов из запроса при поиске. Помимо Web-страниц в формате HTML, Яндекс индексирует документы в форматах PDF (Adobe Acrobat), RTF (Rich Text Format), DOC (Microsoft Word), XLS (Microsoft Excel), PPT (Microsoft Power Point), SWF (Macromedia Flash), а также многие блоги и форумы. ПС поддерживает шесть языков: русский, английский, украинский, белорусский, французский и немецкий.
Яндекс позволяет задать запрос по любому из источников информации («Каталог», «Новости», «Товары», «Адреса», «Словари», «Картинки». Также возможны поиск похожего документа и, если найденный сайт описан в каталоге, переход в рубрику каталога. В конце списка ссылок выдается «Колдунщик запросов», в котором даются советы и предложения по уточнению запроса пользователя. Данный раздел позволяет сузить поиск по рубрике каталога или по региону, а также дает возможность поискать в других русскоязычных поисковых машинах и блогах.
Как и в Google, в Яндексе есть служба расширенного поиска . Она позволяет задать словарный фильтр, то есть указать, какие слова обязательно должны встретиться в документе, каких быть не должно, а какие — желательны. Несмотря на то что расширенный поиск предлагает массу возможностей, более точный запрос можно сделать с помощью языка запросов.
Основными отличительными чертами ПС Яндекс были и остаются:
Электронный адрес: http://altavista.com/
Является одним из самых старых и популярных поисковых сервисов. Alta Vista появилась в 1995 году и стала первой системой с полнотекстовой поисковой базой данных в World Wide Web. Alta Vista содержит сведения о 30 миллионах Web-страниц и статьях из 14 тысяч телеконференций.
На счету данной поисковой системы 61 патент в области информационных технологий. Alta Vista была первой в области многоязычного поиска, а еще — первой поисковой технологией, которая поддерживала японский, китайский и корейский языки. Она может по праву гордиться своей системой машинного перевода AltaVista Babel Fish translation, которая способна осуществлять перевод не только фраз или слов, но и целых электронных страниц на 12 языков, в том числе и русский. Число стран, языки которых поддерживает Alta Vista, на текущий момент составляет 26.
Также данная система была первой, которая предоставила пользователю возможность поиска картинок, аудио и видео файлов.
Изначально AltaVista была просто поисковой системой с собственным пауком (scooter), автоматически собирающим информацию, обходя сайты по ссылкам. В настоящее время в нее включен еще и каталог ресурсов от Yahoo. Попадая на главную страницу AltaVista, пользователь может выбрать следующие возможности: провести поиск по базе поисковой системы ( Web Page Search); ограничить область поиска, перейдя в один из разделов специализированного поиска: картинки, аудио, видео, новости, или же искать по базе каталога ресурсов ( AltaVista Directory). Каталог ресурсов предоставляется одним из крупнейших представителем этой отрасли — Yahoo (ранее для AltaVista свой каталог предоставляла система LookSmart).
Данная поисковая система предоставляет обширные возможности для расширенного поиска. Помимо стандартных логических операторов AND (&), OR (|), NOT (!), поддерживается NEAR (). Данный оператор дает возможность осуществления контекстного поиска, то есть поиска терминов, которые располагаются рядом в тексте документа. Кроме этого при поиске в AltaViste можно использовать операторы «+», «-», «;» (если слова в запросе указанны через точку с запятой, то при поиске данные слова объединяются во фразу), «*» — это критерий поиска для всех слов, которые начинаются (заканчиваются) с указанных перед звездочкой (после звездочки) символов и заканчиваются (начинаются) любыми символами. Располагаться звездочка может в любой части слова.. Еще поддерживаются операторы ограничения области поиска, такие как title, url, link, host, domain.
При помощи настроек на форме расширенного поиска область поиска можно ограничить датой последнего обновления искомой страницы или же периодом, в который прошло обновление, доменом или определенным URL, а также определенным типом файла.
На странице Settings пользователь может настроить для себя необходимый вид полученных при поиске результатов. Так, помимо стандартного URL и описания страницы, можно получать размер страницы и ее язык. Можно выбрать количество показываемых на одной странице результатов, настроить язык или же выбрать опцию перевода важных ссылок на выбранный язык.
Результаты поиска выводятся отсортированными по релевантности, другой вид сортировки пользователю не предоставляется.
При расчете релевантности учитывается популярность URL документа и / или его родительского сайта. Ссылки с разных сайтов имеют разный вес. Кроме того, при расчете релевантности учитываются медиафайлы и картинки, которые есть на данной странице.
Количество проиндексированных AltaVistа страниц перевалило за 500 миллионов.
Количество документов увеличивается быстрее, чем поисковые системы успевают их проиндексировать. Велика вероятность того, что нужный пользователю документ не попал в один поисковик, но проиндексирован другой поисковой системой. Поэтому существуют приложения, позволяющие передавать запрос пользователя сразу в несколько поисковых систем, — так называемые метапоисковые системы. Метапоисковые системы являются разновидностью поисковых инструментов, не имеющих собственных поисковых роботов и индексных файлов и основанных на рассылке и обработке запросов сразу в несколько поисковых систем и на суммировании результатов.
Метапоисковая система имеет те же преимущества перед поисковой системой, что и поиск в нескольких справочниках перед поиском в одном. Однако это не означает, что метапоиском следует пользоваться во всех случаях. Если документов по теме много, то метапоиск не нужен и, возможно, даже вреден, поскольку смешивает разные логики ранжирования. Часто метапоисковые средства не в состоянии корректно обработать запрос для различных поисковых систем и правильно совместить результаты, полученные разными системами. Но если документов по теме мало, то метапоиск может быть полезен именно благодаря тому, что объединяет большое число поисковиков.
Наиболее популярная в мире система мета-поиска Search.com.
USENET NEWS – это система
телеконференций сообщества
С точки зрения абонента телеконференции, USENET представляют из себя доску объявлений, в которой есть разделы, где можно найти статьи на любую тему - от политики до садоводства. Эта доска объявлений доступна через компьютер, подобно электронной почте. Не отходя от компьютера, можно читать или помещать статьи в ту или иную конференцию, найти полезный совет или вступать в дискуссии. Естественно, статьи занимают место на компьютерах, поэтому не хранятся вечно, а периодически уничтожаются, освобождая место для новых. Во всем мире лучшим сервисом для поиска информации в конференциях Usenet является сервер Google Groups (Google Inc.).
В 1994 web-ресурсы, недоступные поисковым системам, получили название deep Web или «скрытый Web».Другое название этих ресурсов – invisible («невидимый») Web. Какие это web-ресурсы?
Одними из самых больших известных ресурсов «скрытого» Web’a являются базы данных служб Dialog и LexisNexis. Крупнейший каталог скрытых ресурсов – www.completeplanet.com. Он содержит более 100 тыс. ссылок.Другие известные каталоги –www.bighub.com, www.invisible-web.net
Для более точного и быстрого поиска нужной информации целесообразно использовать сложные запросы.
1.Итак, оператор неранжирующее «И» << очень похож на оператор определения слов в одном документе &&, с той лишь разницей, что слово, которое находится справа, влияет на возможность документов попасть в результаты поиска, но не влияет на ранжирование.
Например, запрос
Пушкин&& биография
найдет документы, где
указанные слова будут
Пушкин<< биография
будут найдены документы, где будут присутствовать оба слова, но слово «биография» не будет влиять на ранжирование и первые места в списке результатов поиска займут документы со словом «Пушкин».
2.Поиск текста в заголовке страниц (title):$title (запрос)
На запрос
Маяковский<< $title (биография)
будут найдены документы
со словом «биография» в
Причем слово «Маяковский» будет определяющим.
3.Поиск ограничивается группой страниц, с заданным адресом. url=«www.url.ru/cat/*»
Пример:
«город Афины» << url=«www.photo.ru*»
Будет найдены все упоминания о городе Афины на сайте www.photo.ru
4.Позволяет ограничить поиск определенным типом файла: HTML, PDF, DOC, PPT, XLS, RTF, SWF. mime=«тип_файла»
На запрос:
(инструкция &&телевизор) << (mime=«pdf» |mime=«rtf»)
будет найдены документы PDF и RTF, в теле которых присутствуют слова «инструкция» и «телевизор».
5.Можно отобрать для поиска документы, написанные на определенном языке:
русском (ru),украинском (uk),белорусском (be),английском (en),французском (fr), немецком (de). lang=«язык»
Пример:
DAAD << lang=«de»
6.Поиск производится только по страницам, дата которых удовлетворяет заданному условию date=«ГГГГ{*|ММ{*|ДД}}»
Пример:
date=«200310*»
По запросу будет производиться поиск документов, датированных октябрем 2003 года.
Пример1.Общий запрос на тему бокса не совсем релевантен:
(бокс|боксер|боксерский)
Очевидно, что по результатам поиска будет найдено довольно много документов в том числе и не относящихся к спорту.
Улучшим запрос:отсечем анекдоты, собак, чехлы для техники, душевые, больничную тему.
Запрос
(бокс|боксер|боксерский)~~ (анекдот|собака|больничный|
выдаст более релевантные документы. После нескольких проверок запрос можно улучшить еще.
Пример 2.
Нужно найти резюме жителей Минска со знанием итальянского языка, имеющих опыт работы с Windows, Vba. При этом уровень знания итальянского языка имеет первостепенное значение.
Строим запрос
$title(резюме) && +(минск | !375) && +итальянский && +vba && +windows
При переводе на русский язык это означает «В заголовке должно быть слово «резюме», а в пределах одного документа – слова: «минск» (или код города 375), «итальянский», «vba», «windows» в точной словоформе»
ПС так выбирает слова
для аннотации результатов