Системы поиска информации

Автор работы: Пользователь скрыл имя, 02 Декабря 2011 в 01:16, реферат

Описание работы

В первой части рассмотрена история создания самых первых поисковых систем.
Во второй части рассматривается понятие поиска в сети Интернет, также рассматриваются методы информационного поиска, средства поиска, основные характеристики поиска, понятие робота-индексировщика.
В третьей части рассматриваются международные поисковые системы на примере Google и Yahoo!.
В последней части рассматриваются русскоязычные поисковые машины и русскоязычные каталоги.

Содержание работы

Список сокращений 3
Введение 4
История 6
Понятие поиска в сети Интернет 7
Методы информационного поиска 7
Средства поиска. Основные характеристики поиска. 8
Роботы-индексировщики 13
Международные поисковые системы 16
Google ……………………………………………………………………16
Yahoo! ……………………………………………………………………17
Русскоязычные поисковые системы 18
Русскоязычные каталоги 23
Заключение 25
Список источников 26

Файлы: 1 файл

Системы поиска информации.doc

— 533.00 Кб (Скачать файл)

      Список  найденных документов перед выдачей пользователю сортируется по количеству совпадений с ключевой фразой в порядке убывания. Релевантность документа зависит от ряда факторов, в том числе от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и т.д.

      Для формирования более точного запроса  целесообразно обратиться к "Расширенному поиску" (пункт в нижней части титульной страницы). С помощью структурированного меню можно легко задать ограничения по различным сочетаниям ключевых слов, местоположению термина в документе, времени и языку публикации, месте на сайте.

      Максимально детализированный запрос можно создать  также и в простой форме  с использованием языка запросов Яндекс, который включает множество специальных символов: ~,&,,/,"",,(),|,$, #. Их употребление подробно описано в файле "Синтаксис языка запросов". Снабженные этими символами ключевые слова, вводятся в ту же поисковую строку, что и в первом случае.

      Безусловным достоинством Яндекс является модуль ранжирования результатов поиска. В его основе лежит алгоритм анализа местоположения и повторяемости термина в документе и анализ внешних ссылок на страницу. Система производит группировку найденных страниц по сайтам на этапе формирования списка результатов и выдает по одному документу с сервера, который, по ее мнению, наиболее соответствует запросу. При этом в ссылке указывается общее число документов с данного сервера, также содержащих искомый термин. Яндекс показывает найденные термины в окружающем словарном контексте, что позволяет сразу же установить степень соответствия найденного документа информационной потребности пользователя. 

Rambler

      Информационно-поисковая  система Rambler (www.rambler.ru) успешно работает с 1996 г. и является одной из лучших информационно-поисковых систем в России и странах СНГ. Система имеет развитый язык запросов и гибкую форму вывода результатов. Rambler индексирует домены ru, su, ua, by, kz, kg, ge, uz и некоторые русскоязычные ресурсы из доменов com, net, org. Ежедневно в базу данных этого поисковика вносятся десятки тысяч изменений и дополнений, что обеспечивает постоянное пополнение базы сведениями обо всех новинках, появляющихся в русскоязычной части Сети.

      Поисковая система Rambler учитывает координаты слов, обучена строгой и нечеткой морфологии, связывает поиск с каталогом, в качестве которого используется рейтинг "Top100", группирует результаты поиска по сайтам, ищет по датам. Достаточно удачная архитектура продукта позволяет Rambler иметь для поисковика количество серверов в 2 раза меньшее, чем у "Яндекса", и в 3 раза меньшее, чем у "Апорта"(по данным на 2007 год).

      "Паук" Rambler производит индексирование в новостях 5 раз в день; в сайтах, входящих в Top100, - 1 раз в день; все прочие посещаются не чаще, чем 1 раз в две недели. Rambler не индексирует личные странички, находящиеся на публичных зарубежных серверах (geocities, tripod и других), а страницы подобных отечественных сайтов (narod, boom) обходит медленней, чем другие ресурсы.  

Aport

      Поисковая система Апорт (www.aport.ru), являющаяся частью информационно-развлекательного портала "Россия ОнЛайн" (http://www.rol.ru). Это проект  фирмы «Агама» при поддержке российского отделения Intel. Система задумана и реализована как Web-индекс для осуществления поиска в российской  части Internet, на русскоязычных серверах СНГ и мирового Internet. Позволяет искать  не только  сайты, но  и картинки, mp3 файлы, а также производит поиск в серверах знакомств и поиск работы. Апорт имеет свой  собственный обширный  каталог, разбитый  по   различным  тематическим  разделам. 

      Она относится к числу ведущих  поисковых систем российского Интернета. Как и любая другая поисковая  система, она имеет свои особенности, как чисто технические, интересные в первую очередь профессионалам в области информационного поиска, так и те, которые важны для обычных пользователей.

      Одним из существенных преимуществ Апорта является англо-русский и русско-английский on-line перевод запросов и поисков результата, благодаря чему можно исследовать "русский Интернет" не зная ни слова по-русски. Более того, благодаря ряду уникальных особенностей системы, можно проводить поиск, используя контекстные выражения даже для предложений.

      Система имеет развитый язык запросов и гибкую форму вывода результатов.

      Основные свойства поисковой системы Апорт:

      – перевод запроса и результатов  поиска с русского на английский и  наоборот;

      – автоматическая проверка орфографических  ошибок запроса;

      – более информативный вывод результатов  поиска для найденных сайтов (выводится  не только первое предложение найденного документа);

      – возможность поиска в любой грамматической форме;– мощный язык расширенных  запросов для профессиональных пользователей;

      – поддержка пяти основных кодовых  страниц (различных операционных систем) для русского языка;

      – технология поиска с использованием ограничений по URL (адресу) и дате документов;

      – поиск ведется не только по тексту, но и по заголовкам, комментариям и  подписям к картинкам и т.д.;

      – сохранение параметров поиска и определенного  числа предыдущих запросов пользователя;

      – объединение копий документа, находящихся  на разных серверах.

    Русскоязычные каталоги

      Каталог List.Ru – совместный проект популярного бесплатного почтового сервера MAIL.RU.

      Russia on the Net – http://www.ru. Один из самых старых каталогов Рунета (был открыт в сентябре 1995 года). Является службой известного московского провайдера – компании Demos. Регистрация ресурсов проводится на двух языках (русский и английский).

      Up.ru – http://www.up.ru. Каталог студии Delux. Работает совместно с рейтингом one.ru, что, правда, не влияет на сортировку результатов поиска.

      Улитка – http://www.ulitka.ru. Каталог российских интернет-ресурсов "Улитка". Проект продолжает работать и развиваться. Ссылки выстраиваются по рейтингу, который составляется на основе переходов из каталога на эти ресурсы. Проект принадлежит дизайн-студии "Арт-Конструктор".

      The List of Russian Web Servers – http://weblist.ru. Cтарейший каталог, один из проектов компании MARK-ITT из Ижевска. Имеется русская и английская версия каталога.

      Иван  Сусанин – http://www.susanin.net. Каталог создан питерской дизайн-студией WebPlus в 1998 году. Функциональный дизайн с интуитивно-понятной навигацией и без излишеств. Одно из достоинств – возможность поиска по словоформам.  
 
 
 
 
 
 
 
 
 

Заключение

      Появление всемирной паутины World Wide Web стало количественным и качественным скачком в области информационных технологий. Число новых ресурсов и объем информации, которую они содержат, растет лавинообразно, увеличивается количество иголочек в информационном "стоге сена" и, соответственно, размер его самого.

      Русскоязычные поисковые сервера, в отличие  от англоязычных, ведут поиск с  учетом морфологии русского языка.

      По  мнению журнала ЧИП (№2/2002) в Рунете наилучшим является портал Яндекс. Наибольшая среди ИПС информационная база и широкие поисковые возможности позволяют рекомендовать его для поиска в русскоязычной части Internet. Кроме того, Яндекс отличается прекрасной информативной документацией и хорошим набором бесплатных сервисов, среди которых Web-хостинг и электронная почта с Web-доступом.

      Но, несмотря на известность бренда Яндекс и его популярности, конкуренты не собираются проигрывать борьбу за пользователя. Эта конкуренция, без сомнения, приведет к качественному изменению ИПС, быть может приведет и к революции. Но пока эволюционный путь развития ИПС преобладает, пользователи могут надеяться на улучшение качества поиска, увеличение его скорости, повышения его характеристик и появления большого количества специализированных поисковых систем. 
 
 

Список  источников

  1. Кондратьев  Г. «Работы в Интернете», СПб:Питер, 2005
  2. Робот FAQ: http://info.webcrawler.com/mak/projects/robots/faq.html
  3. Семенов Ю. Сети Интернет. Архитектура и протоколы. – М.:Сирин, 1998
  4. Муртазин Э.В. «Интернет», М:ДМК, 2004
  5. Сайт техподдержки ИПС Яндекс http://yandex.ru.
  6. Википедия Свободная энциклопедия. http://ru.wikipedia.org/ http://en.wikipedia.org

Информация о работе Системы поиска информации