Системы поиска информации

Автор работы: Пользователь скрыл имя, 02 Декабря 2011 в 01:16, реферат

Описание работы

В первой части рассмотрена история создания самых первых поисковых систем.
Во второй части рассматривается понятие поиска в сети Интернет, также рассматриваются методы информационного поиска, средства поиска, основные характеристики поиска, понятие робота-индексировщика.
В третьей части рассматриваются международные поисковые системы на примере Google и Yahoo!.
В последней части рассматриваются русскоязычные поисковые машины и русскоязычные каталоги.

Содержание работы

Список сокращений 3
Введение 4
История 6
Понятие поиска в сети Интернет 7
Методы информационного поиска 7
Средства поиска. Основные характеристики поиска. 8
Роботы-индексировщики 13
Международные поисковые системы 16
Google ……………………………………………………………………16
Yahoo! ……………………………………………………………………17
Русскоязычные поисковые системы 18
Русскоязычные каталоги 23
Заключение 25
Список источников 26

Файлы: 1 файл

Системы поиска информации.doc

— 533.00 Кб (Скачать файл)

      Индексирование – описание источников информации и построение индекса.

      Индекс – специальная база данных для эффективного поиска описанных информационных ресурсов.

      В некоторых информационно-поисковых  системах описание источников информации проводится персоналом ИПС, то есть людьми, которые составляют краткую аннотацию  на каждый ресурс. Затем, как правило, проводится сортировка описанных ресурсов по темам (составление тематического каталога). Конечно, описание, составленное человеком, будет адекватно источнику. Правда, в этом случае процедура индексирования занимает значительный период времени, поэтому формируемый индекс имеет, как правило, ограниченный объем. Зато поиск в подобной системе можно будет проводить так же легко, как в тематических каталогах библиотек.

      В ИПС другого типа процедура описания информационных ресурсов автоматизирована. Для этого разрабатывается специальная программа-робот, которая по определенной технологии обходит ресурсы, описывает их (проводит индексирование) и анализирует ссылки с текущей страницы для расширения области поиска. Как может описать документ программа? Чаще всего просто составляется список слов, которые встречаются в тексте и других частях документа, при этом учитывается частота повторения и местоположение слова, то есть, слову приписывается своеобразный весовой коэффициент в зависимости от его значимости. Например, если слово находится в названии Web-страницы, робот присвоит ему более высокий коэффициент. Поскольку описание автоматизировано, затраты времени невелики, и индекс может оказаться очень большим по размеру. Таким образом, следующей задачей для ИПС второго типа является разработка робота-индексировщика.

      Робот-индексировшик – программа, которая служит для сканирования Internet и поддержки базы данных индекса в актуальном состоянии.

      Для поиска в системах данного типа пользователю необходимо научиться составлять запросы, в простейшем случае состоящие из нескольких слов. Тогда ИПС будет искать в своем индексе документы, в описаниях которых встречаются слова из запроса. Для проведения более качественного поиска необходимо разрабатывать специальный язык запросов для пользователя. В зависимости от особенностей построения модели индекса и поддерживаемого языка запросов разрабатываются механизм поиска и алгоритм сортировки результатов.

      Поскольку индекс имеет значительный объем, количество найденных документов может оказаться  достаточно большим. Следовательно, чрезвычайно важно, как поисковая машина проведет поиск и отсортирует его результаты.

      Существенное  значение имеет внешний вид поисковой  системы, предстающий перед пользователем, поэтому одной из задач является разработка удобного и красивого интерфейса.

      Наконец, исключительно важна форма представления  результатов поиска, поскольку пользователю необходимо узнать как можно больше о найденном источнике информации, чтобы принять правильное решение  о необходимости его посещения.

      Рассмотрим  обобщенную схему взаимодействия пользователя с информационно-поисковой системой для всемирной паутины WWW . Пользователь с помощью стандартной программы-клиента для всемирной паутины (браузера) подключается к ИПС по ее адресу и формулирует запрос для поиска.

      Основным  компонентом ИПС является поисковая  машина, которая проводит в индексе  поиск ссылок на информационные ресурсы  и выдает результаты поиска пользователю.

      Основными показателями ИПС для WWW являются пространственный масштаб и специализация.

      По  пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Internet. Глобальные поисковые системы в отличие от локальных стремятся по возможности наиболее полно описать ресурсы всего информационного пространства сети Internet.

      Кроме того, ИПС могут специализироваться по поиску различных источников информации, например, документов WWW, файлов, адресов и т.д. 

      Архитектура индекса устроена таким образом, чтобы поиск проходил максимально  быстро, и результаты поиска должны быть отсортированы таким образом, чтобы наиболее релевантные ссылки находились вверху списка.

    Роботы-индексировщики

      Роботы - это автоматизированные программы, а "пауки" (spiders) - один из видов роботов. Они непрерывно "ползают" по Web, "перепрыгивая" с одной страницы на другую, с целью сбора статистических данных о самой Web либо формирования централизованной базы данных с индексами содержимого Web. Такие популярные поисковые узлы Internet, как Alta Vista, Lycos, OpenText, WebCrawler и др., используют пауков для создания оглавлений Web.

      Web-робот - это браузер с "автопилотом". Робот загружает из сети Web-страницу и просматривает ее, чтобы обнаружить связи с другими узлами. Затем он извлекает URL и совершает по этому адресу "прыжок". Оттуда он "переносится" к другому Web-узлу и начинает описанный процесс сначала. Когда браузеру попадается узел, не содержащий связей, он возвращается назад на одну или две ступени и "перепрыгивает" по адресу, указанному в одной из обнаруженных ранее связей. Запущенный однажды робот, в работе которого используется простой рекурсивный алгоритм навигации, может покрывать огромные расстояния в киберпространстве, и, поскольку в Web ежедневно происходят изменения, маршрут робота тоже ежедневно меняется. По сути, перемещение робота по Web напоминает ползание паука по паутине. Все, что ему для этого надо, - точка для старта.

      Следует иметь в виду, что работа web-агентов и системы поиска напрямую независимы. WEB-агенты (роботы) работают постоянно, вне зависимости от поступающих запросов. Их задача - выявление новых информационных серверов, новых документов или новых версий уже существующих документов. Под документом здесь подразумевается HTML-текстовый или NNTP-документ. WEB-агенты имеют некоторый базовый список зарегистрированных серверов, с которых начинается просмотр. Этот список постоянно расширяется. При просмотре документов очередного сервера выявляются URL и по ним производится дополнительный поиск. Таким образом, WEB-агенты осуществляют обход дерева ссылок. Каждый новый или обновленный документ передается системе обработки. Роботы могут в качестве побочного продукта выявлять разорванные гиперсвязи, способствовать построению зеркальных серверов.

      Индексирование  Web-страниц - это не единственное назначение роботов. Цель некоторых из них - обнаружение связей с уже несуществующими страницами. Другие "бродят" по Web, собирая статистическую информацию о ее использовании, например, определяют, какие узлы наиболее популярны, путем подсчета числа ссылок на них в других Web-страницах или регистрируют число Web-страниц для оценки роста системы.

Международные поисковые системы

    Google

Google —  общее название американской  компании Google Inc., её сайта www.google.com и поисковой системы, находящейся на этом сайте.

Google —  искажённое написание английского  слова «googol», придуманного Милтоном  Сироттой, племянником американского  математика Эдварда Кайзера, для  обозначения числа, состоящего из единицы и ста нулей.

7 января 2007 года самому популярному сайту  в Интернете исполнилось 9 лет. Девять лет тому назад, в 1998 году Google впервые открыл двери своего офиса в Менло Парк, Калифорния, США. 

Лидер поисковых машин Интернет, Google занимает более 70 % мирового рынка, а значит, семь из десяти находящихся в сети людей обращаются к его странице в поисках информации в Интернет. Сейчас регистрирует ежедневно около 50 млн. поисковых запросов и индексирует более 8 миллиардов веб-страниц. Google может находить информацию на 101 языке. Google на конец августа 2004 года состояла из 132 тыс. машин, расположенных в разных точках планеты. 

Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область  поиска отдельными доменами, языками, типами файлов и т. д. Например, поиск «intitle:Google site:wikipedia.org» даст все статьи википедии на всех языках, в заголовке которых встречается слово «Google» 

      Кроме поисковой системы, сайт google.com представляет много других бесплатных услуг, в частности популярный почтовый сервис Google Mail (GMail).

    Yahoo!

Поисковая система Yahoo! Search является второй по величине поисковой системой в Интернете после Google. Yahoo! Также предоставляет специализированные возможности поиска, такие как Yahoo! Image, Yahoo! Video, Yahoo! Local, Yahoo! News, и Yahoo! Shopping Search.

Также пользователю доступны такие сервисы  как Yahoo! Mail и Yahoo! Messenger. Yahoo! Mail – одна из крупнейших почтовых служб в Интернете.

Основной  доход компания получает от рекламы. Особенно от поисковой рекламы (реклама выдаваемая на  поисковые запросы пользователя). 
 
 
 
 
 
 
 
 
 

Русскоязычные поисковые системы

      Поисковые системы глобального масштаба свое основное внимание концентрируют на зарубежных ресурсах Сети. Задачу поиска информации на серверах в пределах отдельных стран выполняют локальные машины, специально адаптированные к особенностям конкретных языков. Подобные поисковые средства существуют и в России. Все они специально предназначены для работы с русскоязычными документами и обладают мощным морфологическим аппаратом. К лидирующей группе российских поисковых средств в настоящее время относятся Яндекс, Rambler, Turtle и Апорт.

Yandex

      Яндекс (www.yandex.ru) начал работу в сентябре 1997 года. Система выполняет поиск по русскоязычной части Интернет (Рунет) с учетом русской морфологии. Автоматически сканируются домены, соответствующие бывшим республикам СССР.

      В настоящее время Яндекс – признанный лидер российского поискового сервиса. Демонстрирует высокие показатели, как по объему проиндексированных документов, так и по релевантности поиска. На начало февраля 2007 года Яндексом проиндексировано свыше 970 тысяч российских и зарубежных русскоязычных серверов, а также серверов на территории СНГ (всего учтено более 140 миллионов оригинальных документов). Актуализация базы осуществляется еженедельно.

      Отличительные особенности системы, в соответствии с описанием на http://yandex.ru:

    • полнотекстовый поиск с полным учетом морфологии русского и английского языков;
    • мощный язык запросов (в том числе возможность поиска с расстоянием);
    • возможность запроса на естественном языке;
    • корректная обработка сленговых слов;
    • возможность поиска похожего документа;
    • очень компактный индекс;
    • подсветка слов из запроса в найденных документах;
    • развитая релевантность, позволяющая найти искомую информацию, не перегружая пользователя тысячами ссылок на не нужные документы;
    • высокая скорость поиска.

      Яндекс  – это не только поисковая машина, но и каталог ресурсов, новости, словари, сводка погоды, курсы валют. Он имеет дополнительные сервисы: размещение пользовательских домашних страниц на серверах Narod.ru, бесплатные почтовые ящики, онлайновую платежную систему Яндекс Деньги.

      В поисковую машину Яндекс вносятся только русскоязычные сайты. Для увеличения скорости поиска информации Яндекс дает возможность поиска по категориям: культура и искусство; наука и образование; бизнес и экономика; общество и политика; компьютеры и связь; дом и семья; развлечения и отдых... Чтобы получить возможность работы с персональными настройками, необходимо зарегистрироваться. Яндекс не требует от пользователя знания специальных команд для поиска, но обладает развитым языком запросов, позволяющим осуществлять "тонкий" поиск. Чтобы воспользоваться широким спектром возможностей, надо перейти на страницу "расширенный поиск".

      Имеется в системе интересная услуга –  почтовая подписка на поисковый запрос. Эта услуга позволяет узнать, когда  в Сети появляется новая информация на интересующую пользователя тему. Еще  одна возможность Яндекс – поиск в категории. Это, по сути, комбинация поисковой системы и каталога. В обычном каталоге поиск в разделе идет по описаниям ресурсов, составленным авторами. Яндекс предлагает поиск по содержанию страниц, относящихся к тому или иному разделу.

Информация о работе Системы поиска информации