Автор работы: Пользователь скрыл имя, 02 Декабря 2011 в 01:16, реферат
В первой части рассмотрена история создания самых первых поисковых систем.
Во второй части рассматривается понятие поиска в сети Интернет, также рассматриваются методы информационного поиска, средства поиска, основные характеристики поиска, понятие робота-индексировщика.
В третьей части рассматриваются международные поисковые системы на примере Google и Yahoo!.
В последней части рассматриваются русскоязычные поисковые машины и русскоязычные каталоги.
Список сокращений 3
Введение 4
История 6
Понятие поиска в сети Интернет 7
Методы информационного поиска 7
Средства поиска. Основные характеристики поиска. 8
Роботы-индексировщики 13
Международные поисковые системы 16
Google ……………………………………………………………………16
Yahoo! ……………………………………………………………………17
Русскоязычные поисковые системы 18
Русскоязычные каталоги 23
Заключение 25
Список источников 26
Индексирование – описание источников информации и построение индекса.
Индекс – специальная база данных для эффективного поиска описанных информационных ресурсов.
В
некоторых информационно-
В
ИПС другого типа процедура описания
информационных ресурсов автоматизирована.
Для этого разрабатывается
Робот-индексировшик – программа, которая служит для сканирования Internet и поддержки базы данных индекса в актуальном состоянии.
Для поиска в системах данного типа пользователю необходимо научиться составлять запросы, в простейшем случае состоящие из нескольких слов. Тогда ИПС будет искать в своем индексе документы, в описаниях которых встречаются слова из запроса. Для проведения более качественного поиска необходимо разрабатывать специальный язык запросов для пользователя. В зависимости от особенностей построения модели индекса и поддерживаемого языка запросов разрабатываются механизм поиска и алгоритм сортировки результатов.
Поскольку индекс имеет значительный объем, количество найденных документов может оказаться достаточно большим. Следовательно, чрезвычайно важно, как поисковая машина проведет поиск и отсортирует его результаты.
Существенное
значение имеет внешний вид поисковой
системы, предстающий перед
Наконец,
исключительно важна форма
Рассмотрим обобщенную схему взаимодействия пользователя с информационно-поисковой системой для всемирной паутины WWW . Пользователь с помощью стандартной программы-клиента для всемирной паутины (браузера) подключается к ИПС по ее адресу и формулирует запрос для поиска.
Основным компонентом ИПС является поисковая машина, которая проводит в индексе поиск ссылок на информационные ресурсы и выдает результаты поиска пользователю.
Основными показателями ИПС для WWW являются пространственный масштаб и специализация.
По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Internet. Глобальные поисковые системы в отличие от локальных стремятся по возможности наиболее полно описать ресурсы всего информационного пространства сети Internet.
Кроме
того, ИПС могут специализироваться
по поиску различных источников информации,
например, документов WWW, файлов, адресов
и т.д.
Архитектура индекса устроена таким образом, чтобы поиск проходил максимально быстро, и результаты поиска должны быть отсортированы таким образом, чтобы наиболее релевантные ссылки находились вверху списка.
Роботы - это автоматизированные программы, а "пауки" (spiders) - один из видов роботов. Они непрерывно "ползают" по Web, "перепрыгивая" с одной страницы на другую, с целью сбора статистических данных о самой Web либо формирования централизованной базы данных с индексами содержимого Web. Такие популярные поисковые узлы Internet, как Alta Vista, Lycos, OpenText, WebCrawler и др., используют пауков для создания оглавлений Web.
Web-робот - это браузер с "автопилотом". Робот загружает из сети Web-страницу и просматривает ее, чтобы обнаружить связи с другими узлами. Затем он извлекает URL и совершает по этому адресу "прыжок". Оттуда он "переносится" к другому Web-узлу и начинает описанный процесс сначала. Когда браузеру попадается узел, не содержащий связей, он возвращается назад на одну или две ступени и "перепрыгивает" по адресу, указанному в одной из обнаруженных ранее связей. Запущенный однажды робот, в работе которого используется простой рекурсивный алгоритм навигации, может покрывать огромные расстояния в киберпространстве, и, поскольку в Web ежедневно происходят изменения, маршрут робота тоже ежедневно меняется. По сути, перемещение робота по Web напоминает ползание паука по паутине. Все, что ему для этого надо, - точка для старта.
Следует иметь в виду, что работа web-агентов и системы поиска напрямую независимы. WEB-агенты (роботы) работают постоянно, вне зависимости от поступающих запросов. Их задача - выявление новых информационных серверов, новых документов или новых версий уже существующих документов. Под документом здесь подразумевается HTML-текстовый или NNTP-документ. WEB-агенты имеют некоторый базовый список зарегистрированных серверов, с которых начинается просмотр. Этот список постоянно расширяется. При просмотре документов очередного сервера выявляются URL и по ним производится дополнительный поиск. Таким образом, WEB-агенты осуществляют обход дерева ссылок. Каждый новый или обновленный документ передается системе обработки. Роботы могут в качестве побочного продукта выявлять разорванные гиперсвязи, способствовать построению зеркальных серверов.
Индексирование Web-страниц - это не единственное назначение роботов. Цель некоторых из них - обнаружение связей с уже несуществующими страницами. Другие "бродят" по Web, собирая статистическую информацию о ее использовании, например, определяют, какие узлы наиболее популярны, путем подсчета числа ссылок на них в других Web-страницах или регистрируют число Web-страниц для оценки роста системы.
Google — общее название американской компании Google Inc., её сайта www.google.com и поисковой системы, находящейся на этом сайте.
Google —
искажённое написание
7 января
2007 года самому популярному сайту
в Интернете исполнилось 9 лет. Девять
лет тому назад, в 1998 году Google впервые открыл
двери своего офиса в Менло Парк, Калифорния,
США.
Лидер
поисковых машин Интернет, Google занимает
более 70 % мирового рынка, а значит, семь
из десяти находящихся в сети людей обращаются
к его странице в поисках информации в
Интернет. Сейчас регистрирует ежедневно
около 50 млн. поисковых запросов и индексирует
более 8 миллиардов веб-страниц. Google может
находить информацию на 101 языке. Google на
конец августа 2004 года состояла из 132 тыс.
машин, расположенных в разных точках
планеты.
Интерфейс
Google содержит довольно сложный язык
запросов, позволяющий ограничить область
поиска отдельными доменами, языками,
типами файлов и т. д. Например, поиск «intitle:Google
site:wikipedia.org» даст все статьи википедии
на всех языках, в заголовке которых встречается
слово «Google»
Кроме поисковой системы, сайт google.com представляет много других бесплатных услуг, в частности популярный почтовый сервис Google Mail (GMail).
Поисковая система Yahoo! Search является второй по величине поисковой системой в Интернете после Google. Yahoo! Также предоставляет специализированные возможности поиска, такие как Yahoo! Image, Yahoo! Video, Yahoo! Local, Yahoo! News, и Yahoo! Shopping Search.
Также пользователю доступны такие сервисы как Yahoo! Mail и Yahoo! Messenger. Yahoo! Mail – одна из крупнейших почтовых служб в Интернете.
Основной
доход компания получает от рекламы.
Особенно от поисковой рекламы (реклама
выдаваемая на поисковые запросы пользователя).
Поисковые системы глобального масштаба свое основное внимание концентрируют на зарубежных ресурсах Сети. Задачу поиска информации на серверах в пределах отдельных стран выполняют локальные машины, специально адаптированные к особенностям конкретных языков. Подобные поисковые средства существуют и в России. Все они специально предназначены для работы с русскоязычными документами и обладают мощным морфологическим аппаратом. К лидирующей группе российских поисковых средств в настоящее время относятся Яндекс, Rambler, Turtle и Апорт.
Yandex
Яндекс (www.yandex.ru) начал работу в сентябре 1997 года. Система выполняет поиск по русскоязычной части Интернет (Рунет) с учетом русской морфологии. Автоматически сканируются домены, соответствующие бывшим республикам СССР.
В настоящее время Яндекс – признанный лидер российского поискового сервиса. Демонстрирует высокие показатели, как по объему проиндексированных документов, так и по релевантности поиска. На начало февраля 2007 года Яндексом проиндексировано свыше 970 тысяч российских и зарубежных русскоязычных серверов, а также серверов на территории СНГ (всего учтено более 140 миллионов оригинальных документов). Актуализация базы осуществляется еженедельно.
Отличительные особенности системы, в соответствии с описанием на http://yandex.ru:
Яндекс – это не только поисковая машина, но и каталог ресурсов, новости, словари, сводка погоды, курсы валют. Он имеет дополнительные сервисы: размещение пользовательских домашних страниц на серверах Narod.ru, бесплатные почтовые ящики, онлайновую платежную систему Яндекс Деньги.
В поисковую машину Яндекс вносятся только русскоязычные сайты. Для увеличения скорости поиска информации Яндекс дает возможность поиска по категориям: культура и искусство; наука и образование; бизнес и экономика; общество и политика; компьютеры и связь; дом и семья; развлечения и отдых... Чтобы получить возможность работы с персональными настройками, необходимо зарегистрироваться. Яндекс не требует от пользователя знания специальных команд для поиска, но обладает развитым языком запросов, позволяющим осуществлять "тонкий" поиск. Чтобы воспользоваться широким спектром возможностей, надо перейти на страницу "расширенный поиск".
Имеется в системе интересная услуга – почтовая подписка на поисковый запрос. Эта услуга позволяет узнать, когда в Сети появляется новая информация на интересующую пользователя тему. Еще одна возможность Яндекс – поиск в категории. Это, по сути, комбинация поисковой системы и каталога. В обычном каталоге поиск в разделе идет по описаниям ресурсов, составленным авторами. Яндекс предлагает поиск по содержанию страниц, относящихся к тому или иному разделу.