Автор работы: Пользователь скрыл имя, 16 Июня 2014 в 19:24, дипломная работа
Целью данной работы является изучение самых распространенных поисковых систем и программам, применяемых в организации поиска и обмена информацией в интернете.
Объектом исследования в работе является рассмотрение общих принципов организации обмена и поиска информации в сети интернет.
Ореn Dirесtоry Рrоjусt (http://dmoz.org/)
Каталог ресурсов Интернет, являющийся на сегодня одним из наиболее полных в мире - порядка 4,5 миллионов сайтов в более чем 590 тысячах категорий. Главной особенностью проекта является его некоммерческая направленность: каталог практически полностью формируется силами добровольцев из числа пользователей Сети, дополняются каталоги экспертами в различных областях знания. В этом одновременно сила и слабость проекта, поскольку степень и качество наполнения разных категорий каталога полностью определяются наличием, квалификацией и степенью ответственности редактора конкретной рубрики. Иерархическая структура Open Directory достаточно научна и логична. В каждой рубрике, помимо англоязычной части, как правило, представлены варианты каталога на нескольких десятках национальных языков, в числе которых и русский. Все рубрики подготовлены региональными редакторами из числа жителей соответствующих стран. В настоящее время Open Directory является динамично развивающимся проектом, который перехватывает значительную долю популярности у коммерциализировавшегося «Yahoo!». Усовершенствованный вариант Open Directory с успехом используется в качестве каталога в поисковой системе Google.(http://www.about.com/)
Каталог, поддерживаемый экспертами различных областей знания. Основная отличительная черта About - принципиальная ориентация на отражение не всех, а лишь наиболее ценных и заслуживающих доверия ресурсов. Основной ряд классификации включает 24 деления, которые выделены в соответствии с интересами среднестатистических пользователей Интернет. Среди них автомобили, помощь в выполнение домашних заданий, хобби и игры, деньги, путешествия и так далее. Внутри категорий подрубрики выделяются в виде перечней в правой стороне экрана. Очень квалифицированно составлены аннотации включенных сайтов. Главным недостатком About является огромное количество рекламы, как встроенной в интерфейс, так и самопроизвольно открывающейся в новых окнах, а также практически стопроцентная ориентация на североамериканские ресурсы.
1.2.3 Российские каталоги ресурсов Интернет
В большинстве стран мира существует множество собственных каталогов ресурсов, которые гораздо полнее отражают национальный информационный массив, нежели глобальные каталоги. В России на сегодняшний день существует несколько подобных источников, ни один из которых пока не отличается высоким качеством.
Апорт (http://aport.ru/)
На сегодня это единственный профессионально поддерживаемый отечественный каталог Интернет-ресурсов. Данный каталог является составной частью одноименного портала, который также включает и поисковую машину. В Апорт учитываются не только российские или содержательно относящиеся к России ресурсы, но и полностью иноязычные зарубежные ресурсы, причина включения которых абсолютно непонятна. Каждая ссылка каталога снабжена аннотацией. К сервисным функциям Апорт относится возможность сортировки ссылок в рубриках по дате поступления, в алфавите названий, по индексу цитирования или лиге. Каталог обладает хорошей возможностью непосредственного поиска, который можно осуществлять как в каталоге в целом, так и в отдельных его разделах. К числу главных недостатков справочника Апорт относится низкая скорость актуализации сведений. В ряде случаев до четверти ссылок из разделов уже устарели.
Все прочие российские каталоги ресурсов Интернет демонстрируют еще менее качественный уровень работы. К числу каталогов, в которых иногда можно обнаружить интересные сведения, относятся List.ru (list.,mail.ru), Wеblist (Weblist.ru или http://www.yahoo.ru/).
1.3 Поиск с помощью поисковых машин
1.3.1 Принцип работы,
преимущества и недостатки
Наряду с каталогами (и даже гораздо чаще) используются поисковые машины. Это уже более современный и удобный способ навигации и поиска в Сети. В отличие от каталогов, поисковая система - это полностью автоматизированная структура.
К преимуществам поисковых машин следует отнести: малое количество в результатах поиска устаревших ссылок; намного большее количество Web-узлов, по которым производится поиск; более высокая скорость поиска; высокая релевантность поиска; наличие дополнительных сервисных функций, облегчающих работу пользователя, например, возможность перевода текста документа на иностранный язык, способность выделять все документы с определенного сайта, сужение критериев в ходе поиска, нахождение документов «по образцу» и так далее.
В основу работы поисковых машин заложены совершенно иные технологические принципы. Задача поисковых машин - обеспечивать детальное разыскание информации в электронной вселенной, что может быть достигнуто только за счет учета (индексирования) всего содержания максимально возможного числа web-страниц. В отличие от каталогов, поисковые машины функционируют в автоматизированном режиме и имеют одинаковый принцип действия. Поисковые системы состоят из двух базовых компонентов. Первый компонент представляет собой программу-робот, задача которого путешествовать с сервера на сервер, находить там новые или изменившиеся документы и скачивать их на главный компьютер системы. При этом робот, просматривая содержимое документа, находит новые ссылки, как на другие документы данного сервера, так и на внешние сайты. Программа самостоятельно направляется по указанным ссылкам, находит новые документы и ссылки в них, после чего процесс повторяется вновь, напоминая хорошо известный в библиографии «метод снежного кома». Выявленные документы обрабатываются (индексируются) вторым компонентом поисковой системы. При этом, как правило, учитывается все содержание страницы, включая текст, иллюстрации, аудио и видеофайлы. Индексации подвергаются все слова в документе, что как раз и дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, и составляют базу данных, к которой происходит обращение пользователей, вводящих в строку запроса сочетания ключевых слов.
Выдача результатов осуществляется с помощью специального модуля, который производит интеллектуальное ранжирование результатов. При этом берется в расчет местоположение термина в документе (название, заголовок, основной текст), частота его повторения, процентное соотношение искомого термина к остальному тексту страницы, a также число и авторитетность внешних ссылок на данную страницу c других сайтов.
Однако у поисковых машин существуют некоторые недостатки: ограниченная область поиска. Если какой - либо сайт не был внесен в базу данных поисковой машины, он для неё не «существует», и его документы в результаты поиска попасть не могут; относительная сложность использования. Для того чтобы составленный запрос на поиск точно соответствовал тому, что именно требуется найти, нужно хотя бы немного представлять, как работает поисковая машина, и уметь использовать простейшие логические операторы. Поисковые каталоги в этом смысле проще и привычнее; менее наглядная форма представления результатов запроса. Каталог выдает название сайта с его краткой аннотацией и другой полезной информацией. Результаты работы поисковой машины менее наглядны; поскольку базу данных поисковой машины пополняют программы - роботы, нечестные владельцы рекламных сайтов могут их «обмануть», из-за чего релевантность поиска может быть значительно снижена.
1.3.2 Глобальные поисковые машины
Поисковые машины (sеаrch еnginуs)
более распространены чем каталоги, и
число их, составляющее сегодня нескольких
десятков, продолжает неуклонно увеличиваться.
Профессиональная работа с ними требует
специальных навыков, так как простой
ввод искомого термина в поисковую строку,
скорее всего, приведет к получению списка
из сотен тысяч документов, содержащих
данное понятие, что практически равносильно
нулевому результату.(http://www.gogle.
Данная поисковая машина запущена в 1998 году. В настоящий момент эта система пo всем значимым параметрам является единоличным лидером среди глобальных поисковых систем. Google является одной из самых популярных поисковых систем. Свое название эта поисковая система получила от слова «Googol», которое обозначает число, записанное как единица со 100 нулями. Google обладает под доменами для большого количества стран - для России, например, это www.google.com.ru.
Поисковая машина Google найдет по запросу пользователя не только гипертекстовые документы, но и файлы формата doc, pdf, mp3 и так далее. Google может похвастаться своим качественным «движком», который осуществляет поиск в Интернете по запросам пользователей. Релевантность - степень соответствия найденных результатов поиска запросу - у Google часто выше, чем у российских поисковиков, например Яндекса. Именно по этой причине все больше пользователей Интернета начинают использовать Google в качестве основной поисковой системы. Поисковик Google использует алгоритм ссылочного ранжирования PageRank, который определяет авторитетность сайта при формировании списка результатов поиска. PageRank схож с индексом цитирования у Яндекса и зависит от качества и количества ссылок на этот сайт. Благодаря PageRank пользователи находят в Интернете именно то, что ищут.
Поисковая машина Google копирует в свою базу все страницы (кэширует), благодаря чему пользователь может просмотреть страницу, открыв ее из кэша Google, а не из первоисточника, что позволяет значительно уменьшить время поиска. Особенностью Google является и то, что поисковик индексирует полностью все страницы. Также стоит отметить возможность Google искать изображения различного качества, размера, формата. Введя в строку поиска арифметическое выражение, можно получить верный ответ от Google. Чтобы воспользоваться поиском Google необязательно заходить на www.google.com.ru - можно установить программу Google Toolbar, которая создаст в браузере панель инструментов с поисковой строкой, в которой можно ввести свой запрос.
Помимо перечисленных глобальных поисковых систем, в некоторых случаях, скорее по инерции, продолжают использоваться устаревшие поисковые сервисы, среди которых наиболее заметны HotBot (http://www.hotbot.com/) и Excite (http://www.excite.com/). Малый объем их индексных файлов на сегодня не позволяет полагаться на предоставляемые ими сведения. "Молодая" поисковая система как Ask (http://www.ask.com/) несмотря на внушительный объем проиндексированных документов, пока не представляет особого интереса. Ask, к примеру, не способен осуществлять поиск документов на русском языке.
1.3.3 Российские поисковые машины
Глобальные поисковые машины уделяют свое внимание на зарубежные ресурсы Сети. Поиск информации на серверах в пределах отдельной страны является задачей локальных машин, которые специально приспособлены к особенностям конкретного языка. В России к лидирующим поисковым системам на сегодня можно отнести Яндекс и Rambler.
Яндекс (http://www.yandex.ru/)
Запущен в сентябре 1997 года.
Среди русскоязычных поисковых систем
наиболее популярной по праву считается
Яндекс. Пo запросу данная поисковая машина
способна найти в русскоязычной части
интернета необходимые вам веб-страницы,
картинки, новости, статьи энциклопедий
или товары и многое другое. Пpи поиске
учитывается морфология русского языка,
машина сама исключает cтoп-cлoвa, анализирует
расстояние слов друг от друга. Taкжe позволяет
искать документы на белорусском, украинском,
английском, румынском, немецком и французском
языках. Яндекс индексирует документы
в форматах РDF, RТF, DОС, ХLS, РРТ, SWF, RSS и это
отличает его от других поисковых систем.
Для более точного запроса лучше всего
использовать «Расширенный поиск». Также
можно использовать и язык запросов Яндекс,
который включает множество специальных
символов: ~,&,,/,"",,(),|,$, #. Их употребление
подробно описано в файле "Синтаксис
языка запросов" (http://www.yandex.ru/info/
За время существования «Яндекс» было открыто много интересных и нужных проектов, которыми пользуются все больше людей:
Народ.Ру - Пользователи Интернет делятся на две категории - одни продолжают любоваться на красивые сайты, а другие создают их сами.
Яндекс.Новости - Есть люди которые смотрят новости, которые их ищут и читают, а есть люди, к которым новости приходят сами.
Яндекс.Товары - Онлайн магазин.
Яндекс.Бар - Панель инструментов для Internet Explorer. С помощью ее можно вводить запрос на поиск в автономном режиме, но получать ответ только в онлайн.
Яндекс.Почта - Почта с доменом @yandex.ru. 10 Мбайт, Протокол POP3/SMTP.
Яндекс.WAP - c помощью мобильного телефона с протоколом WAP можно делать поиск по российским WAP-ресурсам, а также вести поиск «на местности» - в любом месте, указав посредством мобильного телефона свое местоположение (станцию метро или улицу), можно узнать адреса ближайших станций техпомощи и автозаправки, пунктов обмена валюты и банкоматов, ресторанов и кафе, гостиниц, театров, дискотек.
Rambler (http://www.rambler.ru/)
Запущен в октябре 1996 года. Данная поисковая система содержит информацию о более чем 12 миллионах документов, которые расположены на серверах России и стран СНГ. К началу 2000 года Rambler устарел и утратил свои лидирующие позиции. Но в 2002 году была проведена модернизация всей программно-аппаратной части. Это позволило вернуть поисковой системе былой авторитет. Rambler поддерживает все кодировки русского языка. Данная поисковая машина обладает обычным и расширенным поиском. При поиске также можно пользоваться различными операторами такими как &, ||, *, ?, or, and, NOT, кавычки, скобки (так называемый язык запроса). Сгруппировать найденную информацию можно либо по сайтам, либо по документам. Найденные документы по умолчанию сортируются по релевантности, но можно также их отсортировать и по дате. Каждая найденная ссылка снабжена функциями "Восстановить текст", "Все документы с сайта" и "Найти похожие". Все функции работают очень надежно.
Практически все всемирно известные каталоги и поисковые машины в настоящее время превратились во внушительные информационные корпорации с многомиллионными доходами. Заработав авторитет наиболее посещаемых мест в Сети, каталоги и поисковые машины предоставляют свои страницы для размещения рекламной информации, доходы от которой и составляют основу их бюджета. Постепенно поисковые сервера превращаются в многофункциональные порталы, в которых поисковый сервис остается главной приманкой для пользователей, но далеко не единственной и даже не основной из предоставляемых услуг. Помимо разыскания информации, такие сервера обычно предоставляют пользователям бесплатную электронную почту, возможность бесплатно размещать собственные страницы, сведения о погоде, текущих новостях, биржевые котировки, карты местности и так далее.
Информация о работе Общие принципы организации поиска и обмена информацией в сети интернет