Автор работы: Пользователь скрыл имя, 30 Марта 2012 в 12:45, контрольная работа
С каждым годом объемы Интернета увеличиваются в разы, поэтому вероятность найти необходимую информацию резко возрастает. Интернет объединяет миллионы компьютеров, множество разных сетей, число пользователей увеличивается на 15-80% ежегодно. И, тем не менее, все чаще при обращении к Интернет основной проблемой оказывается не отсутствие искомой информации, а возможность ее найти.
ВВЕДЕНИЕ 3
1. ИСТОРИЯ ПОИСКОВЫХ СИСТЕМ 4
2. ПОИСК В СЕТИ ИНТЕРНЕТ 6
3. ОСНОВНЫЕ МЕТОДЫ ПОИСКА ИНФОРМАЦИИ 8
4. СПОСОБЫ ПОИСКА 9
5. КАЧЕСТВО ПОИСКА 10
6. ЗАКЛЮЧЕНИЕ 12
7. СПИСОК ЛИТЕРАТУРЫ 13
ПЛАН РАБОТЫ
| ВВЕДЕНИЕ | 3 |
1. | ИСТОРИЯ ПОИСКОВЫХ СИСТЕМ | 4 |
2. | ПОИСК В СЕТИ ИНТЕРНЕТ | 6 |
3. | ОСНОВНЫЕ МЕТОДЫ ПОИСКА ИНФОРМАЦИИ | 8 |
4. | СПОСОБЫ ПОИСКА | 9 |
5. | КАЧЕСТВО ПОИСКА | 10 |
6. | ЗАКЛЮЧЕНИЕ | 12 |
7. | СПИСОК ЛИТЕРАТУРЫ | 13 |
ВВЕДЕНИЕ
С каждым годом объемы Интернета увеличиваются в разы, поэтому вероятность найти необходимую информацию резко возрастает. Интернет объединяет миллионы компьютеров, множество разных сетей, число пользователей увеличивается на 15-80% ежегодно. И, тем не менее, все чаще при обращении к Интернет основной проблемой оказывается не отсутствие искомой информации, а возможность ее найти.
Проблема поиска и использования информации – одна из самых актуальных в современной науке. Разумеется, для эффективного и качественно поиска информации Интернет незаменим. Однако сам факт хранения в Интернете огромного пласта знаний человечества не является свидетельством высокой эффективности поиска и использования информации. Пусть даже информация выдается и в удобной форме, но осваивать ее в конечном итоге приходится человеку. И от того, насколько он владеет методами и методикой поиска, будет зависеть эффективность и качество его труда.
Следовательно, в основе использования информации лежит проблема поиска и преобразования ее в такие содержание и форму, которые создают возможность более удобного и оперативного освоения информации и ее эффективного использования в общественной деятельности.
В связи с этим цель данной работы – исследование особенностей развития и распространения информации, рассмотрение основных целей и методов информационного поиска, анализ правил построения стратегии поиска и формулирования поискового запроса.
ИСТОРИЯ ПОИСКОВЫХ СИСТЕМ
Одним из первых инструментов поиска в интернете (до WWW) был Archie.
Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэем (англ. Matthew Gray) из Массачусетского технологического института в 1993.
Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор.
Первой полнотекстовой, то есть индексирующей ресурсы при помощи робота, поисковой системой стала «WebCrawler», запущенная в 1994.
В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах.
Кроме того, это был первый поисковик, о котором было известно в широких кругах.
В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.
Вскоре появилось множество других конкурирующих поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista».
В некотором смысле они конкурировали с популярными интернет-каталогами, такими, как «Yahoo!».
Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность.
В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Rambler и Aport.
23 сентября 1997 была открыта поисковая машина Яндекс.
В последнее время завоёвывает всё большую популярность практика применения методов кластерного анализа и метапоиска.
Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivísimo.
В 2005 году на российских просторах при поддержке МГУ запущен поисковик Nigma, поддерживающий автоматическую кластеризацию.
В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака ключевых слов.
Nigma тоже экспериментировала с визуальной кластеризацией.
ПОИСК В СЕТИ ИНТЕРНЕТ
Поисковая машина – это веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах
Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.
Как правило, основной частью поисковой системы является поисковая машина (поисковый движок) – комплекс программ, обеспечивающий функциональность
поисковой системы. Основными критериями качества работы поисковой машины являются релевантность (степень соответствия запроса и найденного, то есть уместность результата), полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. В последнее время появился новый тип поисковых движков, основанных на технологии RSS, а также среди XML-данных разного типа.
Типы поисковых машин:
Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» – бот, разработанный
Мэтью Грэем (англ. Matthew Gray) из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т.е. индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице – с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.
Вскоре появилось множество других конкурирующих поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». В некотором смысле они
конкурировали с популярными интернет-каталогами, такими, как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Rambler и Aport. 23 сентября 1997 была открыта поисковая машина Яндекс.
В последнее время завоёвывает всё большую популярность практика применения методов кластерного анализа и метапоиска . Из международных машин такого плана
наибольшую известность получила «Clusty» компании Vivisimo. В 2005 году на российских просторах при поддержке МГУ запущен поисковик Nigma, поддерживающий автоматическую кластеризацию. В 2006 году открылась российская машина Quintura, предлагающая визуальную кластеризацию в виде облака ключевых слов. Nigma тоже экспериментировала с визуальной кластеризацией.
Помимо поисковых машин для Всемирной паутины, существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным FTP-серверам и
«Veronica» для поиска в Gopher.
ОСНОВНЫЕ МЕТОДЫ ПОИСКА ИНФОРМАЦИИ
Поиск необходимой информации в Интернете можно осуществлять различными способами:
1. Поиск с помощью поисковых машин по ключевому слову
2. Поиск с помощью классификаторов поисковых машин
3. Каталоги и коллекции ссылок (более общие понятия)
4. Рейтинги (самые популярные ресурсы)
5. Конференции, чаты
6. Страницы ссылок (“Links”) на тематических сайтах (редкие, пециализированные вещи)
7. Несетевые способы (советы друзей, знакомых; реклама в печатных изданиях)
В начале поиска информации необходимо определить ее тип. Условно можно выделить 4 типа информации.
1 тип — общая (например: история Российской империи),
2 тип — менее общая (например: император Александр II),
3 тип — конкретная (например: реформы Александра II),
4 тип — более конкретная (например: отмена крепостного права).
В зависимости от типа информации определяются и пути поиска.
Информация 1 типа ищется с помощью классификаторов поисковых машин. Если сразу сайты с требуемой информацией не находятся, то следует просматривать найденные по классификатору каталоги и страницы ссылок, которые находятся сайтах подобной тематике. Эти сайты приводятся в классификаторе по теме и найденных каталогах.
Информация 2 типа ищется подобно поиску для 1 типа, но с преимуществом поиска по каталогам и страницам ссылок.
Информация 3 типа — по ключевым словам, которые вводятся в строку поиска поисковых машин, каталогам, страницам ссылок
Информация 4 типа — по подробным данным, которые вводятся в строку поиска. Данные находятся согласно способам поиска изложенных для 2 и 3 типов.
СПОСОБЫ ПОИСКА
Поиск информации – одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета.
Существуют три основных способа поиска информации в Интернет:
1. Указание адреса страницы.
2. Передвижение по гиперссылкам.
3. Обращение к поисковой системе (поисковому серверу).
Способ 1: Указание адреса страницы
Это самый быстрый способ поиска, но его можно использовать только в том случае, если точно известен адрес документа или сайта, где расположен документ.
Не стоит забывать возможность поиска по открытой в окне браузера web-странице (Правка-Найти на этой странице…).
Способ 2: Передвижение по гиперссылкам
Это наименее удобный способ, так как с его помощью можно искать документы, только близкие по смыслу текущему документу.
Способ 3: Обращение к поисковой системе
Пользуясь гипертекстовыми ссылками, можно бесконечно долго путешествовать в информационном пространстве Сети, переходя от одной web-страницы к другой, но если учесть, что в мире созданы многие миллионы web-страниц, то найти на них нужную информацию таким способом вряд ли удастся.
На помощь приходят специальные поисковые системы (ихеще называют поиско
КАЧЕСТВО ПОИСКА
Есть два основных показателя качества поиска текстовой информации. Релевантность показывает, насколько близки полученные по запросу документы к искомому (больше релевантность - меньше «мусора» в результатах поиска). Полнота показывает, сколько подходящих документов не попало в «ответ». Собственно проблемы поиска связаны с балансировкой этих двух показателей:
можно просто ввести в качестве запроса весь текст, что гарантирует полную релевантность - совпадение будет полным, если текст будет найден (вот только зачем его искать);
можно просто включить в ответ все документы, что гарантирует полноту (если документ есть, его не пропустят).
Понятно, что ни тот, ни другой вариант не подходят, истина где-то между ними.
Инструменты поиска можно поделить на три группы: поиск на локальном компьютере, глобальные поисковые интернет-системы, корпоративные решения.
Локальный поиск. C поиском на отдельном персональном компьютере все внешне просто: вводится имя искомого файла (полностью или частично) - для поиска в оглавлении, или часть текста - для поиска в документах. Обычно применяется простой перебор, усложняемый разными форматами текста и его архивацией.
Глобальный поиск. Огромные объемы информации, распределенная структура ее хранения делают простой поиск просмотром текста не просто неэффективным, но невозможным. Поэтому в последнее время активно ведутся разработки по улучшению глобального поиска. Этому способствует ряд моментов, облегчающих поиск в Интернет: