Автор работы: Пользователь скрыл имя, 04 Июня 2012 в 17:07, реферат
Миллионы людей каждый день используют Интернет для различных целей. Самый распространенный из них - электронная почта, которая стала особенно важной для русских граждан, устанавливающих контакты с людьми за границей. К тому же, во времена кризиса, Интернет оказался постоянным источником новостей и информации в основном из-за того, что его нельзя полностью отключить.
Немного об актуальности данной темы
Немного из истории
Почему мы используем INTERNET?
Применение INTERNET-технологий
Услуги INTERNET
Субкультуры INTERNET
Поиск информации в INTERNET
Системы поиска
Использование сети INTERNET в экономике
Поиск партнёров и клиентов
Способы использования INTERNET финансовыми организациями
INTERNET для междугородних звонков и видеосвязи
Использование INTERNET в маркетинге туризма
Использование INTERNET современными террористами
Использование INTERNET для Великого Поручения
Использование INTERNET в обучении
О рекламе в INTERNET
7 советов как использовать INTERNET эффективнее
Интересные факты об INTERNET
Анализ информационных источников
СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ
· поиск по гипертекстовым ссылкам - поскольку все сайты Интернета связаны между собой гиперссылками, поиск информации может быть произведен путем последовательного просмотра с помощью браузера связанных ссылками web-страниц. К этому виду поиска также относится использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников. Такой метод наиболее трудоемок, однако «ручной» просмотр web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, требующего глубокого анализа. Он может быть также более эффективен при проведении повторных циклов или просмотре вновь образованных ресурсов.
Поиск с использованием поисковых машин
Наиболее широко используемым, но в то же время наиболее сложным является метод поиска с использованием поисковых систем. Его широкая распространенность обусловлена тем, что поисковые системы содержат в себе индексы громадного количества сайтов и при правильно сформированном запросе можно сразу же получить ссылки на интересующие ресурсы. Сложность метода состоит в том, что для того, чтобы результат был качественным, необходимо уметь выбрать наиболее подходящие поисковые системы, правильно формулировать запросы к ним, учитывать их особенности и функциональные возможности.
Двоякая характеристика данного метода связана с тем, что проведение эффективного поиска требует одновременного решения двух противоположных задач: увеличении охвата с целью извлечения максимального количества значимой информации и уменьшении охвата с целью минимизации шумовой информации. Нетрудно увидеть, что одновременно осуществить и то и другое довольно сложно, хотя найти оптимальное соотношение все-таки возможно.
Составление тезауруса
Для эффективного использования поисковых серверов, прежде всего необходим список ключевых слов, организованный с учетом семантических отношений между ними, то есть тезаурус.
Одним из подходов к составлению тезауруса может стать использование законов Ципфа. Рассмотрим их более подробно: число, показывающее сколько раз встречается слово в тексте, называется частотой вхождения слова. Если расположить частоты по мере убывания и пронумеровать, то порядковый номер частоты называется рангом частоты. Вероятность обнаружения слова в тексте равно отношению частоты вхождения слова к числу слов в тексте. Ципф определил, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянна для всех текстов на одном языке: где f — частота вхождения слов, r — ранг частоты, n — число слов. Это значит, что график зависимости ранга от частоты представляет из себя равностороннюю гиперболу. Ципф также установил, что зависимость количества слов с данной частотой от частоты постоянна для всех текстов в пределах одного языка и также является гиперболой.
Исследование вышеуказанных зависимостей для различных текстов показали, что наиболее значимые слова текста лежат в средней части диаграммы, так как слова с максимальной частотой, как правило, являются предлогами, частицами, местоимениями, в английском языке — артиклями (так называемые «стоп-слова»), а редко встречающиеся слова в большинстве случаев не имеют решающего значения. Таким образом, данная особенность может помочь правильно выбрать ключевые слова для проведения поиска информации.
Процедура оптимального выбора ключевых слов, основанная на применении законов Ципфа, заключается в следующем: берут любой текст-источник, близкий к искомой теме, то есть «образец», и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, web-страница, любой другой документ.
Анализ текста производится в следующем порядке:
«стоп-слова» удаляются из текста;
вычисляется частота вхождения каждого слова и составляется список, в котором слова расположены в порядке убывания их частоты;
выбирается диапазон частот, лежащий в середине списка, и из него отбираются слова, наиболее полно соответствующие смыслу текста;
составляется запрос к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором OR(ИЛИ) Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов.
Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов, то есть расположению их в порядке убывания частоты вхождения в документ слов запроса, применяемому в большинстве поисковых машин, на первых страницах найденных ресурсов практически все документы должны оказаться релевантными.
Отбор поисковых систем
Данный этап требует установить последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины.
Всего известно около нескольких сотен поисковых систем, различающихся по регионам охвата, принципам проведения поиска (а, следовательно, по входному языку и характеру воспринимаемых запросов), объему индексной базы, скорости обновления информации, способности искать «нестандартную» информацию и т. д. Основными критериями выбора поисковых систем являются объем индексной базы сервера и степень развитости самой поисковой машины, то есть уровень сложности воспринимаемых ею запросов.
Составление и выполнение запросов к поисковым машинам
Это наиболее сложный и трудоемкий этап, связанный с обработкой значительного количества информации, большая часть которой обычно является шумовой. На основе тезауруса формируются запросы к выбранным поисковым серверам. После получения первоначальных результатов возможно уточнение запросов с целью отсечения очевидно нерелевантной информации. Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска, и данные с ресурсов, признанных релевантными, собираются для последующего анализа.
Как формат, так и семантика запросов может варьироваться в зависимости от применяемой поисковой машины и конкретной предметной области. Запросы должны составляться так, чтобы область поиска была максимально конкретизирована и сужена, то есть предпочтение следует отдавать использованию нескольких узких запросов по сравнению с одним расширенным. В общем случае для каждого основного понятия из тезауруса готовится отдельный пакет запросов. Так же производится их пробная реализация — как для уточнения и пополнения тезауруса, так и с целью отсечения шумовой информации.
Языки запроса различных машин поиска в основном являются сочетанием следующих функций:
осуществление поиска документов при помощи операторов булевой алгебры AND, OR, NOT. AND (И) — содержащих все термины, соединенные им, OR (ИЛИ) — искомый текст должен содержать хотя бы один из терминов, соединенных данным оператором; NOT (НЕ) — поиск документов, в тексте которых отсутствуют термины, следующие за данным оператором;
осуществление поиска документов при помощи операторов расстояния, ограничения порядка следования и расстояния между словами. NEAR — второй термин должен находиться на расстоянии от первого, не превышающем определенного числа слов; FOLLOWED BY — термины следуют в заданном порядке; ADJ — термины, соединенные оператором, являются смежными;
возможность усечения терминов — использование символа * вместо его окончания термина; позволяет включить в искомый список все слова, производные от его начальной части шаблона;
учет морфологии языка — машина автоматически учитывает все формы данного термина, возможные в языке, на котором ведется поиск;
возможность поиска по словосочетанию, фразе;
ограничение поиска элементом документа (слова запроса должны находиться именно в заголовке, первом абзаце, ссылках и т. д.);
ограничение по дате опубликования документа;
ограничение на количество совпадений терминов;
возможность поиска графических изображений;
чувствительность к строчным и прописным буквам.
Результат запроса, то есть выведенный системой список ссылок на найденные ресурсы, обрабатывается в два этапа. На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной «интеллектуальности» запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации последующих запросов. Дальнейшая обработка производится путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.
Анализ ресурсов и сбор информации
Конечной стадией поиска является анализ ресурсов и сбор искомой информации. Первичный анализ ресурсов может основываться на аннотациях, если они есть, а при их отсутствии — на ознакомлении с информационным наполнением ресурса. Далее информация извлекается с отобранных источников и используется в соответствующих поиску целях.
http://www.erudition.ru/
Всплеск интереса к глобальной информационной сети Internet наблюдается сейчас повсеместно. В сложившихся условиях потребность в информации о сети Internet становится особенно острой. В настоящее время по Internet распространяется множество документов, касающихся как функционирования сети и работы в ней пользователей, так и связанных с различными сферами жизни: наукой, культурой, экономикой и т.д. Причём обновление информации в Internet, обширной разветвленной сети, которая включает в себя компьютерные узлы, разбросанные по всему миру, происходит, практически, в режиме реального времени.
Системы поиска
Yahoo!
Базы данных: в ведении находится служба поиска Internet-ресурсов, новостей, карт, рекламных информаций, спортивная информация, бизнес, номера телефонов, персональные WWW-страницы, и email-адреса (отдельная база данных).
Содержание: Основная директория содержит: адреса (URLs) для Internet-ресурсов и краткое описание для этих связей.
Поиск: Все Yahoo страницы предлагают не только простое поисковое окно, но и опции для этого поиска, а так же поиск Usenet или Email-адреса. Поиск может ограничиваться указанием определённого промежутка времени. Boolean операторы (и, или) и последовательный поиск также поддержаны. Отметим: если поиск в Yahoo! не привёл к положительному результату, то процесс поиска автоматически переходит на Alta Vista, которая продолжает поиск, и в случае положительных результатов автоматически возвращает найденную информацию в Yahoo!.
Если Yahoo! не может установить связь достаточно быстро с Alta Vista, то в этом случае Yahoo! будет обеспечивать страницу связи с набором инструментов поиска. После того как одна из этих связей выбирается, ключевые слова передаются к поисковой машине на ваше усмотрение.
Средством, облегчающим поиск, является наличие “tip search” (TS) – поиск с помощью “намека”: Yahoo! Является подчиненным справочником, что означает, что система не имеет так много страниц, как поисковые машины, однако задание наиболее общих ключевых слов позволит найти необходимую тему на странице высокого уровня (первая страница, которая возникает перед пользователем при посещении сайта) для организации или компании.
Результаты: Связи отображаются в соответствии с очерёдностью задаваемых слов последовательностью поиска наряду с их описательным текстом и подчиненной иерархией.
Адрес: http://www.yahoo.com/
Частота Модернизации: ежедневно
Межсетевые поисковые машины
В сети существуют различные способы поиска информации. Конечно же, если имеется справочник, в котором можно найти местонахождение интересующего вас источника конкретной информации, то без всякого сомнения, следует этим и воспользоваться. Однако, к сожалению, такие издания далеко не всегда доступны. Кроме того, сеть является постоянно обновляющейся системой и поэтому находится в курсе всего нового с помощи периодики, а тем более с помощью литературы, не всегда представляется возможным. Для
поисковых целей в Internet существуют специальные поисковые машины, располагающие значительными базами данных и имеющие связь с себе подобными. Существенно полезными возможностями у них является наличие системы поиска которая строится по принципу: от общего - к конкретному. Задавая общее понятие(в виде ключевого слова, нескольких слов или фразы, - в зависимости от сервисных услуг конкретной машины), а затем, с каждым новым поиском всё более и более конкретизируя его, можно получить
интересующий результат. Поэтому далее будут рассмотрены несколько основных поисковых систем, использование которых весьма эффективно. Исторически сложилось, что первой такой поисковой машиной являлась Alta Vista
Alta Vista
Базы данных: Расположенные по всему миру WWW-страницы и Usenet
News (новости).
Содержание: 31 миллион WWW-страниц(на май 1997 г.) и полный текст более
чем 14,000 newsgroups обновленный в реальном масштабе времени.
Поиск: Предлагает простой (simple (S)) поиск или (much more advanced (MMS)),т.е. более передовой, способ. S - поиск стоит в основном использовать для общих вопросов, MMS - поиск использует специфический поисковый синтакс. Для облегчения выполнения процедуры имеется подсказка(Simple Search Help). MMS - поиск используя булинь (boolean), т.е. с помощью ключевых союзов, используя (and, or, not - (и, или, не)) и простую смежность (near - (около)) позволяет употреблять несколько слов, чередование слов, словосочетание в качестве ключевых для проведения поиска.