Автор работы: Пользователь скрыл имя, 11 Апреля 2014 в 15:26, курсовая работа
В Интернете сосредоточено такое количество информации, что ее поиск уже превращается в отдельную задачу и отнимает очень много времени. Поисковые серверы выдают на запрос тысячи ссылок вместо нескольких страниц, где действительно имеется нужная информация. Пользователи всемирной сети Интернет, осознав преимущества, предоставляемые возможностью анализа пространственных данных, нуждаются в инструменте, позволяющем осуществлять быстрый и удобный поиск и доступ к цифровым снимкам местности и другой пространственной информации, сосредоточенной во многих правительственных, коммерческих и академических организациях.
Целью данной работы является изучение поисковых систем интернета.
Введение 2
1. Общая информация о поисковых системах 4
1.1. Понятие и функция поисковой системы 4
1.2. Принцип работы поисковых систем 7
1.3. Как работают механизмы поиска 8
2. Сравнительный обзор справочно-поисковых систем. Их виды. 12
2.1 Популярные и необычные поисковые системы 12
2.2 Характеристики поисковых систем 13
2.3. Основные характеристики поисковой системы 16
3. Поисковые системы Internet: эволюция и перспективы 19
3.1. Преимущества и недостатки поисковых систем………………………….24
Заключение 27
Список использованной литературы 28
Ведущая тенденция последнего времени заключается в расширении числа обследуемых документов и одновременном увеличении глубины просмотра источника. Несколько лет назад поисковые средства были способны индексировать только несколько миллионов источников, которые на тот период включали web-страницы, статьи конференций Usenet, файлы Gopher и FTP серверов. Современные системы в среднем индексируют порядка 50 миллионов документов (от 31 миллиона Alta Vista, до 69 миллионов в Lycos). При этом скорость работы не только не снизилась, но даже увеличилась за счет использования новейшего программного и аппаратного обеспечения.
Однако даже более важным является то, что поисковые механизмы последнего поколения индексируют все слова на web-странице или в статье из конференции, в то время как ранее область индексирования ограничивалась как правило названием, заголовками, первыми несколькими строками и адресом документа. Это существенно ограничивало возможность выявления материалов по узкой тематике, поскольку результаты поиска не всегда отражали реально существующие данные. Устранив этот недостаток, современные поисковые системы стали намного более надежными, чем их предшественники.
В ближайшем будущем полнотекстовое индексирование утвердится в качестве неотъемлемой характеристики поисковых средств, которые собираются серьезно конкурировать. На наш взгляд, это один из ключевых параметров будущего развития поисковых инструментов.
Следующая важнейшая черта - совершенствование внутреннего поискового механизма, выражающееся в увеличении числа операторов и других элементов составления запросов. Несколько лет назад применение находили только два, в лучшем случае, три классических булевых оператора: AND (и), OR (или) и NOT (не). Теперь появились NEAR (рядом, около) в Alta Vista и FOLLOWED BY (следует за) в OpenText - в высшей степени полезные операторы расстояния, которые дают возможность в максимальной степени конкретизировать запрос. Многие системы позволяют усекать окончания терминов, ограничивать поиск по дате создания документа, искать ключевые слова только в обозначенных элементах web-страниц (названии, заголовках, электронном адресе и т.д.), а также вести разыскание на точное словосочетание. Новейшие разработки также позволяют выявлять файлы определенного вида (например, графические или аудио) и обладают чувствительностью к строчным и заглавным буквам. Общепринятой становится возможность искать данные на любых языках. Все это дает возможность составлять поисковое предписание с большой степенью точности, что, конечно же, повышает релевантность получаемых результатов.
Немаловажное значение имеет также ясно проявляющаяся тенденция совершенствования интерфейса. Графические браузеры типа Netscape Navigator, Internet Explorer и им подобные практически полностью вытеснили текстовой Lynx, что само по себе позволило в значительной степени повысить дружественность интерфейса, сделать его намного более сенсетивным чем 2-3 года назад. Разработчики первых поисковых систем не слишком заботились о комфорте пользователей. В тот период гораздо важнее было просто заставить систему работать. Поэтому желающих воспользоваться услугами поисковых серверов встречали зачастую лишь строки для ввода запроса, без каких-либо экранов помощи или примеров употребления булевых операторов. По этой причине пользователи часто испытывали затруднения, пытаясь точно выразить свой запрос. Системы последнего поколения во многих случаях имеют детализированное многоуровневое меню, которое делает составление запроса максимально простым. За счет его применения пользователи освобождается от необходимости знать принципы работы булевой логики - они просто комбинируют искомые термины с имеющимися условиями поиска. Меню Power search (углубленного поиска) в OpenText и Modified search (модифицированного поиска) в HotBot яркие примеры прогресса в этой сфере.
Нынешние поисковые средства предоставляют также детализированную «помощь», примеры составления запросов, файлы «часто задаваемых вопросов». В зависимости от полученных результатов генерируются подсказки и рекомендации, направленные на устранение типичных ошибок, допускаемых при составлении запроса. Таким образом, сегодняшний пользователь уже не должен обладать какими-либо специальными знаниями и опытом для обращения к поисковым средствам.
Еще одной немаловажной тенденцией является оптимизация выдачи результатов поиска. В данном случае можно с уверенностью утверждать, что поисковые средства становятся более интеллектуальными. Ныне их блок искусственного интеллекта способен ранжировать результаты в зависимости от соответствия конкретному запросу. Программа анализирует расположение слов в документе, их повторяемость и общее количество. На этой основе перечень ссылок выдается в порядке соответствия запросу, причем ссылки на наиболее ценные источники, выдаются в начале списка.
В перспективе работа над тем, как сделать поисковые средства еще более интеллектуальными будет продолжаться, поскольку только системы с мощной интеллектуальной базой будут способны переработать стремительно расширяющийся океан полнотекстовых данных. В частности, именно системам искусственного интеллекта предстоит решить проблему информационного шума или «мусорных данных», которая становится все острей в связи с ростом в Интернет материалов низкой содержательной ценности.
Последняя тенденция - появление дополнительных сервисных функций, которые делают пользование поисковыми системами более привлекательным. Некоторые из навигационных средств формируют добавочные базы данных по определенным направлениям (электронные адреса частных лиц, справочники компаний, перечни последних новостей и т.д.). Другие размещает на своих страницах ссылки на наиболее популярные справочные ресурсы Интернет, как например электронные словари, тезаурусы, энциклопедии, интерактивные карты и т.п. источники, что превращает интерфейс поисковых систем в хорошую отправную точку для любого, работающего с Интернет. В последние месяцы, наиболее продвинутые системы предлагают даже воспользоваться услугами персонального сетевого информатора, который обеспечивает текущий поиск новых материалов по заявленной тематике (см. UltraSeek).
Помимо технологических перемен, стратегические изменения в сфере поискового сервиса также очевидны. Среди них наиболее заметным является дробление поисковых средств, выделение поисковых инструментов региональной или отраслевой направленности, учитывающих материалы по отдельным странам или на определенном языке (только чисто русскоязычных систем насчитывается не менее десятка) или по определенной тематике (пока это в основном юриспруденция). Эти локальные поисковые средства призваны решить задачу исчерпывающего учета информации по отдельным странам и наиболее актуальным темам. Возможно, в скором времени мы будем располагать столькими поисковыми системами, сколько сегодня существует печатных справочников и указателей.
Наряду с образованием местных поисковых серверов, ясно обозначилось также стремление распространения вширь гигантов поискового бизнеса. Широко известные Yahoo!, Alta Vista, InfoSeek форсируют создание как «зеркальных», так и специальных профильных серверов в европейском и азиатском регионах, стремясь захватить там рынок сетевой рекламы. Само по себе это еще более ожесточает конкурентную борьбу в области поискового бизнеса.
Нет сомнений, что все перечисленные тенденции эволюции поисковых средств найдут свое продолжение в ближайшем будущем. С ростом ресурсов Интернет их потенциал будет также расширяться. Продолжится совершенствование уже существующих механизмов (примерами постоянного обновления являются WebCrawler, Lycos и Alta Vista), а также вытеснение старых систем новыми под иными именами (типичный пример HotBot вытеснивший Inktomi). С уверенностью можно прогнозировать и появление совершенно новых средств, созданных на базе последних технологических достижений.
Реальной базой для дальнейшего усовершенствования поисковых орудий является расширение деловой активности в Интернет. Предприимчивые компании уже осознали, что создание и поддержка поисковых серверов является доходным бизнесом. Так как к их услугам прибегает огромное число пользователей, интерфейсы систем становятся наиболее выгодным местом для размещения рекламы. Поэтому разработчики поисковых орудий постоянно заботятся о том, чтобы сделать свой продукт максимально привлекательным. Добиться же этого можно только путем неуклонного повышения качества работы систем по всем рассмотренным показателям. На благо всех обитателей киберпространства.
Поисковая система |
Преимущества |
Недостатки |
Rambler |
1) Система работает с большой скоростью поиска. 2) Обновление поискового индекса происходит несколько раз в день. 3) Поисковик всегда находит
самые свежие документы и 4) Обладает близким к
оптимальному выводом 5) производит ранжирование результатов в зависимости от
частоты употребления и 6) Один и тот же документ
в различных кодировках |
1) На величину индекса
релевантности влияет время 2) невозможность осуществления поиска по целой фразе указывая в запросах предельное расстояние искомых терминов друг от друга. |
Яндекс |
1)Постоянное развитие системы. 2)Качество выдачи растет, все
больше удобных сервисов 3) глубокий морфологический анализ обрабатываемых 4) обладает хорошим механизмом распознавания 5) оригинально сконструированный механизм выдачи результатов. 6) огромная индексная база. |
1) Разница в выдаче при наборе слова с большой (маленькой) буквы (иногда выдача меняется, иногда нет). 2) Частое выпадение секторов поисковой базы - когда исчезают части сайтов из выдачи и восстанавливаются через 2-5 дней. 3) Обновление индексов
поисковой базы происходит |
1) Очень мощная поисковая система, 2) База индексов этой системы обновляется раз в два дня, качество выдачи очень высокое, найти необходимый документ или информацию довольно легко. 3) Система ориентирована в основном на ссылки, причем учитываются как входящие, так и исходящие ссылки с ресурса. 4) Способна выдавать результаты на запросы по семантике языка программирования (исходный код поиска). |
1) Нередко встречаются ссылки на сайты с уже устаревшей информацией. 2) Случается, что ссылки, которые находятся в результатах поиска, ведут на сайт, находящийся в стадии разработки. 3) На запрос «фильм» и «фильмы» результаты поиска будут отличаться. 4) отсутствие возможности
указать конкретную | |
Aport |
1)содержит довольно удобный в пользовании каталог. 2)широкие возможности составления запроса. 3) автоматический перевод запроса с русского на английский язык и наоборот. 4) Реконструкция проиндексированн страниц происходит из собственной базы.
Это дает возможность просмотра уже |
1)не всегда быстро находит то, что от него просишь. 2) каталог не обновлялся уже очень давно. 3) способен выделять один и тот же документ в различных кодировках и 4) не всегда корректная обработка названий страниц, |
MSN |
1) Предоставляет пользователям
возможность сортировать 2) При осуществлении поиск по ключевому слову, команда специалистов компании отслеживает наиболее релевантные на их взгляд сайты, вручную отбирают и классифицируют их, и вносят в определенные рубрики директории. 3) ранжирования узлов по популярности и сезонным изменениям. 4) Помощь со стороны человека-редактора. |
1) Поисковая система полна спамом. 2) Использует внешние данные для обработки |
Yahoo! |
1) Содержит ссылки, которые наиболее полно 2) Имеются интеллектуальные
средства «отсечения» пустых, находящихся
в разработке или чисто 3) всегда легко определить, в каком разделе находится нужная информация. 4) В случае если на Yahoo нет результатов, сразу выводятся результаты с AltaVista. |
1) Возможна проблема с
отсутствующими страницами, поскольку
веб-мастера обычно забывают 2) Чисто русские ресурсы
не добавляются, потому что их
просто некому смотреть и 3)Нет собственной поисковой машины. 4) Ищет слова, заданные в критерии поиска только в названии и описании страницы. |
Заключение
Сегодня трудно представить себе мир без компьютера, и мало кто задумывается, а что же на самом деле мы называем умными машинами. И уж точно никто не знает насколько стали умными данные аппараты. Для многих людей Искусственный интеллект и компьютер, который стоит на вашем столе это одно и тоже. Но как люди просвещенные мы знаем, что до разума человека, или даже собаки любой самой умной машине еще далеко.
За время существования Интернета предпринимались различные попытки организации поисковых средств. Многие из этих попыток оказались неудачными, другие же привели к созданию удобных средств поиска информации. Наиболее удачные проекты появились в последние пять лет. Мы рассмотрели наиболее распространенные системы поиска. Всего же в мире существуют сотни различных поисковых систем, и выбор той или иной системы зависит только от личных пристрастий.
Считается, что идеальная поисковая машина должна отвечать следующим требованиям:
1. простота в использовании
2. чётко организованный и обновляемый индекс.
3. быстрый поиск в базе данных и быстрое реагирование.
4. надёжность и точность результатов поиска.
Интернет продолжает развиваться с неослабевающей интенсивностью, по сути дела стирая ограничение на распространение и получение информации в мире. Однако в этом информационном океане бывает не очень легко найти необходимый документ, следует также иметь в виду, что в сети наряду с давно действующими серверами возникают новые.
Список использованной литературы