Автор работы: Пользователь скрыл имя, 11 Апреля 2014 в 15:26, курсовая работа
В Интернете сосредоточено такое количество информации, что ее поиск уже превращается в отдельную задачу и отнимает очень много времени. Поисковые серверы выдают на запрос тысячи ссылок вместо нескольких страниц, где действительно имеется нужная информация. Пользователи всемирной сети Интернет, осознав преимущества, предоставляемые возможностью анализа пространственных данных, нуждаются в инструменте, позволяющем осуществлять быстрый и удобный поиск и доступ к цифровым снимкам местности и другой пространственной информации, сосредоточенной во многих правительственных, коммерческих и академических организациях.
Целью данной работы является изучение поисковых систем интернета.
Введение 2
1. Общая информация о поисковых системах 4
1.1. Понятие и функция поисковой системы 4
1.2. Принцип работы поисковых систем 7
1.3. Как работают механизмы поиска 8
2. Сравнительный обзор справочно-поисковых систем. Их виды. 12
2.1 Популярные и необычные поисковые системы 12
2.2 Характеристики поисковых систем 13
2.3. Основные характеристики поисковой системы 16
3. Поисковые системы Internet: эволюция и перспективы 19
3.1. Преимущества и недостатки поисковых систем………………………….24
Заключение 27
Список использованной литературы 28
6. Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.
База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.
Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.
2.
Сравнительный обзор справочно-
2.1
Популярные и необычные
Популярные поисковые системы
Всеязычные:
1. Google (34,4 % Русскоязычного сегмента).
2. Bing (0,9 % Русскоязычного сегмента).
3. Yahoo! (0,2 % Рунета) и принадлежащие этой компании поисковые машины: Inktomi, AltaVista, Alltheweb.
Англоязычные и международные: AskJeeves (механизм Teoma).
Рейтинг российских поисковых систем. Основные поисковые системы:
1. http://www.yandex.ru/ - 54.8267%
2. http://www.rambler.ru/ - 21.7645%
3. http://www.google.com/ - 15.6207%
4. http://www.mail.ru/ - 4.5466%
5. http://www.aport.ru/ - 1.5788%
Необычные поисковые системы
Русскоязычные - большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках - украинском, белорусском, английском и др. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что в основном индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык или другими способами ограничивают своих роботов русскоязычными сайтами.
1. Яндекс (46,3 % Рунета)
2. Mail.ru (8,9 % Рунета)
3. Rambler (3,3 % Рунета)
4. Nigma (0,5 % Рунета)
5. Генон (0,1 % Рунета)
6. Gogo.ru (<0,1 % Рунета)
7. Aport (<0,1 % Рунета)
Из перечисленных поисковых систем не все имеют собственный поисковый алгоритм - так Mail.ru и QIP.ru используют поисковый механизм Яндекса, а Nigma сочетает в себе как свой алгоритм, так и сборную выдачу от других поисковиков.
1. Koogle (с его помощью
ортодоксальные иудеи могут
2. Yauba (индийский поиск «для параноиков» - в отличие от привычных поисковиков, за пользователями не следят, а все записи о его действиях удаляются с сервера).
3. TinEye - поисковая система, специализирующаяся на поиске изображений в Интернете.
4. Генон - поисковая система,
собирающая и создающая
2.2
Характеристики поисковых
Для того чтобы правильно оптимизировать страницы, необходимо знать, что любят поисковые системы. В этом разделе приведены данные о каждой поисковой системе в отдельности, а также в общем виде.
Рассмотрим характеристики русскоязычных поисковых систем: Яндекс, Рамблер, Апорт.
Сейчас в Рунете существует три основные поисковые системы, это:
1. Яндекс
2. Рамблер
3. Апорт
В этом списке они расположены их по степени популярности, а не по качеству поиска. Но, проблема качества поиска, это уже тема, требующая отдельного раздела. А здесь же, вы сможете найти описания и характеристики русскоязычных поисковых систем.
Ниже приведем сводные данные некоторых характеристик.
1. Яндекс. Появление в индексах после регистрации - 7 дней. Период обновления страницы в индексах - 7 дней. Глубина индексирования - не ограничена. Появление в индексах, не зарегистрированных страниц - около 7 дней. Поддержка фреймов - да. Поддержка ImageMaps – да. Индексация закрытых разделов - да. Индексация внешних ссылок - есть. Robots.txt - да. Определение частоты обновления - да. Возможность проверки страницы на наличие в индексах - при попытке регистрации Яндекс проверит наличие сайта в своей базе. Возможность проверки внешних ссылок.
2. Рамблер. Появление в индексах после регистрации - ближайший выходной. Период обновления страницы в индексах - от недели до месяца. Глубина индексирования - не ограничена. Появление в индексах, не зарегистрированных страниц - от недели до месяца. Поддержка фреймов - да. Поддержка ImageMaps - да. Индексация закрытых разделов - да. Индексация внешних ссылок - нет. Robots.txt - да. Определение частоты обновления - нет. Возможность проверки страницы на наличие в индексах. Возможность проверки внешних ссылок - нет.
3. Апорт. Появление в индексах после регистрации - 7 дней. Период обновления страницы в индексах - от недели до месяца. Глубина индексирования - не ограничена. Появление в индексах, не зарегистрированных страниц - от недели до месяца. Поддержка фреймов - да. Поддержка ImageMaps - да. Индексация закрытых разделов - да. Индексация внешних ссылок - есть Robots.txt - да. Определение частоты обновления - да. Возможность проверки страницы на наличие в индексах. Возможность проверки внешних ссылок.
Особенности поисковых систем
В работе поисковый процесс представлен четырьмя стадиями:
Работа многих поисковых машин считается вполне успешной. Однако все современные поисковые системы страдают некоторыми серьёзными недостатками:
1. поиск по ключевым
словам даёт слишком много
ссылок и многие из них
2. огромное количество
поисковых машин с разными
пользовательскими
3. методы индексирования баз данных, как правило, не связаны с информационным содержанием;
4. часто выдаются ссылки на информацию, которой в Интернете уже давно нет;
5. машины ещё не столь совершены, чтобы понимать естественный язык;
В последнее время потребности в интеллектуальной помощи быстро растут. Это привело к появлению интеллектуальных агентов. Обычно интеллектуальные агенты являются основной частью поисковой машины, для поиска используется искусственный интеллект. Пользователь учит агента, а затем он выходит в Интернет для поиска.
Интеллектуальные агенты выполняют инструкции от имени пользователя, имеют некоторую самостоятельность. После поиска они оповещают пользователя о результатах. Агенты учатся в результате своей деятельности.
2.3. Основные характеристики поисковой системы
Опишем основные характеристики поисковых систем:
Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.
Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.
Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.
Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.
Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска.
Необходимость создания поисковых средств Интернет обозначилась еще в до-Webовскую эру, когда были разработаны такие системы как Archie, Veronica и WAIS, призванные отыскивать данные на FTP, Gopher и Telnet серверах. Однако по-настоящему важность поисковых инструментов была осознана лишь с развитием World Wide Web, когда возможность, в добавок к обычному тексту, легко передавать и получать высококачественные цветные изображения, аудио - и видеофайлы сделала глобальные сети необходимыми практически для всех. Миллионы отдельных лиц и целые организации стали предоставлять свои материалы в сетях. В результате объем данных стал увеличиваться столь стремительно, что в скором времени Интернет окончательно превратился в непроходимые киберджунгли, ориентироваться в которых было крайне трудно.
Ответом на сложившуюся ситуацию и явилось создание специальных поисковых инструментов, которые получили название «search engines» (поисковые средства). Ныне их общее число колеблется в пределах нескольких сотен и все новые и новые продолжают появляться день за днем.
В настоящем материале анализируется эволюция поискового сервиса Интернет за последние несколько лет, определяются главные тенденции и перспективы развития этой сферы в ближайшем будущем. Основой доклада явился непосредственный анализ наиболее известных поисковых серверов. Были внимательно исследованы как ветераны сетевого поиска (WWW Worm, WebCrawler, Lycos, Harvest, Galaxy, Yahoo!), так и относительно новые системы (Alta Vista, HotBot, UltraSeek, OpenText, Excite, Magellan, MetaCrawler). Помимо этого, была изучена отечественная и зарубежная литература по данной проблеме.
Проведенное исследование показывает, что поисковые средства постоянно развиваются. Совершенствование идет по всем главным аспектам: рост объемов баз данных, возможности составления запроса и дружественность интерфейса, выдача результатов и наличие дополнительных сервисных функций. Системы, которые долгое время не внедряют новых элементов и не оптимизируют уже имеющиеся функции постепенно выводятся из активного использования.