Автор работы: Пользователь скрыл имя, 18 Сентября 2013 в 23:46, курсовая работа
Целью моей исследовательской работы является изучение истории поисковых систем, изучение их методов работы и краткий обзор популярнейших поисковых систем.
Введение 3
Глава 1. История развития 4
1. История 4
2. Хронология развития 4
Глава 2. Методы работы поисковых систем 8
2.1. Поисковая машина 8
2.2. Модуль индексирования 8
2.2.1. Spider (паук) 9
2.2.2. Crawler 9
2.2.3. Indexer 9
2.2.3.1. Возможности индексатора 10
2.3. База данных 11
2.3.1. Принципы работы индекса поисковой системы 11
2.4. Поисковый сервер 11
2.4.1. Работа поискового сервера 12
2.4.2. Возможности поискового сервера 12
Глава 3. Краткий обзор популярнейших поисковых систем 15
3.1 Google 15
3.1.1 Плюсы поисковой системы Google 17
3.1.2 Минусы поисковой системы Google 17
3.2 YAHOO! 17
3.2.1 Плюсы поисковой системы YAHOO! 18
3.2.2 Минусы поисковой системы YAHOO! 18
3.3 Bing 18
3.4 Яндекс 19
3.4.1 Плюс поисковой системы Яндекс 20
3.4.2 Минус поисковой системы Яндекс 20
3.5 Rambler 20
3.6 Нигма 21
3.7 Mail.ru и GoGo.ru 22
Заключение 24
Список информационных ресурсов 26
Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.
Множественные коллекции. |
Поддержка нескольких независимых коллекций документов. Возможность поиска в одной или нескольких коллекциях. |
Тематические разделы. |
Возможность логически структурировать информацию, организовывая поиск по тематическим разделам коллекции документов. |
Метапоиск. |
Возможность распределенного поиска, со сливанием результатов, полученных из разных поисковых источников. |
Кластеризация результатов. |
Возможность сгруппировать найденные документы в соответствии с их внешними атрибутами, такими как хост или категория каталога. |
Ранжирование результатов. |
Возможность сортировки найденных документов по степени соответствия запросу, по дате или по одному из атрибутов, определенных при индексировании. Пользователь может повлиять на порядок сортировки, используя операторы веса и уточнения запроса. |
Ссылочное ранжирование. |
Возможность учитывать внешние ссылки на документ при расчете его релевантности, обеспечивать поиск документа по текстам ссылок. Реализуется за счет построения ссылочного индекса. |
Навигационный источник. |
Возможность перемещать найденные по запросу документы в первые и последние позиции выдачи. Для конкретного запроса можно определить один и более URL'ов и действие по их перемещению в выдаче: сделать первым/последним. Если для запроса определено несколько URL'ов, перемещаемых "наверх", то они займут первые позиции выдачи в соответствии со своей исходной релевантностью для данного запроса. Аналогично для URL'ов, перемещаемых "вниз". |
Многостраничные результаты. |
Результаты поиска могут быть представлены в виде последовательности HTML-страниц, с возможностью произвольного перемещения между страницами и возможностью показывать произвольное число найденных документов на одной странице. |
XML-представление. |
Результаты поиска могут быть представлены в виде XML-документа с определенной схемой. |
Дизайн по умолчанию. |
Поисковый сервис может быть быстро запущен с использованием представления результатов поиска в дизайне по умолчанию. |
Настройка дизайна. |
Возможность полностью настроить дизайн страницы с результатами поиска с использованием скриптов, написанных на Perl, C++ или XSLT. Возможность показывать или не показывать различные свойства документа. |
Расширенный поиск. |
Возможность реализовать HTML-формы, представляющие "расширенный поиск" для пользователей, которые не хотят использовать язык запросов. Поля формы преобразуются в строку поискового запроса с помощью специальной процедуры. |
Подсветка фрагментов. |
Возможность выделять слова, найденные в заголовках, на странице с результатами поиска. Возможность показывать отдельные предложения документа, содержащие найденные слова, на странице с результатами поиска. |
Подсветка найденных слов. |
Возможность просмотреть найденный документ с выделенными поисковыми словами. Возможность пролистывать документ к следующему или предыдущему найденному слову. Статистика найденных слов для каждого документа. |
Наиболее известные
Русскоязычные — большинство
«русскоязычных» поисковых
В России основной поисковой системой является «Яндекс», далее - Rambler, Aport, Mail.ru, Нигма.
А теперь более подробно об этих поисковых системах.
Google — поисковая система, принадлежащая корпорации Google Inc.
Первая по популярности (84,65 %), обрабатывает 41 млрд 345 млн запросов в месяц (доля рынка 62,4 %), индексирует более 8 миллиардов веб-страниц, может находить информацию на 191 языке (c 15 октября 2009).
Поддерживает поиск в документах форматов PDF, RTF, PostScript, Microsoft Word, Microsoft Excel, Microsoft PowerPoint и других.
В качестве учебного проекта двое студентов Стендфорского университета, Лари Пейдж и Сергей Брин, предложили новую поисковую систему, которая на сегодняшний день стала одной из самых влиятельных компания во всемирной сети Интернет – Google.
Своё название система и соответствующая компания получили от математической величины "гугол" (googol), которая равна 10100. Создатели посчитали, что такое название лучше всего передаст основную идею их системы – организовать миллиарды байтов информации, содержащейся в Интернете.
Поисковая система Google представляет собой мощный механизм. Без таких поисковых систем найти информацию в глобальной сети Интернет было бы практически невозможно. Подобно всем поисковым серверам Google использует специальный поисковый алгоритм для получения результатов поиска. Некоторые основные характеристики алгоритма компания не скрывает, особенность же алгоритма является строгой тайной компании. Именно благодаря этому Google сохраняет свое лидерство в сети Интернет и не позволяет никому взломать ее систему.
Как и большинство поисковых серверов, Google использует программный поисковый механизм, называемый «паук» или «ползунок», для автоматического выбора всех документов, на которые есть ссылки в первом выбранном документе. Особенность Google заключается в том, как и по какому критерию эта поисковая система классифицирует результаты поиска на своей странице. Используемый алгоритм PageRank сортирует все веб-страницы по критерию смыслового соответствия.
Алгоритм PageRank зависит от нескольких факторов:
Систему Google практически невозможно обхитрить, потому что все ссылки на веб-страницы она воспринимает как «голоса». Самый лучший способ обеспечить своему сайту первые места, это напичкать его самой разнообразной информацией, которая будет привлекать больше людей. Чем больше ссылок на веб-странице, тем выше будет оценка поискового агента PageRank.
Google предоставляет не только возможность эффективного поиска, но и ряд бесплатных сервисов, большинство из которых не требует установки дополнительного ПО на компьютер пользователя. Наиболее популярными веб-приложениями от Google являются «Gmail» и«Gtalk». Оба проекта прекрасно дополняют друг друга, но могут работать и по-отдельности.
Yahoo! — американская компания, владеющая второй по популярности (6.35 % ) в мире поисковой системой и предоставляющая ряд сервисов, объединённых интернет-порталом «Yahoo! Directory»; портал включает в себя популярный сервис электронной почты «Yahoo! Mail», один из старейших и наиболее популярных в Интернете. Не так давно была запущена новая версия почтового интерфейса, основанная на AJAX (русскоязычный обзор нового интерфейса).
В январе 1994 года аспиранты Стэнфордского университета Дэвид Файло и Джерри Янг создали веб-сайт, который назывался «Путеводитель Джерри по Всемирной Паутине». «Путеводитель» представлял собой каталог других сайтов.
В апреле 1994 года сайт был переименован в Yahoo!. Существует две версии происхождения названия. Согласно первой, слово было взято из книги Джонатана Свифта «Путешествия Гулливера» (в русском переводе Йеху, еху), где обозначает расу грубых и тупых человекообразных существ. Именно на этой версии настаивают основатели компании. Согласно второй, Yahoo! — акроним, образованный от фразы «Еще один иерархический неотесанный (неофициальный) прорицатель» (англ.Yet Another Hierarchical Officious Oracle). Но есть и третья версия происхождения названия. Вполне возможно, Yahoo произошло от японского Yahhoo, что в переводе означает «Привет» (неформальный вариант). Однако к тому времени Yahoo уже был зарегистрированной торговой маркой соуса для барбекю, поэтому к названию был добавлен восклицательный знак. Янг и Файло быстро оценили коммерческий потенциал проекта и 2 марта 1995 года основали корпорацию Yahoo!
Согласно статистике Alexa Internet, на сегодняшний день Yahoo! — четвертый по посещаемости веб-сайт в сети Интернет, и примерно 28% посещений состоят из просмотра только одной страницы.
Bing — поисковая система, разработанная международной корпорацией Microsoft.
В настоящее время Bing занимает третье место по счёту самых используемых поисковых систем, в отличии от которых, обладает рядом эксклюзивных возможностей, таких как просмотр результатов поиска на одной странице (вместо пролистывания многочисленных страниц результатов поиска), а также динамическое корректирование объёма информации отображаемой для каждого результата поиска (например, только название, краткая или большая сводка).
В американской версии Bing присутствуют
некоторые интересные нововведения, касающиеся
интернет-поиска, например: