Поисковые системы

Автор работы: Пользователь скрыл имя, 18 Сентября 2013 в 23:46, курсовая работа

Описание работы

Целью моей исследовательской работы является изучение истории поисковых систем, изучение их методов работы и краткий обзор популярнейших поисковых систем.

Содержание работы

Введение 3
Глава 1. История развития 4
1. История 4
2. Хронология развития 4
Глава 2. Методы работы поисковых систем 8
2.1. Поисковая машина 8
2.2. Модуль индексирования 8
2.2.1. Spider (паук) 9
2.2.2. Crawler 9
2.2.3. Indexer 9
2.2.3.1. Возможности индексатора 10
2.3. База данных 11
2.3.1. Принципы работы индекса поисковой системы 11
2.4. Поисковый сервер 11
2.4.1. Работа поискового сервера 12
2.4.2. Возможности поискового сервера 12
Глава 3. Краткий обзор популярнейших поисковых систем 15
3.1 Google 15
3.1.1 Плюсы поисковой системы Google 17
3.1.2 Минусы поисковой системы Google 17
3.2 YAHOO! 17
3.2.1 Плюсы поисковой системы YAHOO! 18
3.2.2 Минусы поисковой системы YAHOO! 18
3.3 Bing 18
3.4 Яндекс 19
3.4.1 Плюс поисковой системы Яндекс 20
3.4.2 Минус поисковой системы Яндекс 20
3.5 Rambler 20
3.6 Нигма 21
3.7 Mail.ru и GoGo.ru 22
Заключение 24
Список информационных ресурсов 26

Скачать архив (77.38 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

поисковые системы.docx

— 80.63 Кб (Скачать файл)

Российский Государственный Гидрометеорологический Университет.

Факультет Информационных Систем и Геотехнологий.

Поисковые системы.

Выполнила:

Шилова Алёна Викторовна

ИБ-150

Приняла:

Миклуш Виктория Александровна

Санкт-Петербург

2013

Введение 3

Глава 1. История развития 4

1. История 4

2. Хронология развития 4

Глава 2. Методы работы поисковых систем 8

2.1. Поисковая машина 8

2.2. Модуль индексирования 8

2.2.1. Spider (паук) 9

2.2.2. Crawler 9

2.2.3. Indexer 9

2.2.3.1. Возможности индексатора 10

2.3. База данных 11

2.3.1. Принципы работы индекса поисковой системы 11

2.4. Поисковый сервер 11

2.4.1. Работа поискового сервера 12

2.4.2. Возможности поискового сервера 12

Глава 3. Краткий обзор популярнейших поисковых систем 15

3.1 Google 15

3.1.1 Плюсы поисковой системы Google 17

3.1.2 Минусы поисковой системы Google 17

3.2 YAHOO! 17

3.2.1 Плюсы поисковой системы YAHOO! 18

3.2.2 Минусы поисковой системы YAHOO! 18

3.3 Bing 18

3.4 Яндекс 19

3.4.1 Плюс поисковой системы Яндекс 20

3.4.2 Минус поисковой системы Яндекс 20

3.5 Rambler 20

3.6 Нигма 21

3.7 Mail.ru и GoGo.ru 22

Заключение 24

Список информационных ресурсов 26

Введение

Пользу Всемирной сети невозможно не отметить. Каждый пользователь Интернета может найти в нём массу разнообразной и интереснейшей информации, а также использовать все богатейшие возможности сети. По оценке экспертов объем информации, передаваемой по каналам Интернет, удваивается каждые полгода. Ежедневно в сети появляются миллионы новых документов, и естественно, что без систем поиска они в подавляющем своём большинстве остались бы не востребованными, и все то огромное количество информации оказалось бы никому не нужным. Возникла необходимость создания таких средств, которые позволили бы легко ориентироваться в информационных ресурсах глобальных сетей, быстро и надёжно находить нужные сведения. В Интернете появились специальные поисковые средства. Ещё несколько лет назад бытовало такое мнение: в Интернете есть все, но найти там ничего невозможно. Однако с появлением и быстрым развитием поисковых каталогов, поисковых машин, и всевозможных поисковых программ ситуация изменилась, и теперь в Сети понадобившуюся информацию можно найти гораздо быстрее, чем в книге, лежащей на столе.

Наиболее популярным и используемым способом поиска в Интернете является использование поисковых систем.

Что же такое поисковая система? Это программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в интернете. Под поисковой системой обычно подразумевается сайт, на котором размещён интерфейс (фронт-энд) системы. Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут.

Глава 1. История развития

История

На первоначальной стадии развития Интернета пользователи были привилегированным меньшинством и объем доступной информации относительно небольшой. В тот период доступ к ней имели, в основном, работники различных крупных учебных заведений и лабораторий, и полученные данные использовались в научных целях. В то время использование Сети не имело такой актуальности, как сейчас.

В 1990 году британский ученный Тим Бернерс-Ли (который также является изобретателем URI, URL, HTTP, World Wide Web) создал сайт info.cern.ch, который является первым в мире доступным каталогом интернет-сайтов. С этого момента Интернет начал набирать популярность не только среди научных кругов, но и среди простых обладателей персональных компьютеров.

Таким образом, первым способом облегчения доступа к информационным ресурсам в Интернете стало формирование каталогов сайтов. Ссылки на ресурсы в них были сгруппированы по тематике.

Первым проектом такого рода принято считать Yahoo, открытый в апреле 1994 года. В связи со стремительным ростом количества сайтов в нём, вскоре появилась возможность поиска необходимой информации по запросу. Конечно же, это ещё не было полноценной поисковой системой. Поиск был ограничен только данными, которые находились в каталоге.

На ранних этапах развития сети интернет каталоги ссылок использовались очень активно, но постепенно утрачивали свою популярность. Причина проста: даже при наличии множества ресурсов в современных каталогах, они все равно показывают только малую часть имеющейся в сети Интернет информации. К примеру, самым большим каталогом сети является —DMOZ (Open Directory Project), http://www.dmoz.org . Он содержит информацию о чуть более пяти миллионах ресурсов, что несоизмеримо с поисковой базой Google, содержащей более восьми миллиардов документов. Самым большим русскоязычным каталогом является Яндекс, http://yaca.yandex.ru. Он содержит информацию о чуть более ста четырёх тысячах ресурсов.

Хронология развития

1945 год – американский инженер Ванневар Буш опубликовал записи идеи, которая привела в дальнейшем к изобретению гипертекста, и рассуждение о необходимости разработки системы быстрого извлечения данных из таким образом хранимой информации (эквивалент сегодняшних поисковых систем). Введённое им понятие устройства-расширителя памяти содержало оригинальные идеи, которые, в конце концов, воплотились в Интернете.
1960-е — Джерард Сэлтон и его группа в Корнелльском университете разработали «Остроумную систему извлечения информации» (SMART information retrieval system). SMART — аббревиатура от Salton’s Magic Automatic Retriever of Text, то есть «Волшебный автоматический извлекатель текста Сэлтона». Джерард Сэлтон считается отцом современной поисковой технологии.
1987-1989 – разработана Archie — поисковая система для индексации FTP архивов. Archie представлял из себя сценарий, автоматизирующий внедрение в листинги на ftp-серверах, которые затем переносились в локальные файлы, а уже потом в локальных файлах осуществлялся быстрый поиск необходимой информации. Поиск основывался на стандартной grep-команде Unix, а доступ пользователя к данным осуществлялся на основе telnet.
В следующей версии данные были разбиты на отдельные базы, одна из которых содержала только текстовые названия файлов; а другая — записи со ссылками на иерархические директории тысячи хостов; и еще одна, соединяющая первые две. Эта версия Archie была эффективней предыдущей, так как поиск производился только по именам файлов, исключая множество существующих ранее повторов.
Поисковая система становилась всё популярнее, и разработчики задумались, как ускорить её работу. Упомянутая выше база данных была заменена на другую, основанную на теории сжатого дерева. Новая версия, по существу, создала полнотекстную базу данных вместо списка имен файлов и была значительно быстрее, чем раньше. В дополнение, второстепенные изменения позволили системе Archie индексировать web-страницы. К сожалению, по различным причинам, работа над Archie вскоре прекратилась.
В 1993 году была создана первая в мире поисковая система для Всемирной сети Wandex. В её основу был заложен World Wide Web Wanderer бот, разработанный Метью Греем из Массачусетского технологического института.
1993 год – Мартин Костер создаёт Aliweb – одну из первых поисковых систем по World Wide Web. Владельцы сайтов должны были сами их добавлять в индекс Aliweb, чтобы они появлялись в поиске. Поскольку слишком мало вебмастеров это делали, Aliweb не стал популярным.
20 апреля 1994 г. – Брайан Пинкертон из университета Вашингтон выпустил WebCrawler — первого бота, который индексировал страницы полностью. Основным отличием поисковой системы от своих предшественников является предоставление возможности пользователям осуществлять поиск по любым ключевым словам на любой веб-странице. Сегодня эта технология является стандартом поиска любой поисковой системы. Поисковая система «WebCrawler» стала первой системой, о которой было известно широкому кругу пользователей. Увы пропускная способность была невысокой и в дневное время система часто была недоступной.
20 июля 1994 г. – открылся Lycos — серьезная разработка в технологии поиска, созданная в университете Карнеги Мелон. Майкл Малдин был ответственен за эту поисковую систему и до сих пор остаётся ведущим специалистом в Lycos Inc. Lycos открылся с каталогом в 54,000 документов. И в дополнение к этому результаты, которые он предоставлял, были ранжированными, кроме того он учитывал приставки и приблизительное совпадение. Но главным отличием Lycos был постоянно пополняемый каталог: к ноябрю 1996 было проиндексировано 60 миллионов документов — больше, чем у любой другой поисковой системы того времени.
Январь 1994 г. — был основан Infoseek. Он не был по-настоящему инновационным, но имел ряд полезных дополнений. Одним из таких популярных дополнений была возможность добавления своей страницы в реальном времени.
1995 год – запустилась AltaVista. Появившись, поисковая система AltaVista быстро получила признание пользователей и стала лидером среди себе подобных. У системы была практически неограниченная на то время пропускная способность, она была первой поисковой системой, в которой было возможно формулировать запросы на естественном языке, а также формулировать сложные запросы. Пользователям было разрешено добавлять или удалять их собственные URL в течение 24 часов. Также AltaVista предлагала много советов и рекомендаций по поиску. Основной заслугой системы AltaVista считается обеспечение поддержки множества языков, в том числе китайского, японского и корейского. Действительно, в 1997 году ни одна поисковая машина в Сети не работала с несколькими языками, тем более с редкими.
1996 год — поисковая машина AltaVista запустила морфологическое расширение для русского языка. В этом же году были запущены первые отечественные поисковые системы – Rambler.ru и Aport.ru. Появление первых отечественных поисковых систем ознаменовало новый этап развития Рунета, позволяя русскоязычным пользователям осуществлять запрос на родном языке, а также оперативно реагировать на изменения, происходящие внутри Сети.
20 мая 1996 г. — появилась корпорация Inktomi вместе со своим поисковиком Hotbot. Его создателями были две команды из калифорнийского университета. Когда сайт появился, то он быстро стал популярным. В октябре 2001 Дэнни Салливан написал статью под названием «База данных спам сайтов Inktomi открыта для публичного пользования», в которой рассказывалось о том, как Inktomi случайно сделал свою базу данных спам сайтов, которая к тому времени насчитывала уже около 1 миллиона URL, доступной для всеобщего использования.
1997 год – в западных странах наступает переломный момент в развитии поисковых систем, когда С. Брин и Л. Пейдж из Стэндфордского университета основали Google (первоначальное название проекта BackRub). Они разработали собственную поисковую машину, которая дала пользователям возможность осуществлять качественный поиск с учетом морфологии, ошибок при написании слов, а также повысить релевантность в результатах выдачи запросов.
23 сентября 1997 года – анонсирован Yandex, который быстро стал самой популярной у русскоязычных пользователей Интернета системой поиска. С запуском в поисковой системы Яндекс отечественные поисковые машины начали конкурировать между собой, улучшая систему поиска и индексации сайтов, выдачи результатов, а также предлагая новые сервисы и услуги.

Таким образом, развитие поисковых систем и их становление можно охарактеризовать перечисленными выше этапами.

Глава 2. Методы работы поисковых систем

Поисковая машина

Поисковая машина – это аппаратно-программный комплекс, осуществляющий быстрый поиск необходимой информации внутри сервера или Интернет-ресурса. Основа поисковой машины у всех поисковых систем примерна одинаковая. Как правило, это поисковый бот, необходимый для индексации и поиска сайта, программное обеспечение, отвечающее за составление каталога запроса и ранжирование результатов по релевантности поискового запроса. Но многие крупные поисковые системы держат в секрете содержание своей поисковой машины. Ключевым отличием является база проиндексированных сайтов, релевантность и учет морфологии языка запроса. Все это в совокупности и определяет критерий качества работы поисковых машин.

Классифицируется поисковая машина по области поиска информации:

1) Локальный поиск. Предназначен для осуществления поиска информации по какой-либо части всемирной сети, например, по одному или нескольким сайтам, либо по локальной сети. Примером служит поисковый скрипт на сайте или внутренние серверы крупных компаний.

2) Глобальный поиск. Предназначен для поиска информации по сети Интернет, либо по региональной части, группе сайтов и т.д. Глобальный поиск используют крупные поисковые системы Яндекс, Google, Yahoo и т.д.

Поисковые машины осуществляют различный поиск информации по сети Интернет. Файлы, с которыми работает поисковая машина, могут быть разных форматов (например .html,.htm,.txt,.doc,.rtf, …), графического (.gif, .png, .svg,) или мультимедийного (видео, звука и другой информации). Но наиболее распространенным является поиск по текстовым документам (web-страницы, документы в формате doc, rtf, txt и др.). Поиск по изображениям, видео, звукам более сложен с технологической точки зрения, поэтому массово не реализован. Такие системы, как, например, «Яндекс.Картинки» искали не по самим изображениям, а по альтернативным текстам, соответствующим этим изображениям. А каталог поиска картинок в компании Google составляется вручную, что увеличивает релевантность запроса, но тормозит обновление баз изображений.

Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук)

Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:

URL страницы
дата, когда страница была скачана
http-заголовок ответа сервера
тело страницы (html-код)

Crawler

Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer

Indexer (робот - индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

Возможности индексатора

Независимые процессы индексации и поиска.	Возможность проводить индексирование без остановки поискового сервиса.
Неограниченный размер.	Не содержит ограничений на число индексируемых документов, их размер и суммарный размер индекса.
Быстрый компактный индекс.	Полнотекстовый индекс без учета точных словоформ занимает менее одной трети от объема проиндексированного текста и создается со скоростью около 40 Мб/мин на однопроцессорной машине класса Pentium IV, 512МБ ОЗУ.
Множественные типы документов.	Поддержка форматов Plain text, HTML, XML, RTF, PDF, MP3, FLASH, MS Word, MS Excel, MS PowerPoint и дополнительных, определенных пользователем.
Зоны и атрибуты.	"Умное" распознавание HTML и XML-форматов, возможность гибкой настройки, позволяющей индексировать произвольные зоны и атрибуты. Возможность соотнесения с документами дополнительных "внешних" атрибутов.
Поддержка HTTP-протокола.	Содержимое индексируемых документов может быть получено в результате запроса к HTTP-серверу. Индексируемый документ может представлять собой результат работы серверного скрипта, принимающего параметры по методу GET. Автоматическая поддержка редиректов.
Настройка HTTP-соединения.	Возможность настраивать время разрыва HTTP-соединения, используемый прокси-сервер, пароли доступа и посылаемые HTTP-заголовки для различных групп индексируемых документов.
Поддержка локальной сети.	Содержимое индексируемых документов может быть получено из файловой системы локальной сети.
Поддержка произвольных источников данных.	Содержимое индексируемых документов может быть получено обращением к произвольной базе данных, в частности MS SQL.
Использование гипертекстовых ссылок.	Адреса документов для индексирования могут быть получены с помощью индексирующего "паука", начинающего индексирование с одного или нескольких заданных документов, и собирающего гипертекстовые ссылки для дальнейшего индексирования.
Распознавание кодировок.	Возможность автоматически распознавать язык и кодировку индексируемого документа.
Гибкая настройка индексатора.	Возможность переиндексировать только измененные документы. Возможность оставлять в индексе документы, временно недоступные во время индексирования. Независимая настройка многочисленных параметров индексирования для разных групп документов.
Гибкие фильтры.	Возможность применения различных фильтров для того, чтобы индексировать или не индексировать документы, адреса которых удовлетворяют заданным шаблонам.

База данных

База данных или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Принципы работы индекса поисковой системы

Все сайты, которые размещены в системах поиска и благодаря которым мы, рядовые пользователи, можем их находить, располагаются в индексе тех или иных поисковых систем. И вполне очевиден вопрос: как именно попасть туда и что вообще такое "индекс поисковика"?

Принцип работы заключается в том, что это нахождение в своеобразной "базе данных" поисковика, которая постоянно обновляется. А чтобы удержаться там на хорошем месте или для начала туда просто попасть, Вам нужен сайт. Это главное требование и одновременно залог успеха при создании, раскрутке сайта и его начальном развитии. Конечно же, точные процессы работы всех поисковиков (а тем более популярных) засекречены, но основа заключена в том, чтобы процесс описания документов и различного рода запросов (еще известно как индексация) был как можно проще и прозрачнее.

Если Вы хотите попасть в индекс поисковика, то для начала выкупите домен и создайте сам сайт. Нужно, чтобы новый сайт развивался, а это происходит, если на него размещается и постоянно пополняется уникальный контент, а также растет уровень посещаемость ресурса.

Поисковый сервер

Поисковый сервер - это интернет-сервер на котором организован доступ к поисковой машине, которая, в свою очередь представляет из себя базу данных содержащую описания и адреса серверов, а также программу-ползуна, периодически сканирующую некоторый сектор интернета на предмет новых и изменившихся сайтов.

При работе с поисковым сервером надо иметь в виду, что на нем индексируется все подряд - в том числе и устаревшие, и не представляющие особой ценности ресурсы.

Работа поискового сервера

Поисковый сервер работает следующим образом:

Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).
Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.
В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).
Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.
Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

Информация о работе Поисковые системы