Сравнительный анализ зарубежных и отечественных поисковых систем

Автор работы: Пользователь скрыл имя, 26 Октября 2015 в 12:44, контрольная работа

Описание работы

Наиболее популярным и используемым способом поиска в Интернете является использование поисковых систем. Поисковая система – портал, осуществляющий поиск, сбор и сортировку информации в сети Интернет. Поисковые системы это инструмент, позволяющий пользователю глобальной сети в кратчайшие сроки найти интересующую его информацию.
Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут.

Файлы: 1 файл

реферт УИР.docx

— 46.84 Кб (Скачать файл)

2.Планирование поисковой  процедуры

Трудоемкие поисковые работы, связанные с масштабным сбором информации из Сети, нуждаются в планировании. Ошибочная логика построения запроса, неоптимизированная последовательность применения инструментов, попытка форсировать поиск — все это не просто затягивает получение результата на дни и даже недели, но может поставить под вопрос смысл всей поисковой кампании.

Тем не менее независимо от характера задачи непродуманное метание от одного поискового сервиса к другому существенно увеличивает время получения результата.

Начинать обычно приходится со всестороннего лексического анализа информации, подлежащей поиску. Необходимо получить из любого источника прецедент подробного и грамотного описания исследуемого вопроса. Таким источником вполне может стать как узкоспециальный справочник, так и электронная энциклопедия общего профиля. На основе изученного материала необходимо сформировать максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, профессиональной лексики и клише, при необходимости — на нескольких языках. Заранее стоит побеспокоиться о потенциальной возможности уточнения поискового запроса — редких словах, возможно, названий и фамилий, тесно связанных c проблемой. Желательно также предвидеть, какие из выбранных терминов могут привнести в отклик поисковых систем нерелевантные документы. После накопления этого багажа можно перейти к получению предварительной информации из Сети.

Рейтинги потенциальных поставщиков нужной информации в обычной жизни и в электронном пространстве также могут существенно отличаться. В связи с этим, возможно, одно из главных положений, которое должно привлекать заказчика поисковых работ в Сети, — это присутствие в ней совершенно уникальных источников, не допускаемых на традиционный рынок информации или неконкурентных на нем.

Прецедент существования в Сети необходимых данных лучше всего искать в известном каталоге, поддерживающем поиск по ключевым словам.

После лексического анализа информации наступает технологический этап. Используются тестовые запросы из одного-двух ключевых слов или фразы, затем анализируется количественный отклик. Содержательный анализ данных позволяет корректировать запросы по релевантности отклика. В этой работе могут применяться и метапоисковые, и крупные автономные системы. В результате тестирования выясняются наиболее представительные источники информации, после чего следует уточнить последовательность применения поисковых инструментов. На этом этап планирования завершается.

3. Описание технологии  поиска информации в сети

Internet с помощью различных информационно-

поисковых систем (ИПС)

 

Web-технология World Wide Web (WWW) считается специальной технологией подготовки и размещения документов в сети Интернет. В состав WWW входят и web-страницы, и электронные библиотеки, каталоги, и даже виртуальные музеи. Чтобы найти нужную информацию, необходимо найти её адрес. Для этого существуют специализированные поисковые сервера (роботы индексов (поисковые системы), тематические Интернет-каталоги, системы мета-поиска, службы поиска людей и т.д.).

Поиск информации в Интернете осуществляется с помощью специальных программ, обрабатывающих запросы — информационно-поисковых систем (ИПС). Существует несколько моделей, на которых основана работа поисковых систем, но исторически две модели приобрели наибольшую популярность — это поисковые каталоги и поисковые указатели.

Поисковые каталоги устроены по тому же принципу, что и тематические каталоги крупных библиотек. Они обычно представляют собой иерархические гипертекстовые меню с пунктами и подпунктами, определяющими тематику сайтов, адреса которых содержатся в данном каталоге, с постепенным, от уровня к уровню, уточнением темы. Поисковые каталоги создаются вручную. Высококвалифицированные редакторы лично просматривают информационное пространство WWW, отбирают то, что по их мнению представляет общественный интерес, и заносят в каталог.

Основной проблемой поисковых каталогов является чрезвычайно низкий коэффициент охвата ресурсов WWW. Чтобы многократно увеличить коэффициент охвата ресурсов Web, из процесса наполнения базы данных поисковой системы необходимо исключить человеческий фактор — работа должна быть автоматизирована. Автоматическую каталогизацию Web-ресурсов и удовлетворение запросов клиентов выполняют поисковые указатели. Работу поискового указателя можно условно разделить на три этапа:

· сбор первичной базы данных. Для сканирования информационного пространства WWW используются специальные агентские программы — черви, задача которых состоит в поиске неизвестных ресурсов и регистрация их в базе данных;

· индексация базы данных — первичная обработка с целью оптимизации поиска. На этапе индексации создаются специализированные документы — собственно поисковые указатели;

· рафинирование результирующего списка. На этом этапе создается список ссылок, который будет передан пользователю в качестве результирующего. Рафинирование результирующего списка заключается в фильтрации и ранжировании результатов поиска.

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска – релевантность. Релевантность – это соответствие результатов поиска сформулированному запросу.

3.1 Технология поиска информации в системе Google

Поиск в Google является именно таким, какой он есть, благодаря одному из принципов Google: “Сосредоточь все внимание на пользователе, а остальное приложится”. Google никогда не делает того, что может помешать его пользователям, ради увеличения своих прибылей. Их интерфейс прост и понятен, они не торгуют местами в рейтинге, к тому же, поиск очень быстрый, страницы загружаются мгновенно.

"Искать в Google просто! Достаточно ввести одно или несколько условий поиска в строку поиска и нажать клавишу "Enter" (Ввод) или кнопку "Поиск в Google". В ответ Google отображает страницу с результатами: список веб-страниц, связанных с введенными словами запроса, причем первыми располагаются наиболее релевантные страницы.

Выбор правильных условий запроса - залог успешного поиска. По умолчанию Google показывает страницы, которые содержат все условия поиска. Не нужно вводить оператор "and" между словами запроса. Порядок расположения слов влияет на результаты поиска.

Автоматическое исключение общих слов

Google игнорирует общие слова и символы на некоторых языках, такие как "где" и "как", а также некоторые одиночные цифры и буквы, так как они замедляют поиск и не влияют на качество результатов. Если общее слово необходимо для получения нужных результатов, то его можно включить в условие поиска, поставив перед ним знак "+". (Перед знаком "+" обязательно должен быть пробел.)

Формы слов (поиск по основе слова)

Google научился склонять слова. То есть, где это улучшит результаты поиска, Google будет искать не только слова из запроса, но и их формы.

Поиск по словосочетанию

Иногда нужны результаты поиска, содержащие точное словосочетание. В этом случае нужно просто взять условия поиска в кавычки. Поиск по словосочетанию особенно эффективен при поиске имен собственных ("Иван Грозный"), цитат ("белеет парус одинокий") или популярных высказываний ("Счастливые часов не наблюдают").

Отрицательные условия поиска

Если условие поиска имеет несколько значений, можно задать правильное направление поиска, поставив знак минус "-" перед словом, связанным со значением, которое не должно быть включено в результаты.

"Мне  повезет!"

После ввода условий поиска можно нажать на кнопку "Мне повезет!", которая сразу откроет самый релевантный сайт по Вашему запросу. Вы вообще не увидите страницы результатов поиска, но если бы увидели, то сайт "Мне повезет!" занимал бы там первое место".

Расширенный поиск

Другой принцип Google - "Демократия в Интернете есть". Google опирается на мнение своих пользователей для улучшения поиска, а потому вводит расширенный поиск, который предусматривает различные способы улучшения полученной информации, поиска именно той информации, которая нам нужна.

Поиск синонимов

Если нужно найти не только сами слова из запроса, но и их синонимы, поставьте тильду ("~") непосредственно перед словом.

Поиск "OR" (или)

Чтобы найти страницы, которые содержат одно из двух условий поиска, введите между ними "OR", написанное заглавными буквами.

Поиск в домене

Поиск Google может использоваться в пределах одного веб-сайта. Для этого введите условия поиска, а после них введите слово "site", двоеточие и название домена.

Другие функции расширенного поиска

Язык: укажите, на каком языке должны быть представлены результаты.

Поиск по технологии: находите информацию, связанную с Apple Macintosh, BSD Unix, Linux или Microsoft.

Дополнительные функции поиска

У Google есть ещё один замечательный принцип: "Лучше делать что-то одно, но делать это очень и очень хорошо". У Google есть крупнейшие исследовательские центры, которые занимаются проблемами поиска. Несмотря на то, что Google и так уже является лучшей поисковой системой в Интернет, они разрабатывают новые продукты, а также разные функции, которые можно реализовать через поисковую строку в Google.

Сохранено в кэше

Сканируя Интернет, Google делает снимок экрана каждой просмотренной страницы и сохраняет его в виде резервной копии на случай, если исходная страница недоступна. За ссылкой "Сохранено в кэше" кроется версия страницы на момент ее последней индексации. Google использует сохраненное в кэше содержание для оценки релевантности страницы относительно запроса поиска.

Конвертирование валют

Чтобы воспользоваться встроенной функцией конвертера валют, достаточно ввести необходимые данные в строку поиска и нажать клавишу "Enter" или кнопку "Поиск Google".

Перевод веб-страниц

С помощью функции перевода Google преодолевает языковой барьер. Используя технологии машинного перевода, Google предоставляет пользователям доступ к веб-страницам, написанным на иностранных языках. В настоящий момент поддерживаются следующие языковые пары: английский - арабский, испанский, итальянский, китайский, корейский, немецкий, португальский и французский, а также немецкий - французский.

3.2 Технология поиска  информации в системе Yahoo

Открыв интересующий раздел тематического каталога щелчком мыши по его названию, увидим новую страницу Yahoo, которая имеет точно такую же структуру, как и заглавная страница: она содержит поле поиска по ключевым словам и список подразделов выбранного нами раздела, и т. д.

Если общее число найденных Yahoo ссылок достаточно велико, то список этих ссылок разбивается на порции. По умолчанию такая порция содержит 20 ссылок, но это число можно изменить, если обратиться к странице опций поиска, кнопка запуска которой находится рядом с кнопкой поиска "Search". Там же можно переопределить роль пробела между ключевыми словами (считать ли его логической операцией OR или логической операцией AND), и т. д.

На странице выбора опций есть также переключатель, который позволяет включить или выключить режим поиска целых слов. В режиме Substrings Yahoo найдет все ссылки, в которых указанное нами слово стоит не только само по себе, но и является частью других слов, например, поиск слова "art" (искусство) сработает и на слове "department" (отдел, кафедра и т. д.). По умолчанию установлен режим Substrings, для того чтобы пользователь не был вынужден вводить каждое существительное в единственном и во множественном числе (т. е., с окончанием "-s"), и т. д. Напротив, в режиме Complete Words находятся заказанные нами ключевые слова только в том случае, если они ограничены с обеих сторон пробелами или знаками препинания.

Поисковая система Yahoo ищет ссылки на документы, соответствующие запросу, в нескольких различных базах данных, прежде всего это названия категорий и заголовки Web-сайтов. Если необходимые ссылки таким образом не были найдены, Yahoo автоматически организует поиск в базе данных индивидуальных Web-страниц. Клиент может заказать поиск в одной из этих баз данных щелчком мыши на кнопках, которые расположены ниже поля ввода ключевых слов. Результаты поиска ПС Yahoo упорядочивает в соответствии с несколькими критериями, которые определяют рейтинг данной ссылки. Более высокий рейтинг присваивается документам, в которых ключевые слова встречаются большее число раз, в которых они входят в заголовок или если ссылка соответствует более старшему разделу в иерархическом дереве категорий.

В конце страницы с результатами поиска Yahoo предлагает воспользоваться услугами нескольких других поисковых систем, если клиент не удовлетворен результатами этого поиска. Такие ссылки удобны тем, что система Yahoo, при обращении к ним, сама впишет наши ключевые слова в бланк запроса вызванной таким образом другой поисковой системы. Заметим в заключение, что Yahoo предоставляет около млн. ссылок на Web-страницы и это чуть более 0,1 % всего Web-пространства.

3.3 Технология поиска  информации в системе Rambler

Поисковая система Rambler обладает одним из крупнейших индексов в России, но основную популярность она приобрела в первую очередь как рейтинговая система. Она позволяет быстро выявить круг Web-узлов, поставляющих информацию на заданную тему, и оценить их популярность по количеству посещений разными клиентами Internet за последние сутки. Хотя число посещений данного Web-узла далеко не всегда свидетельствует об истинной ценности имеющейся на нем информации, в случае тем, представляющих общественный интерес, такому рейтингу популярности можно доверять.

По умолчанию находятся только те документы, в которых встретились все заданные нами ключевые слова, то есть пробел между словами воспринимается как логическая операция AND. Однако это значение пробела можно переопределить таким образом, чтобы он соответствовал логической операции OR. Для этого в бланке расширенного поиска нужно выбрать опцию “Слова запроса: любое”.

Информация о работе Сравнительный анализ зарубежных и отечественных поисковых систем