Автор работы: Пользователь скрыл имя, 17 Декабря 2011 в 20:06, реферат
Пополнение информационных ресурсов Интернета происходит высокими темпами, и найти необходимую информацию становиться всё труднее. Различные печатные справочники устаревают ещё до выхода в свет. Единственным надёжным способом поиска информации является использование различных поисковых систем, которые постоянно отслеживают изменение информации в сети.
Московский
технический колледж
Реферат
«Поисковые системы.
Составление
запросов»
Студента группы П-729
Вахтанга
Баргузяна
Москва
2005
Поиск информации
Пополнение информационных ресурсов Интернета происходит высокими темпами, и найти необходимую информацию становиться всё труднее. Различные печатные справочники устаревают ещё до выхода в свет. Единственным надёжным способом поиска информации является использование различных поисковых систем, которые постоянно отслеживают изменение информации в сети.
За
время существования Интернета
предпринимались различные
Многие поисковые системы позволяют искать информацию не только в Web-страницах, но и в группах новостей и хранилищах файлов. Таким образом, в результате поиска вы можете найти сообщение в группе новостей или какой-то файл. Поэтому чаще применяют вместо термина страница более общий термин – документ. Под документом подразумеваются Web-страница, сообщение или файл, содержащие различную информацию.
Процесс поиска довольно прост: задавая ключевые слова, характерные для искомой информации, мы найдём нужный нам документ. Вне зависимости от того, какой поисковой системой вы пользуетесь, примерный алгоритм поиска информации следующий.
Во многих поисковых системах поле запроса остаётся на странице во время просмотра результатов, и вы можете быстро уточнить запрос и организовать новый поиск. В большинстве систем список включает в себя кроме ссылок несколько строк каждого из найденных документов, чтобы было легче выбрать нужный.
В некоторых системах списки ссылок отсортированы таким образом, что в начале списка вы получите ссылки на документы, наиболее удовлетворяющие вашему запросу. Например, если в документе много раз встречаются слова запроса и несколько слов, включённых в запрос, расположены в документе рядом, то такой документ более полно удовлетворяет запросу. Так как большинство систем осуществляет интеллектуальный поиск в Интернете, то степень соответствия запросу, определённая поисковой системой, не всегда будет совпадать с вашими представлениями.
Следует отметить, что при выполнении запроса поисковая система не ищет документ непосредственно в Интернете. Она обращается к своей базе данных, где в компактном виде собраны данные об информации в Интернете. Возможно, что реальное состояние Интернета несколько отличается оттого, что храниться в базе данных. Поисковые системы постоянно пополняют и обновляют свои базы данных, чтобы минимизировать такое несовпадение. Существует два способа пополнения информации в базы данных поисковых машин:
Запросы к поисковым системам
Если
верить некоторым недавним исследованиям,
подавляющее большинство
Запросы в Google
(“google.com”
“google.ru”)
Языковые
инструменты
По
умолчанию Google ищет документы на всех
поддерживаемых языках, которых на данный
момент уже добрых три десятка. Кроме этого,
Google умеет разделять сайты по географическому
признаку. Увидеть действие этого инструмента
можно уже при знакомстве со стартовой
страницей поисковика: Google располагает
хорошим выбором «национальных» версий
своего интерфейса, на которых предусмотрен
переключатель поиска во всех документах
или же в определенном подмножестве, выделенном
как раз по национальному признаку. При
желании проверить работу этой функции
можно с помощью whois. При необходимости
можно ограничить поиск документами на
определенном языке. Самый простой способ
— открыть страницу «Языковые настройки»
и выставить их по собственному вкусу.
Там нет ничего сложного, поэтому останавливаться
подробно мы здесь не будем.
Операторы
Язык
запросов — предмет заслуженной гордости
создателей Google. Для составления запросов
применяются специальные командные слова
— операторы. Запросы с использованием
операторов можно составлять в строке
поиска Google на стартовой странице поисковика.
Кроме операторов, в запросе, само собой
разумеется, должны присутствовать и те
слова или фразы, которые вы, собственно,
рассчитываете отыскать. Знакомство с
доступными операторами стоит потраченного
времени, тем более, что похожие возможности
присутствуют и во многих других поисковиках,
поэтому впредь нам уже не придется повторяться.
Перейдем к делу. Общее правило использования
операторов таково: вы указываете оператор,
ставите двоеточие, а затем без пробела
набираете нужное значение, то есть искомое
слово или фразу. Поисковые операторы
Google можно разделить на несколько групп.
Давайте кратко по ним пройдемся. Первая
группа операторов связана с поиском по
определенным ресурсам или в заданных
частях документа. Ограничить поиск каким-либо
конкретным сайтом можно с помощью оператора
site. Так, например, запрос google site:nestor.minsk.by/kg/
вернет ссылки на страницы сайта «Компьютерной
Газеты», на которых упоминается Google. Именно
с помощью данного оператора можно разобраться
в данных сайта, собственная поисковая
система которого может быть не самой
лучшей. Есть здесь и обратная сторона
медали: Google мог проиндексировать не все
документы ресурса, поэтому, применяя
данный способ, стоит помнить про это ограничение.
Еще один способ использования оператора
site — ограничение результатов поиска
определенным доменом. Примеры — site:by,
site:ru.
Перейдем
от уровня сайта к уровню отдельных
элементов страницы. Google позволяет
искать практически по всем значимым
тегам разметки, что представляет
особый интерес. Оператор intitle ищет в заголовках
страниц, то есть в содержимом тега <title>.
Результат, аналогичный применению оператора
intitle, можно получить с помощью страницы
расширенного поиска Google, если внести
в поля поиска свои ключевые слова, после
чего выбрать в меню «Показывать результаты,
содержащие эти слова» пункт «В заголовке
страницы». Особенно хорош данный оператор
в сочетании с другими поисковыми признаками.
Существует два варианта этого оператора:
intitle и allintitle. Разница между ними заключается
в том, что первый оператор ищет в заголовках
только одно заданное вами слово или же
конкретную фразу (в этом случае ее надо
будет заключить в кавычки). Если же вы
примените allintitle, то также сможете искать
сразу несколько слов, однако, в отличие
от поиска по фразе, порядок их расположения
учитываться не будет. Кавычки в данном
случае не понадобятся. Данные операторы
можно комбинировать с простым поиском,
причем получить такую комбинацию с использованием
инструментов расширенного поиска не
так-то просто, поскольку, выбрав нужный
пункт в меню, вы примените его ко всем
словам запроса. Составляя запрос самостоятельно,
вы сможете действовать куда более гибко.
Вот пример подобного запроса:
саммит intitle:оон
Оператор intext в свою очередь ищет в самом тексте документа, и только в нем. Это может принести определенную пользу в случае, например, неинформативных или чересчур широких заголовков, зачастую не релевантных основному содержимому страницы.
Еще одна группа
операторов так или иначе связана
с обработкой ссылок на страницах. Как
и в случае с заголовками, здесь тоже можно
составлять прямые запросы или же воспользоваться
средствами страницы расширенного поиска.
Оператор inanchor обеспечивает поиск в тексте
ссылок, расположенных на странице. Оператор
inurl ищет заданное слово в самой строке
адреса, на который ведет ссылка. Оператор
link позволяет отловить документы, в которых
содержится ссылка на конкретную страницу,
найдя тем самым ресурсы, процитировавшие
сведения, взятые с конкретной страницы.
Марс inanchor:lenta.ru
Оператор filetype отвечает
за поиск по определенным типам файлов
(pdf, ps, rtf, doc, xls, ppt и др.) благо Google здесь
действительно есть чем похвастаться
— набор типов файлов действительно хорош.
Наконец, есть группа операторов, предоставляющих
ряд дополнительных возможностей Google.
Оператор related дает возможность искать
страницы, содержание которых подобно
контенту уже известной вам страницы (“similar
pages”). Пользуясь данным оператором, будьте
готовы к тому, что результаты такого поиска
не всегда бывают точными. Как известно,
Google сохраняет копии индексируемых документов.
Получить такую версию можно с помощью
оператора cache, после которого указывается
URL требуемой страницы. Полезная вещь при
работе с часто изменяющимися ресурсами.
Еще один служебный оператор — info — выдает
сведения о странице, адрес которой вы
укажете.
info:rumodelism.com
Работа
с URL
Любой запрос к
Google можно представить в виде
ссылки, ведущей на страницу результатов
поиска. Эти страницы динамические
и генерируются при поступлении
вашего запроса. Благодаря этому вы можете
получить свой список результатов как
воспользовавшись веб-интерфейсом Google,
так и перейдя по соответствующим образом
сконструированной ссылке, причем результат
будет совершенно одинаковый. Такую ссылку
можно сохранить в закладках браузера
или другом нужном месте. Обращаясь к ней
время от времени, вы будете получать свежие
результаты поиска по данному запросу,
что может быть весьма удобно. Давайте
вкратце рассмотрим синтаксис такого
прямого URL-запроса. Простейшая ссылка-запрос
к Google, которая будет искать страницы о
самом Google выглядит так:
www.google.com/search?q=google
Главный параметр
здесь — search?q=, после которого идет
сам запрос. В более сложных
вариантах добавляются новые
параметры, указывающие различные поисковые
признаки и условия, включенные в запрос.
Именно они и выступают в роли своеобразных
«кирпичиков», из которых составляется
URL запроса. Взаимное расположение дополнительных
параметров может быть любым. Это значит,
что вы можете ставить их в том порядке,
в котором вам удобно — для Google нет никакой
разницы, и это стоит учесть. Прямая работа
с URL полезна, когда вам периодически приходится
делать повторяющиеся сложные запросы.
Затраты времени на однократное составление
такого запроса и последующую подстановку
нужных ключевых слов намного меньше затрат
на постоянную работу с расширенным поиском.
Меняя переменные части запроса, вы сможете
использовать однажды сконструированную
сложную ссылку для поиска по разным ключевым
словам или другим поисковым признакам.
Такой подход используется в некоторых
программах, предназначенных для работы
с интернет-поисковиками. Некоторые наиболее
востребованные параметры, используемые
в URL запросов к Google, приведены в таблице.
Всего их несколько десятков. Самостоятельно
выявить недостающие параметры можно
составляя запросы с помощью веб-интерфейса
и отслеживая изменения, происходящие
в адресе страницы результатов. Поэкспериментируйте,
и все быстро станет на свои места.
Переменная
Значение
Оператор | Описание |
Num maxResults | Количество результатов на странице |
Filter | Фильтр потенциально дублирующихся результатов. Имеет два значения: 0 (не показывать дубликаты) и 1 (показывать дубликаты) |
hl | Код языка, используемого Google при показе результатов (не имеет отношения к переводу страниц или их языку) |
restrict | Отбор результатов по географическому признаку. Необходимо указать код страны |
lr | Отбор результатов по языковому признаку. Необходимо указать код языка (например, ru) |
as_oq | Команда найти хотя бы одно из нескольких заданных слов (аналог оператора ИЛИ) |
as_epq | Поиск фразы |
title | Поиск в заголовках |
body | Поиск в тексте документа |
url | Поиск в URL на странице |
links | Поиск в ссылках |
as_rq | Страницы, подобные указанной |
as_lq | Страницы, ссылающиеся на указанный документ |
as_ft i | Поиск документов указанных форматов. Если ставится ‘i’, то указанные типы документов включаются в запрос, если ‘e’ — исключаются из запроса. Пример: as_ft i =pdf |
as_dt i | Поиск только по конкретному домену или сайту. Если указывается ‘i’, указанный адрес включается в запрос, если ‘e’ — исключается из запроса. |
as_sitesearch | Включить домен или сайт в поиск |