Информационно-поисковые системы

Автор работы: Пользователь скрыл имя, 12 Декабря 2012 в 02:05, реферат

Описание работы

Управленческая деятельность в России, как и во всех развитых странах, осуществляется с помощью документов, которые одновременно являются источником, результатом и инструментом этой деятельности. В современном учреждении основными технологическими инструментами работы с документами являются компьютеры, установленные на рабочих местах исполнителей и объединённые в сеть. Если компьютерная сеть охватывает все рабочие места делопроизводственного персонала в структурных подразделениях организации, то появляется возможность использовать сеть для перемещения документов.

Содержание работы

1.Введение
2. Понятие информационно-поисковой системы (ИПС). 3
2.1. Состав компонент и технология работы с ИПС…………………………………………. 3
3. Классификация и характеристика методов поиска 10
4. Классификация систем DMS. 15
4.1. Характеристика систем, используемых для организации архивов……………………. 15
5. Заключение 18
6. Литература 19

Файлы: 1 файл

Реферат ДУД.doc

— 145.50 Кб (Скачать файл)

РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ 

ТОРГОВО-ЭКОНОМИЧЕСКИЙ УНИВЕРСИТЕТ

 

 

 

 

Кафедра менеджмента в сфере услуг

 

 

РЕФЕРАТ

по дисциплине «Документирование управленческой деятельности» на тему:

Информационно-поисковые  системы

 

 

 

              Работу выполнил:

                                            Студент 3ого курса группы ФУ-33в

                Колесникова Юлия

 

                                        Проверил:

                                             Зам. зав. кафедрой по научной                                  

                                             работе, доцент, к.т.н. 
                                                        Некрасов Михаил Иванович

 

 

 

 

 

 

 

Москва – 2012

       

Содержание работы:

         

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  1. Введение

 

Управленческая деятельность в России, как и во всех развитых странах, осуществляется с помощью документов, которые одновременно являются источником, результатом и инструментом этой деятельности. В современном учреждении основными технологическими инструментами работы с документами являются компьютеры, установленные на рабочих местах исполнителей и объединённые в сеть. Если компьютерная сеть охватывает все рабочие места делопроизводственного персонала в структурных подразделениях организации, то появляется возможность использовать сеть для перемещения документов. Россия пока не перешла полностью на электронный документооборот и каждая организация располагает обязательным наличием бумажного подлинника любого документа даже при существовании электронного варианта. Для удобства и экономии времени поиска нужных документов созданы специальные поисковые системы. Они существуют отдельно для бумажных носителей – архивы. И для электронных – компьютерные программы  DMS. Целью работы является знакомство с понятием информационно-поисковой системы (ИПС), составом компонент и технологией работы с ИПС, классификацией и характеристикой методов поиска, а также классификацией систем DMS.

 

 

 
 
 

 

 

 

 

          2. Понятие информационно-поисковой системы (ИПС).

2.1. Состав компонент и технология работы с ИПС

 

В работе современных  предприятий важную роль играют его  информационные ресурсы, под которыми можно понимать проектную документацию, переписку с партнерами, внутренние приказы и распоряжения, финансовые данные и другие документы, которые служат основой для принятия новых решений и используются в процессах управления предприятием. И если для хранения структурированных данных можно применять специализированные информационные системы (типа бухгалтерской или торговой системы или системы планового отдела), основанные, на использовании СУБД (Системы управления базами данных), то для неструктурированных данных нужны системы общего назначения - электронные архивы, работающие на принципах информационно-поисковой системы.

Информационно-поисковая  система (ИПС) - это система, предназначенная для хранения и поиска документов с текстовой, графической, табличной информацией по атрибутам, ключевым словам документа и содержанию в какой-либо предметной области. Выделяют ИПС двух типов: фактографические и документографические системы. ИПС фактографического типа предназначены для хранения и поиска фактов, показателей, характеристик каких-либо объектов или процессов (например, сведения о работниках, о предприятиях, акционерах и т.д.). Документографические ИПС отличаются тем, что объектом хранения и поиска в этих системах служат документы, отчеты, рефераты, обзоры, журналы, книги и т.д. Сценарий поиска документа при помощи ИПС обычно сводится к вводу запроса на поиск, состоящего из одного или нескольких слов, после чего предъявляется список имен найденных документов. Пользователь может открыть любой из найденных документов и если поисковая система позволяет, вхождения искомых слов в документе выделяются - «подсвечиваются».

Можно выделить следующие особенности организации и функционирования документографической ИПС, отличающие ее от систем управления базами структурированных данных:

- Документы могут  храниться на бумаге, микрографических носителях или существовать в электронных форматах. Микрографические форматы включают микрофильмы, микрофиши, слайды и другие микроформы, производимые разнообразными документными камерами. Электронные форматы еще многочисленнее, они включают документы, подготовленные в текстовых процессорах, системах электронной почты и других компьютерных программах, оцифрованные изображения прошедших сканирование документов и проч. При этом предполагается обязательное хранение как электронных копий документов, так и их бумажных оригиналов.

- Если документы  занимают большой объем и полные  электронные копии выдавать на просмотр или хранить невозможно, то для таких документов создают и хранят электронные адреса их хранения.

- Поиск осуществляется  нахождением документа по двум принципам: по атрибутам документа - дате создания, размеру, автору и пр. и по его содержанию (тексту). Обычно поиск по содержанию документа выполняется двумя способами: по ключевым словам и по всему тексту, который называют полнотекстовым, подчеркивая тем самым, что для поиска используется весь текст документа, а не только его реквизиты.

- Для поиска  документов создают и хранят  их поисковые образы.

Поисковый образ документа (ПОД) – это совокупность кодов ведущих ключевых слов (дескрипторов), которые описывают смысл, содержание документа.

- Ключевые слова  и их коды хранятся в специальном  словаре - тезаурусе.

- Для того, чтобы  осуществлять поиск документов, нужно создать информационно-поисковый язык (ИПЯ), в состав которого входит тезаурус и грамматика языка, т.е. совокупность правил задания множества высказываний на множестве ключевых слов.

- Чтобы отыскать  документ, нужно создать с помощью  ИПЯ поисковый образ запроса (ПОЗ), который представляет собой совокупность закодированных ключевых слов, описывающие те документы, которые нужно найти.

Схема взаимодействия компонентов ИПС представлена на рис.1.

 

Рис. 1. Схема  взаимодействия компонентов ИПС                             

ИПС состоит  из следующих обеспечивающих подсистем:

- лингвистическое обеспечение, включающее в свой состав информационно-поисковый язык;

- техническое  обеспечение системы, включающее  ЭВМ и устройства создания, хранения, чтения и размножения копий  на бумажных носителях, в микроформатах  и в электронной форме;

- информационное обеспечение, состоящее из БД (Баз данных) документов (БД Док.), адресов (БД Адр.) и БД поисковых образов документов (БД ПОД) и списков дескрипторов и их кодов - тезауруса;

- программное  обеспечение.

Программное обеспечение  ИПС предназначено для автоматизации следующих основных функций, которые должна выполнять эта система:

- составления,  кодирования и загрузки базы  данных ПОД;

- загрузки БД  документов и их адресов хранения;

- составления,  кодирования ПОЗ;

- выполнение  операции поиска и выдачи ответа на запрос в виде документа или адресов хранения документов на экран ЭВМ, на бумагу, в файл;

- актуализация  баз данных ПОД, документов  и адресов;

- актуализация  тезауруса;

- выдача справок.

Рассмотрим основные понятия, употребляемые в сфере  поиска документов.

Релевантность - степень соответствия найденного документа запросу. Найденный по запросу документ может иметь отношение к запросу, т. е. содержать нужную (искомую) информацию, а может и не иметь никакого отношения. В первом случае документ называется релевантным (по-английски relevant - «относящийся к делу»), во втором - нерелевантным, или шумовым. Как правило, в любой поисковой системе по запросу выдается несколько (чаще много) найденных документов. Многие из них могут повествовать не о том. И наоборот, некоторые важные, релевантные, документы могут быть пропущены при поиске. Ясно, что количество тех и других определяет качество поиска, которое можно определить достаточно точно. Основными понятиями в мире поисковых средств являются идеи точности и полноты поиска.

Точность  поиска (Т)  определяется тем, какая часть информации, выданная в ответ на запрос, является релевантной, т.е. относящейся к этому запросу и является параметром, показывающим, какова доля релевантных документов в общем числе найденных. Этот показатель рассчитывается по формуле:

Если, например, все выданные по запросу документы  относятся к делу, то точность равна 100%; если, напротив, все документы шумовые, то точность поиска равна нулю.

Полнота поиска (П) - дополнительный параметр, показывающий, какова доля (или процент) найденных релевантных документов в общем количестве релевантных документов, т.е. характеризуется соотношением между всей релевантной информацией, имеющейся в базе, и той ее частью, которая включена в ответ и рассчитывается по формуле:

Если в области поиска на самом деле имеется 100 документов, содержащих нужную информацию, а по запросу найдено из них всего 30, то полнота поиска равна 30%. Кроме этого при оценке поисковых систем учитывается, с какими  типами данных может работать та или иная система, в какой форме  представляются результаты поиска и какой уровень подготовки пользователей  необходим для работы в этой системе.

Следует отметить, что  точность поиска и его полнота  зависят не только от свойств поисковой  системы, но и от правильности построения конкретного запроса, а также от субъективного представления пользователя о том, какая  нужна ему информация. Если стоит проблема оценки нескольких систем и  выбора наиболее эффективной, можно вычислить средние значения полноты и точности рассматриваемых конкретных систем, протестировав их на эталонной базе документов.

Индексация  документов (т.е. составление ПОД), которая означает предварительную подготовку текстов для поиска и применяется главным образом для ускорения поиска; как правило, текстовые базы данных, предназначенные для многократного поиска, обрабатывают заранее, составляя так называемый индекс (ПОД). При индексации поисковая система составляет списки слов, встречающихся в тексте, и приписывает каждому слову его код - координаты в тексте (чаще всего номер документа и номер слова в документе).

При поиске слово ищется в индексе, и по найденным координатам  выдаются нужные документы. Если слов в запросе несколько, над их координатами производится операция пересечения. В том случае, если множество документов пополняется, приходится пополнять и индекс.

Единица поиска - это квант текста, в пределах которого в данной поисковой системе осуществляется поиск, от величины которого зависит показатель точности поиска, величина шума и время ответа на запрос.

Единицей поиска может быть документ, предложение или абзац.

В технологии использования ИПС  можно выделить три группы операций:

- операции, связанные с получением  поисковых образов документов (ПОД), описывающих содержание документов и загрузкой их в базу данных (БД ПОД), а также загрузкой самих документов или их адресов хранения в БДДок. и БДАдр.;

- операции составления поисковых  образов запроса (ПОЗ) с использованием  тезауруса, поиска и выдачи  результатов на просмотр и отбор или файл или на печать найденных документов или списка адресов;

- операции ведения информационно-поисковой  системы, включающие актуализацию  БД ПОД, БДДок., БДАдр. и тезауруса  вследствие возникновения и необходимости пополнения памяти системы новыми документами или ключевыми словами.

В состав операций ведения ИПС входит также процедура выдачи справок  о работе системы, о ее структуре, методах поиска, классах и видах хранимых документов.

3. Классификация и характеристика методов поиска

 

Одной из проблем организации СУД является выбор метода поиска и разработка или выбор программного обеспечения, что в значительной степени зависит от применяемых методов индексирования. Как было сказано выше, индексирование загружаемой на хранение информации может осуществляться по ключевым словам, по атрибутам документа либо путем создания полнотекстового индекса. Суть последнего подхода заключается в том, что при создании индексного файла (индексированной матрицы) в него вносятся все значимые слова (без союзов, предлогов и т. п.) из всех документов в алфавитном порядке, которые затем объединяются в пары с указателями на документы, содержащие эти слова.

Задача поиска нужного документа  формулируется так: зная примерные  характеристики документа, нужно найти  его, где бы он ни хранился.

Характеристики документа могут  быть как внешние (атрибуты документа): название, время создания, автор, размер документа, местонахождение и др., так и внутренние (содержание документа): заголовок, текст документа. Как  правило, осуществляют поиск документов по совокупности внешних и внутренних характеристик, но если документов много, и если необходимо осуществлять поиск документов, согласно ситуации, то нужный документ отыскивают по его содержанию (тексту), а не по реквизитам (атрибутам).

Существует несколько  методов поиска документов по содержанию.

Традиционные подходы к организации  поиска информации можно разделить  на три группы: методы индексного (или двоичного) поиска, статистические методы и семантические методы, основанные на базах знаний. Рассмотрим некоторые из них.

Индексный, или двоичный, поиск применятся главным образом со структурированными базами данных. В таких методах слова интерпретируются как последовательности закодированных символов.

Информация о работе Информационно-поисковые системы