Информационно-поисковые системы

Автор работы: Пользователь скрыл имя, 12 Декабря 2012 в 02:05, реферат

Описание работы

Управленческая деятельность в России, как и во всех развитых странах, осуществляется с помощью документов, которые одновременно являются источником, результатом и инструментом этой деятельности. В современном учреждении основными технологическими инструментами работы с документами являются компьютеры, установленные на рабочих местах исполнителей и объединённые в сеть. Если компьютерная сеть охватывает все рабочие места делопроизводственного персонала в структурных подразделениях организации, то появляется возможность использовать сеть для перемещения документов.

Содержание работы

1.Введение
2. Понятие информационно-поисковой системы (ИПС). 3
2.1. Состав компонент и технология работы с ИПС…………………………………………. 3
3. Классификация и характеристика методов поиска 10
4. Классификация систем DMS. 15
4.1. Характеристика систем, используемых для организации архивов……………………. 15
5. Заключение 18
6. Литература 19

Файлы: 1 файл

Реферат ДУД.doc

— 145.50 Кб (Скачать файл)

Используя формальный синтаксис, или язык запросов, система двоичного  поиска выбирает точное соответствие для отдельного слова или цепочки  слов. Это самый простой вид  поиска документа по содержанию, но и самый слабый вид поиска, что  выражается в малой полноте (это означает, что редко удается найти нужный документ).

Недостатки. Системы двоичного поиска имеют ограничения по точности, влияющие на возможность нахождения всей относящейся к запросу информации. В методах двоичного поиска не учитываются различные формы значения слов; пользователю непросто угадать точные слова и фразы, которые были использованы авторами в документах. Системы двоичного поиска не могут также ранжировать документы по степени соответствия запросу, поэтому пользователь вынужден читать каждый документ, чтобы определить, насколько он соответствует запросу. Повышению полноты поиска по строке служат такие стандартные средства, как отождествление заглавных и малых букв и использование метасимволов, наподобие «*» (что означает любое количество каких-либо символов).

Другим способом повышения  полноты поиска служит поиск слов в разных грамматических формах. Почти любое русское слово — это набор из нескольких словоформ. Для среднего русского существительного таких форм двенадцать — одна основная и 11 косвенных (6 падежей единственного и 6 — множественного числа). У русского глагола косвенных форм — порядка 100 (а если считать причастия, то и все 180). В процессе словоизменения общий смысл слова остается тем же, изменяется только форма и роль слова в предложении. Нужен так называемый морфологический поиск, то есть поиск, опирающийся на знание морфологии языка, поскольку в языке есть еще и процессы словообразования, в ходе которых образуются «родственники» слова — другие части речи, например, от слова «акция» получаются «акционерный» и «акционировать». Существует два способа осуществления морфологического поиска:

- Бессловарный метод. Программа, основанная на этом методе, выявляет основу каждого слова и отсекает окончания слов при обработке запроса, а затем «приклеивать» их при поиске. Кроме того, у программы есть возможность соотнести окончание, отсеченное у искомого слова, с окончаниями найденных слов.

- Поиск «со словарем». Чтобы искать формы заданного слова более точно, поисковая система должна иметь словарь основ. Такой словарь состоит из списка основ слов, ссылки от которых указывают на соответствующие наборы окончаний. Некоторое снижение скорости поиска при использовании словаря обычно компенсируется существенно возросшей точностью. Качество поиска повышается, если применять поиск по логической комбинации слов, поскольку шум резко снижается при поиске не по одному, а по двум и более словам. Это происходит потому, что отдельное слово может встретиться где угодно в тексте, а вероятность совместного вхождения двух или трех искомых слов в ненужный документ гораздо ниже. При этом методе слова в запросе соединяются логическими операторами «И», «ИЛИ», «НЕ». В некоторых поисковых системах имеется возможность использовать в запросе скобки. Таким образом, пользователь может ввести для поиска целое логическое выражение, состоящее из слов, а также иногда и других внешних характеристик — даты, размера и т.п., например, «(приложение И договор) ИЛИ (соглашение И договор)». Такое логическое выражение называется булевой формой, а сам поиск — булевым.

Более простым в технической  реализации является метод поиска по близости (proximity search). Пользователь может  задать, на каком расстоянии друг от друга должны находиться искомые слова, например «не далее 5 слов» или «не далее 3 строк». Альтернативой логическому запросу служит поиск по запросу на естественном языке. Промежуточным шагом к облегчению формулирования запроса является возможность в некоторых системах логического поиска задать так называемый нечеткий запрос (quorum search). Это означает, что пользователь задает запрос в виде множества из нескольких слов, а система находит все документы, в которые входят только некоторые слова из заданного множества (например, любые пять из семи заданных). Подбирать множество слов и задавать «процент явки» пользователю приходится самому.

Поиск по запросу  на естественном языке. Существуют системы, позволяющие искать текст по запросу, сделанному в виде обычного предложения (часто поиск по запросу на естественном языке также называют нечетким поиском). Модуль обработки естественно-языкового запроса независим от самой поисковой системы и «на выходе» может работать с логическим поиском.

Ранжирование  результатов поиска. Когда документы, содержащие слова запроса, обнаружены, поисковая система должна предъявить их пользователю в некотором порядке. Обычно найденные документы тем или иным способом «взвешиваются» на предмет близости к запросу (ранжируются) и показываются в порядке уменьшения этой близости. Как правило, для вычисления веса - ранга используются разные алгоритмы: учитываются общее количество слов запроса в документе, близость их друг к другу в тексте документа, наличие компактных групп, соответствие грамматических форм и т. д.

Группа статистических методов основываются на расчете различных частотных характеристик: частоты вхождения слова в документ, взвешенной частоты вхождения и частоты совместного вхождения нескольких слов.

Семантический поиск. Следующий шаг в развитии поисковых систем - это так называемый семантический (то есть смысловой) поиск, основанный на построении и использовании базы знаний, с помощью которой осуществляется поиск информации на основе использования концептуальных отношений, которые не применяются при статистическом поиске.

Существует несколько способов представления знаний.

Применение  файла синонимов, что позволяет при ответе на запрос учитывать не только термины, которые непосредственно указаны в запросе, но и все другие слова, близкие к ним по значениям. Другой известен как подход на основе использования лингвистических правил, при этом, разработчик создает систему лингвистических правил, которые используются для анализа или грамматического разбора текстовой базы данных. Этот метод анализа определяет ключевые слова и понятия, объединяющиеся в базу знаний, которая отражает содержание конкретной базы данных. Наиболее часто используется подход основанный на использовании ссылочных документов, и в том числе обычных словарей и словарей терминов. Этот подход основан на смысловых значениях слов и называется семантической сетью. Как и словарь, семантическая сеть содержит множество определений для каждого хранимого слова. Однако определение родственных слов и понятий связываются между собой. Значения слов, наиболее подходящие для данного поиска, могут быть выбраны самим пользователем с целью повышения точности этого поиска. Подход, основанный на построении семантических сетей, доступен для расширения и не слишком громоздок при эксплуатации.

 

 

 

        4. Классификация систем DMS.

          4.1. Характеристика систем, используемых для организации архивов.

 

В настоящее время  на рынке систем DMS (Система управления документами (DMS от англ. Document management system) — набор компьютерных программ, используемых для отслеживания и хранения электронных документов и/или образов бумажных документов.) предлагается около 500 программных продуктов. Все существующие системы управления документами можно разбить на три категории, отражающие и эволюцию таких систем по технологии ввода, индексирования и поиска документов:

1. Системы, основанные  на технологии использования  ключевых слов для индексации  и поиска документов.

2. Системы, опирающиеся на автоматизированном вводе и загрузке документов в архив и включающие поиск по полнотекстовому индексу.

3. Системы, основанные  на применении метода "адаптивного  распознавания текста".

Системы, относящиеся  к первому поколению, появились в середине 80- х годов. Технология работы с ними опирается на использование ключевых слов для индексации и поиска документов. Другими словами, после того как документ введен или отсканирован и получен его графический образ, необходимо приписать образу каждого документа набор ключевых слов, которые затем индексируются, и используются для поиска информации.

Серьезные ограничения  при использовании систем первой категории связаны со следующими обстоятельствами:

- определение ключевых  слов - достаточно субъективный процесс; даже при участии самого независимого эксперта трудно избежать односторонности при выборе ключевых слов;

- определение ключевых  слов - достаточно дорогостоящая  процедура из-за невозможности  автоматической индексации и  низкой производительности при определении ключевых слов вручную;

- предполагается, что  пользователи будут осуществлять поиск информации предсказуемым способом, используя предопределенные ключевые слова;

          - поиск по ключевым словам - это четкий поиск, - пользователь точно должен знать, что он ищет. Если сделана ошибка при написании ключевого слова в запросе для поиска, система никогда не найдет нужную информацию;

- ключевые слова могут  со временем меняться (понятия,  которые были "ключевыми" вчера,  вовсе не обязательно будут столь же важны через год).

В силу вышеперечисленных  причин данный класс систем имеет  ограниченное применение для хранения и поиска документов в специализированных архивах конкретных организаций  или используется для хранения и  поиска книг в библиотеках различного типа.

Простейшие средства поиска документов по содержанию входят в состав текстового процессора Microsoft Word. Как и большинство других стандартных  средств, эта функция ищет заданный текст только буквально, т. е. требует  полного соответствия текста запросу и при этом ничего не знает о большом разнообразии форм русских слов. Если, например, проводится поиск по фразе из пяти слов, то будут найдены только тексты, содержащие каждое из них, причем именно в заданной форме. Поэтому в случае, когда пользователь помнит содержание нужного документа только в общем (а так чаще всего и

бывает), подобные средства поиска малоэффективны. Аналогичные  проблемы возникают при поиске текстовой  информации в Internet, которая располагает  большим количеством поисковых систем (например, AltaVista, HotBot, InfoSeek и др.), обеспечивающих доступ к десяткам миллионов документов. Возможности поиска здесь, конечно, намного более развитые, чем в Microsoft Word, однако говорить о высокой эффективности также не приходится. Можно отметить следующие основные недостатки стандартных поисковых средств и поисковых систем Internet:

 

1. Отсутствие поиска на частичное совпадение - так называемого нечеткого поиска (находятся только документы, содержащие все слова запроса, поэтому достаточно одно слово запроса заменить на синоним, и нужный документ не будет обнаружен);

2. Отсутствие так называемого морфологического анализа (например, слова bond и bonds при поиске считаются разными);

3. Низкое качество ранжирования (упорядочивания) документов по убыванию степени соответствия запросу - в начале списка часто оказываются документы, не отвечающие запросу, а нужные документы выдаются после них;

4. Высокий уровень шума: случается, пользователю предлагаются документы, не содержащие ни одного слова запроса;

5. При выдаче документов никак не выделяются вхождения слов запроса в просматриваемый документ, что в совокупности с низким качеством ранжирования приводит к большим затратам времени при анализе найденных документов.

В настоящее время  получили массовое применение системы второй категории, опирающиеся на автоматизированный полнотекстовый ввод, загрузку документов в архив и осуществляющие поиск по полнотекстовому индексу. Технология работы этих систем основана на автоматизированном вводе документов и чтении их с помощью сканера, преобразовании графических образов в текстовые файлы. Поиск информации в таких системах происходит с использованием семантических, статистических методов и с применением механизмов полнотекстового поиска (Full Text Retrieval.).

 

 

 

 

 

 

5. Заключение

 

В настоящее время  наличие успешно действующей электронной информационно-поисковой системы в делопроизводстве и документообороте говорит о благополучии учреждения и его руководства. Это означает полную управляемость подчинённых руководству аппарата, их компетентность, солидарность, дисциплинированность и заинтересованность в максимально успешном выполнении порученного дела. 
Информационно-поисковая система представляет возможность производить оперативный и эффективный обмен информацией между всеми участками производственного процесса, позволяет сократить время, требуемое на подготовку конкретных задач, исключить возможное появление ошибок подготовки отчётной документации.

В заключение хочется  отметить, что внедрение электронных поисковых систем обеспечивает удобство в работе, рациональную организацию производства и снижение психологических нагрузок. Также снижаются физиологические нагрузки, т.к. с внедрением соответствующего программного обеспечения время, затраченное на эту же работу, существенно уменьшается. Это положительно влияет на работоспособность работника, т.к. ведёт к уменьшению количества обрабатываемой информации, а также у персонала появляется дополнительное время для анализа и принятия управленческих решений. 

 

 

 

 

 

 

 

 

6. Литература

 

  1. Смирнова Г.Н., Проектирование Систем электронного документооборота: Учебное пособие. – М.: Изд-во МГУЭСиИ, 2008.
  2. Учебное пособие по курсу «Проектирование Систем электронного документооборота»

          http://rudocs.exdat.com/docs/index-33249.html?page=18

     3) Кузнецов  С.Л., Делопроизводство на компьютере: Компьютерные технологии в делопроизводстве. М.: ЗАО «Бизнес-школа «Интел-Синтез», 2009.




Информация о работе Информационно-поисковые системы