Классификационные системы поиска документов

Автор работы: Пользователь скрыл имя, 19 Марта 2013 в 08:39, реферат

Описание работы

Информационно-поисковые каталоги основаны на классификации сведений по определенной предметной области и исторически были первыми системами информационного поиска документов в библиотечном и архивном деле, возникнув еще в средние века по сложившейся тогда схеме разделения наук и искусств.

Содержание работы

Введение ………………………………………………………………………….3
Классификационные системы поиска документов. Перечислительная
классификация. Иерархическая классификация. Фасетная классификация ..4
Заключение……………………………………………………………………....11
Список литературы…………………………......................................................12
Приложение 1 …………………………………………………………………...13

Файлы: 1 файл

Кр ипс.docx

— 127.03 Кб (Скачать файл)

 

                                                           Содержание

 

     Введение ………………………………………………………………………….3

     Классификационные системы поиска документов. Перечислительная     

     классификация. Иерархическая классификация. Фасетная классификация ..4

     Заключение……………………………………………………………………....11

     Список  литературы…………………………......................................................12

     Приложение 1 …………………………………………………………………...13

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение

              Информационно-поисковые каталоги основаны на классификации сведений по определенной предметной области и исторически были первыми системами информационного поиска документов в библиотечном и архивном деле, возникнув еще в средние века по сложившейся тогда схеме разделения наук и искусств.

              Современные библиотечные классификации основываются на системах десятичной классификации Дьюи (1876 г.) и правил построения алфавитно-предметных рубрик Ч. А. Каттера (1876 г.). Впоследствии на развитие информационно-поисковых каталогов огромное влияние оказали работы С. Р. Ранганатана (система аналитико-синтетической классификации двоеточием -- Colon Classification, 30-е гг.), У. Е. Баттена (карты Баттена на основе оптического совпадения, 30-е -- 40-е годы), К. Муерса (дескрипторная система «Зато-кодирования», 1947-1948 гг.) и М. Тауба (система унитермов Тауба, 1951 г.). В России первые отечественные системы библиотечно-библиографической классификации были разработаны в XIX веке ученым-натуралистом П. К. Демидовым и академиком К. Э. Бэром.

               Актуальность темы подтверждается  массовой потребностью в поиске  информации, а так же в необходимости  ее правильного классифицирования  для быстрого поиска.

 

 

 

 

 

 

 

 

Классификационные системы поиска документов. 
Перечислительная классификация. Иерархическая классификация. Фасетная классификация.

        

               Основные направления развития систем классификационного индексирования документов можно наглядно проиллюстрировать схемой, которая представлена в приложении 1. Первоначальные подходы к классификации тематики (предмета) документов основывались на формировании списка предметных заголовков, располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно-цифровой код. Содержание (предметы) документа индексировалось перечислением кодов тех рубрик, которые отражали предметы документа. Такие подходы получили название перечислительной классификации. 
             Особенностью систем перечислительной классификации является возможность индексирования документов любым количеством предметов (рубрик), отражающих содержание документа. Для осуществления поиска необходимых документов по классификатору (каталогу) определяются коды интересующих абонента предметов (рубрик) и далее отбираются из хранилища те документы, которые проиндексированы соответствующими кодами. Для удобства поиска и отбора по каждому документу формируется специальная карточка, на которую наносится информация о кодах предметных рубрик документа, а также, как правило, об авторе, названии и др. библиографических данных документа, его физическом местонахождении, и реферат, который уже на естественном языке в сжатом виде отражает содержание документа. Поиск и отбор документов осуществляется по отбору карточек с необходимыми индексными кодами для последующего извлечения из хранилища самих документов.

                 Перечислительная классификация иллюстрируется на рис. 1. 
 
 
Рис.1. Индексирование документов на основе перечислительной классификации 
                 В приведенном на рис. 1 примере документ № 1, в котором речь идет об описании патента по технологии закалки с отпуском, проиндексирован кодами 003 (Закалка), 005 (Закалка с отпуском), 008 (Патентирование) и 012 (Термическая обработка). Документ № 2 с описанием патента по черному отжигу проиндексирован кодами 007 (Отжиг), 008 (Патентирование), 012 (Термическая обработка) и 014 (Черный отжиг). 1

                Отсутствие систематизированных связей и отношений между предметными рубриками является основным недостатком перечислительной классификации. Так, в приведенном примере рубрика «Закалка отпуском» является под рубрикой рубрики «Закалки» и интуитивно ясно, что если документ получил код «Закалки отпуском», то тем самым он автоматически относится и к более широкой рубрике «Закалка».

                Приемом, способствующим в определенной степени преодолению данного недостатка, является использование в списке рубрик специальных перекрестных ссылок через конструкцию «см. также». В этом случае в классификаторе вместе с рубрикой «Закалка» помещается следующая конструкция: «см. также Закалка в закалочной ванне Закалка с отпуском». Перекрестные ссылки ориентируют пользователя на смысловую связь некоторых рубрик, позволяя более адекватно строить выражение своих информационных потребностей.

              При систематизированной классификации список предметных рубрик строится, как иерархическая структура, в виде перевернутого дерева. Вся предметная область ИПС разбивается на ряд взаимоисключающих (непересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик по принципу «Род-Вид». Таким образом, при систематизированной классификации используются уже некоторые семантические основы предметной области, выражаемые в родо-видовых отношениях основных категорий, понятий и классов. Представление иерархической классификации производится либо в виде древовидного графа рис. 2 а), либо в табличном виде рис. 2 б).

 
 
Рис. 2. Древовидная а) и табличная формы б) представления иерархической классификации

                 Так же, как и при перечислительной классификации, содержание документа индексируется кодами соответствующих рубрик, однако при этом отпадает необходимость в явном указании более общих рубрик, к которым относятся отмеченные подрубрики. В результате индексирование и поиск документов на основе иерархической классификации позволяют более адекватно отражать содержание документов и обеспечивают большую точность поиска. Так, документ из предыдущего примера с описанием патента по технологии закалки с отпуском на основе иерархической классификации может быть проиндексирован только рубрикой «Закалка с отпуском», обозначение которой включает указание на автоматическое отнесение содержания документа и к более широкой рубрике «Закалка» и к еще более широкой рубрике «Термическая обработка».

          Перечислительный и иерархический подходы к классификации впоследствии воплотились в широко используемых в библиотечной практике алфавитно-предметных каталогах, наиболее распространенным из которых в настоящее время является универсальная десятичная классификация (УДК). В основе УДК лежит классификационная схема Дьюи, дополненная правилами образования сложных рубрик, а также специальными определителями, служащими для более детального описания документов (определители формы и характера документа, определители времени и т. д.). При этом систематизированная классификация позволяет строить сам каталог (картотеку документов) в структурно-иерархическом виде (каждый класс каталога—ящик с набором карточек документов с соответствующим содержанием) что существенно упрощает выражение пользователем своих информационных потребностей, и, тем самым, ускоряет и повышает точность поиска.2

            Недостатком как перечислительной, так и иерархической классификации является принципиальная невозможность заранее перечислить все темы, по которым существуют или могут существовать документы. Выход из таких ситуаций путем добавления к классификатору новых рубрик (классов, предметов) не может эффективно решить проблему, так как требует в таких случаях переиндексирования всего ранее накопленного документального фонда, что чаще всего нереально по техническим и технологическим аспектам.

              Принцип организации классификационного индексирования документов, преодолевающего в определенной степени такие ограничения перечислительной и иерархической классификации, был предложен в 30-х годах выдающимся индийским библиотековедом и математиком Ш.Р. Ранганатаном, развит впоследствии в работах английской группы по исследованию классификаций (Classification Research Group) и получил название аналитико-синтетической или иначе фасетной классификации. Идея фасетной классификации состоит в том, что вся предметная область сведений разбивается на ряд исходных групп рубрик (фасет) по организационно-технологическому или семантическому принципу, отражающему специфику предметной области.

               Фасеты выступают в роли «кирпичиков», из которых можно сложить (сконструировать) любую, даже самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархическому принципу. Так, к примеру, предметная область документов по производству технологического оборудования разбивается на четыре фасета — «Конфигурации», «Материалы», «Типы разрушений» и «Напряжения и нагрузки». На основе соединения подрубрик фасет «конструируются» любая конкретная и узкая тематика — см. рис. 3.

               В фасетной классификации, фрагмент которой приведен на рис. 3, документ, где речь идет о нагрузках на сжатие трубчатых конструкций из никелевых сплавов, получит индекс Ac Bgt Lg, который будет отражать достаточно узкую тематику, исключая, как и в иерархической классификации отбор документов с более широкими рубриками.3

 

Рис. 3. Пример фрагмента фасетной классификации  
 
              Основное достоинство фасетной классификации заключается в возможности ограниченным небольшим перечнем фасетных рубрик отразить (сконструировать) огромное количество узких специализированных рубрик и, тем самым, наиболее точно и полно проиндексировать содержание документов.

               Специфической проблемой фасетной классификации является влияние на эффективность поиска документов порядка следования обозначений рубрик фасет. Психологические особенности поиска таковы, что пользователь в первую очередь сосредоточивает внимание на обозначениях тех подрубрик, которые стоят первыми в цепном списке сконструированной формулы, и если интересующие его в первую очередь сведения отражаются рубрикой, стоящей не на первом месте, то он может «с ходу» отвергнуть всю формулу. Для преодоления этого недостатка используется так называемая пермутация (изменение последовательности определенного количества элементов), при которой для документа приводится список всех возможных вариантов написания сконструированной фасетной формулы на основе циклической перестановки, например: 
Ac Bgt Lg

LgAcBgt 
Bgt Lg Ac и т. д.

               Однако такой подход не всегда полностью решает проблему, так как комбинаций по перестановкам может быть очень много, что, в свою очередь, утяжеляет и усложняет поиск. Другим подходом является, напротив, жесткая регламентация порядка изложения фасет, что в определенной степени ориентирует первоначальное внимание пользователя на тех фасетах, информация по которым интересует его в большей степени.

               Сильной стороной фасетной классификации является более глубокое, чем при иерархической классификации, использование семантики. Фасеты, как уже отмечалось, отражают определенные семантические основы предметной области ИПС, содержащие помимо родо-видовых и некоторые прочие семантические, в частности ролевые, отношения (специальные указатели типа «Объект (субъект) действия», «Инструмент (средство) действия»). Рядом исследователей предлагались универсальные или специализированные фасетные классификации («Индивидуальность», «Материя», «Энергия», «Пространство» и «Время» — Ранганатан; «Предмет в целом», «Вид», «Часть», «Материал», «Свойство», «Процессы», «Операции», «Факторы» — Миллз). Поэтому, в отличие от перечислительной и иерархической классификации, для разработки фасетной классификации предметной области сведений конкретной ИПС используются те же методологические подходы, что и при разработке информационно-логических схем предметных областей фактографических систем (выделение основных фрагментов-сущностей, анализ отношений между ними и т.д.).4

 

 

 

 

Заключение

             

              В развитии программного обеспечения СУБД в 70-е -- 80-е годы превалировало направление, связанное с фактографическими информационными системами, т. е. с системами, ориентированными на работу со структурированными данными. Были разработаны основы и модели организации фактографических данных, отработаны программно-технические решения по накоплению и физическому хранению таких данных, реализованы специальные языки запросов к базам данных и решен целый ряд других задач по эффективному управлению большими объемами структурированной информации. В результате основу информационного обеспечения деятельности предприятий и организаций к началу 90-х годов составили фактографические информационные системы, вобравшие в себя в совокупности колоссальный объем структурированных данных.

              Вместе с тем создание и эксплуатация фактографических информационных систем требует либо изначально структурированных данных, таких, например, как отчеты датчиков в АСУ ТП, финансовые массивы бухгалтерских АИС и т. д., либо предварительной структуризации данных, как, например, в информационной системе кадрового подразделения, где все данные по сотрудникам структуризируются по ряду формализованных позиций. При этом зачастую структуризация данных требует больших накладных, в том числе и организационных расходов, что, в конечном счете, приводит к материальным издержкам информатизации.

                В ходе работы были раскрыты такие понятия как классификационные системы поиска документов, изучены перечислительная, иерархическая и фасетная классификации.5

Список литературы

 

  1. Трофимов, В. В. Информационные технологии в экономике и управлении: учебник для бакалавров. – 3-е изд. / В.В.Трофимов. – М.: Юрайт, 2012.
  2. Кренке, Д. Теория и практика построения баз данных / Д. Кренке. – СПб.:Питер, 2005.
  3. Информатика. Базовый курс /под ред. С. В. Симанович. – СПб. : Питер, 2005.
  4. Якушина, Е. В. Интернет для отдыха и работы: самоучитель / Е Пуха Г. П. Информационно-поисковые системы: учебное пособие / Г. П. Пуха, А. Т. Тяжев, Т. Т. Осипова, Н. П. Горбунов. – СПб.: СПбГАСЭ, 2004.
  5. В. Якушина. – СПб.: Питер, 2005.

 

 

 

 

 

 

 

 

 

 

 

 

 

Приложение 1

Системы классификационного индексирования документов

Информация о работе Классификационные системы поиска документов