Автор работы: Пользователь скрыл имя, 22 Декабря 2013 в 17:27, лекция
Под аннотацией понимается краткая характеристика произведения печати или рукописи. Обычно аннотация приводится после библиографического описания источника.
Аннотацию от реферата отличают:
существенно меньший объем;
обязательная констатация назначения аннотируемого произведения (для каких категорий читателей оно предназначено).
Лекция №7 Автоматическое реферирование и аннотирование
Рефератом называют:
Под аннотацией понимается краткая характеристика произведения печати или рукописи. Обычно аннотация приводится после библиографического описания источника.
Аннотацию от реферата отличают:
Автоматические реферирование и аннотирование получили значительную актуальность в связи с развитием Internet и каталогов информационных ресурсов. Для экономии времени поиска пользователям предлагаются каталоги аннотаций и рефератов источников.
Формирование рефератов и
Автоматическое реферирование и аннотирование — одно из направлений компьютерной обработки естественно-языковых текстов*. И в этом качестве оно относится к фундаментальным технологиям ИИ.
Основные тенденции для данной области:
Потребности в средствах автоматического реферирования и аннотирования испытывают: корпоративные системы документооборота; поисковые машины и каталоги ресурсов Internet; автоматизированные информационно-библиотечные системы; каналы вещания; службы рассылки новостей и др.
Методы автоматического реферирования и аннотирования подразделяются на поверхностные и глубинные.
Поверхностные методы базируются на «экстрагировании» текста, т.е. извлечении из него фрагментов, оцениваемых системой как важнейшие, и объединении их в реферат или аннотацию. Важность фрагментов определяется:
При объединении выделенных предложений в реферат или аннотацию учитываются их зависимости друг от друга (удаленность выделяемых мыслей). «Стыки» между предложениями (фрагментами) «сглаживаются».
Глубинные методы, развиваемые в настоящее время, базируются на применении тезаурусов и развитых механизмов синтаксического разбора текста.
К традиционным системам автоматического реферирования и аннотирования, реализующим поверхностные методы, можно отнести:
Перечисленные средства обеспечивают выбор оригинальных фрагментов из исходных документов и соединение их в короткий текст.
Сделаем два замечания. Во-первых, источниками информации для рефератов и аннотаций могут служить не только тексты, но и видеозаписи, разнообразные табличные документы и т.д. Во-вторых, краткое изложение предполагает передачу основной мысли не обязательно теми же словами.
Основные требования к реферату:
Выделяют три вида рефератов:
Построение реферата человеком включает следующие этапы:
В теории автоматического реферирования различают три основных подхода. Первый из них не предполагает опору на знания, связанные с текстом на ЕЯ. В системах такого типа применяется универсальная база правил, не зависящая от ПрО и языка текста. Второй подход предусматривает выделение различных уровней понимания текста, что требует использования наряду с универсальными правилами БЗ о ПрО и базы лингвистических правил, зависящих от языка. Третий подход является гибридным. Он сочетает лучшие стороны первых двух.
В системах первого типа (т.е. воплощающих первый подход) применяется метод составления выдержек. Он реализуется в два этапа. На первом проводится сопоставление текста и фразовых шаблонов, в результате чего выделяются блоки наибольшей лексической и статистической релевантности. На втором — путем соединения выделенных фрагментов формируется итоговый документ.
Для реализации первого этапа используют модель линейных весовых коэффициентов. В соответствии с ней каждому блоку U текста оригинала автоматически (на основании определенных правил) приписываются весовые коэффициенты:
Затем по значениям к1, к2, к3 и к4 и коэффициентам настройки программы реферирования a1, a2, a3 и a4 вычисляется коэффициент важности блока B(U) = a1к1 + a2к2 + a3к3 + a4к4. По коэффициентам важности выполняется отбор блоков в реферат.
Для вычисления каждого весового коэффициента используется своя группа правил. Для к1 они учитывают расположение блока:
Для к2 правила учитывают результаты автоматической индексации документа (например, соотношение между частотой появления термина в документе и в наборе документов).
Для к3 учитывается наличие в блоке таких ключевых фраз и выражений, как «в заключение...», «в данной статье...», «согласно результатам анализа...», «отличный от...», «малозначащий...» и т.п.
Для к4 правила учитывают вхождение термина в заголовки, колонтитулы, первый параграф текста, пользовательский профиль запроса и т. п.
Настройка с помощью коэффициентов a1, a2, a3 и a4 позволяет управлять степенью сжатия.
На рис. 1 изображена обобщенная архитектура системы автоматического реферирования первого типа.
Рис. 1. Обобщенная архитектура
системы автоматического
Главное достоинство описанной модели линейных весовых коэффициентов заключается в простоте ее реализации, а главный недостаток связан с возможностью формирования бессвязных рефератов, не учитывающих контекст. Для его устранения вводится этап ручного редактирования результатов.
Схема автоматического
определения критериев
Рис. 2. Схема автоматического определения критериев адекватного выбора фрагментов
Обучение (настройка) системы
осуществляется на наборах текстов
и рефератов, составленных для них
вручную при различных критерия
Человеку, уловившему общий смысл информации, легче выделить главное и кратко изложить содержание. Это и обусловливает создание реферирующих систем второго типа. Для таких систем требуются:
В этих системах реализуются три подхода:
1) традиционный метод синтаксического разбора;
2) подход с опорой на понимание ЕЯ;
3) комбинированный подход.
В первом случае для построения деревьев разбора используется синтаксическая информация. Процедуры сжатия манипулируют деревьями с целью сокращения скобок, подчиненных предложений и т.д. При этом дерево разбора упрощается до «структурной выжимки».
При втором подходе в результате разбора строится не дерево, а семантическая сеть текста. Другими словами, в ходе разбора выделяются концептуальные репрезентативные структуры исходного текста. Из них удаляется избыточная информация: поверхностные суждения, концептуальные подграфы. Далее выполняется агрегирование и обобщение информации: слияние некоторых концептуальных графов на базе правил. В результате получается «концептуальная выжимка».
Обобщенная схема для этих двух методов представлена на рис. 3.
Стадии синтеза реферата в обоих подходах почти совпадают (используется генератор текста).
Рис. 4. Два основных подхода к формированию реферата в системах с опорой на знания
Для функционирования подобных систем необходимы:
Отметим следующие новые задачи, связанные с компьютерным реферированием.
1. Создание одноязычных рефератов из источников на разных языках.
2. Построение рефератов по гибридным источникам, включающим как текстовые, так и числовые данные в разных формах (таблицы, диаграммы, графики и т. д.).
3. Создание рефератов на основе массивов документов. Например, построение единого реферата по сборнику тезисов докладов научной конференции. Одна из областей применения подобных средств — формирование новостных сообщений по газетным источникам.
4. Растущий объем мультимедийной
информации обусловливает
Средства автоматического аннотирования в целом аналогичны средствам автоматического реферирования. Однако требования к сжатию текста для них, как правило, на порядок более жесткие.
* Системы, обрабатывающие тексты на ЕЯ, в зарубежной литературе называют NLP-системами (natural language processing).
Информация о работе Автоматическое реферирование и аннотирование