Оценка машинного перевода

Автор работы: Пользователь скрыл имя, 11 Июня 2013 в 18:36, курсовая работа

Описание работы

Коммуникативная эквивалентность нового текста по отношению к оригиналу обеспечивается выполнением трех основных требований:
текст перевода должен в возможно более полном объеме передавать содержание оригинала, что прежде всего означает недопустимость произвольного опущения или добавления информации;
текст перевода должен соответствовать нормам языка перевода, так как их нарушение, по меньшей мере, создает помехи для восприятия информации, а иногда ведет и к ее искажению;
текст перевода должен быть примерно сопоставим с оригиналом по своему объему, чем обеспечивается сходство стилистического эффекта с точки зрения лаконичности или развернутости выражения.

Содержание работы

Введение 3
1 История машинного перевода 5
2 Принципы работы систем машинного перевода 9
3 Модели представления синтаксических зависимостей 16
4 Классификация систем машинного перевода 19
5 Обзор программ машинного перевода 24
5.1 Наиболее известные программы машинного перевода 24
5.2 Характеристика Promt 30
6 Оценка машинного перевода 36
Заключение 39
Список литературы 41

Скачать архив (379.84 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

Курсовая работа.docx

— 402.10 Кб (Скачать файл)

Алгоритмы морфологического анализа делятся на две группы: словарные и бессловарные. Бессловарные алгоритмы более компактны и производительны, но не обладают высокой скоростью, поэтому их применение целесообразно лишь для выявления простых морфологических атрибутов и только в том случае, если нет требования к высокой точности. Если же предполагается использовать синтаксический анализ, то высокая точность является необходимым требованием, и применяется словарный метод.

Словарный метод предполагает наличие словаря основ и флексий. По словарю отыскиваются допустимые наборы атрибутов для каждой графемы. В случае отсутствия слова в словаре, выполняется предсказание парадигмы (аналогично бессловарным методам). Одной графеме может соответствовать несколько наборов атрибутов. Такие случаи – морфологическая омонимия – довольно часто встречаются в русском языке. Существуют алгоритмы для решения этой проблемы с высокой вероятностью успеха.

Еще несколько лет назад словосочетание «компьютерная морфология» было понятно только узкому кругу специалистов, сейчас морфология является неотъемлемой частью интеллектуальной поисковой машины. Вероятно, в ближайшем будущем та же участь постигнет и синтаксический анализ.

3. Синтаксический анализ

Аналогию между системой языка и шахматами впервые предложил швейцарский лингвист Фердинанд де Соссюр. Как не меняются суть и правила игры в зависимости от размера доски или цвета фигур, так и сохраняют сходство грамматические структуры и законы внешне абсолютно разных языков. Белопольный слон никогда не займет черную клетку; каждое слово занимает только отведенное его роли место в структуре или линейном порядке предложения (например, в русском существительное не может стоять до предлога, от которого оно зависит). Любая удачная комбинация в партии есть продуманная последовательность ходов, где каждая фигура защищена другой, и если фигура удалена от «своих» и остается без защиты, она будет съедена или заперта фигурами противника, а партия проиграна. Грамматически верное и однозначное высказывание - результат хорошо построенной непрерывающейся структуры, где каждое слово имеет хозяина, и если слово не связано ни с одним из других слов в предложении, оно «выбивается» из контекста, искажая смысл всего высказывания.

Целью синтаксического анализа является построение синтаксических групп на одном морфологическом варианте одной клаузы, т.е. одного простого предложения в составе сложного.

Теоретическую лингвистику интересуют сравнение грамматик естественных языков и синтаксические законы, применимые одновременно к большому количеству разных языков, то есть типология. Целью компьютерной лингвистики в области синтаксиса является построение автоматизированного анализатора отдельного языка. Этот анализатор должен уметь выделять простые предложения в составе сложного, устанавливать связи между словами и по возможности строить полное синтаксическое дерево предложения. Если теоретические исследования описывают как письменный язык, так и устную речь, то компьютерные программы имеют дело только с грамматикой письменного языка. С одной стороны, круг задач в компьютерной лингвистике значительно уже по сравнению с теоретической, но с другой - их решение требует значительно большей строгости и формальности описания.

Сложность реализации высокоточного анализатора связана с наличием тесной связи между синтаксисом и семантикой, присутствием в текстах различных языков большого количества синтаксически омонимичных конструкций, не допускающих однозначной интерпретации без привлечения знаний о семантической сочетаемости слов. Такова, например, проблема управления глагола предложно-падежными конструкциями. В синтаксически эквивалентных фразах «человек стрелял из ружья» и «человек стрелял из окна», объект «ружье» представляет аргумент предиката «стрелять» в роли косвенного дополнения, а объект «окно» – обстоятельство места, которое является дополнительной характеристикой всей ситуации в целом.

Чтобы разрешить проблему с анализом синтаксически омонимичных конструкций, необходимо построение дерева синтаксических зависимостей между словами во фразе. В случае удачного разбора предложение сворачивается в полносвязное дерево с единственной корневой вершиной.

Поскольку одна словоформа может соответствовать нескольким грамматическим формам слова, в том числе формам различных слов, в ходе анализа необходимо производить свертку предложения для всех возможных вариантов грамматических форм. Те грамматические формы, которые обеспечивают максимальную свертку дерева (минимальное число висячих вершин), следует считать наиболее достоверными.

Как показала практика, для снятия большей части омонимии (около 90%) не требуется полный синтаксический анализ, обеспечивающий полную свертку дерева. Достаточным оказывается включение правил согласования слов в именных и глагольных группах, свертки однородных членов, согласования подлежащего и сказуемого, предложно-падежного управления и нескольких прочих – всего в пределах 20-ти правил, описываемых бесконтекстной грамматикой.

Порядок применения правил управляется алгоритмом разбора, который на каждом шаге проверяет возможность применения очередного правила к очередному фрагменту фразы (паре-тройке слов, знаков препинания и т.п.) и, если удается, сворачивает фрагмент. Свертка фрагмента обычно заключается в его замене одним главным словом – удалением подчиненных слов, после чего разбор продолжается. В случае невозможности дальнейшего применения правил на любом из шагов совершается откат – последний свернутый фрагмент восстанавливается и делается попытка применить другие правила. Окончательным вариантом разбора следует считать такую последовательность применения правил, которая порождает максимальную свертку фразы.

4. Семантический анализ

Семантический анализ строит семантическую структуру одного предложения. Семантическая структура состоит из семантических узлов и семантических отношений. Семантический узел – это такой объект текстовой семантики, у которого заполнены все валентности, как эксплицитно выраженные в тексте, так и имплицитные – те, которые получаются из экстралингвистических источников. Из определения следует, что семантический узел может быть построен только в самом конце семантического анализа. Собственно говоря, главная цель семантического анализа – построение семантических узлов, которое подразумевает заполнение всех валентностей.

Семантический анализ представляет собой выявление в тексте смысловых связей и групп. Этот тип анализа представляется в виде набора составляющих, направленных на выявление различных семантических связей.

Во-первых, это выделение именованных сущностей, объектов, которые имеют различную форму записи в тексте и могут принимать различные значения. Примерами именованных сущностей являются такие объекты как дата, физическое измерение, географическое название, название организации, имя персоны и т.п. В результате слову или группе слов приписывается атрибут, определяющий вид именованной сущности, и его в дальнейшем можно использовать для идентификации извлекаемой информации.

Второй полезной составляющей является механизм выявления семантических классов. К семантическому классу относится группа понятий, связанных с одной предметной областью и являющихся одной и той же частью речи. Например, семантический класс глаголов, связанных с производственной деятельностью человека.

Третий момент связан с расширением кореферентности в тексте. Под кореферентностью понимается ссылка разными словами на один и тот же объект действительности. Например, фраза «глава Российского государства» и «президент России» обозначает одно и то же лицо. Задача разрешения кореферентности сводится к автоматическому установлению референта для выражения (при наличии модели предметной области) или просто установлению кореферентной связи (признака того, что выражения ссылаются на одни и тот же объект) между выражениями.

Четвертым элементом семантического анализа является разрешение анафоры. Анафора – это использование языковых выражений, которые могут быть интерпретированы лишь с учетом другого, как правило, предшествующего фрагмента текста. Разрешение анафоры сводится к установлению связи между анафорическим выражением и его интерпретацией (антецедентом). Частным случаем этой проблемы является разрешение местоименной анафоры, где в роли анафорического выражения выступает местоимение.

Последний момент при семантическом анализе – выявление семантических ролей и связей. Этот подход основан на использовании словаря моделей управления. Словарь описывает способы синтаксической реализации в тексте различных типов смысловых отношений между понятиями и представляет собой список предикатов русского языка (глаголов в прямых и возвратных формах и отглагольных существительных), отражающих некоторую ситуацию. Словарная статья описывает семантические роли участников этой ситуации и способы их выражения в тексте. После выявления семантических ролей можно выделить и различные семантические связи между участниками ситуации. Виды ролей определяются при составлении словаря, а виды связей задаются, как правило, уже при решении конкретной задачи.

5. Построение модели предметной области

Наиболее сложным, но и приносящим наиболее точные результаты этапом является построение модели ситуации или предметной области, которая описывается в тексте. Этот этап реализует представление в структурном виде, отражающем все значимые смысловые связи, всего текста или набора текстов. Но так как задача построения модели очень сложна, в прикладных системах редко прибегают к ее использованию.

3 Модели представления синтаксических зависимостей

Структурность хоть и не всегда, но предполагает наличие связей, например.

Управление (играть роль, кататься на лыжах)

Согласование (заглавная роль, актёр слеп)
Примыкание (хорошо петь)
Союзное и бессоюзное подчинение и сочинение (жить и работать; жить, чтобы работать)

Существуют несколько моделей описания синтаксиса, мы рассмотрим «Систему непосредственных составляющих» и «Древо зависимостей»

Древо зависимостей

3) Система составляющих

((Он сделал)(это)(так неловко)), ((что задел (образок (моего ангела)), (висевший (на дубовой (спинке кровати))),) и (что (убитая муха) (упала) (мне (прямо на голову)))).

Вполне привычная для нас запись, если не принимать во внимания слова естественного языка, но суть та же ,что и с цифрами или логическими выражениями. Группируя слова скобками мы определяем наличие той или иной связи между словами, группируя ,существующие группы, мы проводим связи между ними.

4) В качестве основных аспектов реализации система синтаксического анализа выступают:

Словари (информация об индивидуальных единицах языка)
Формальные правила
Взаимодействие с соседними уровнями обработки (морфологический анализ, семантический анализ)

5) Контекстно свободная грамматика

N, T, X, R

N – множество нетерминальных символов

T – множество терминальных символов (N∩T= O)

X – аксиома (X €→N)

R – множество правил преобразования (подстановки) типа Y → a, где Y € N, a – список терминальных и нетерминальных символов

Пример контекстно свободной грамматики:

N={S, NP, PP, V, N, D}

T={John, a, girl, with, saw, telescope}

R={S→NP VP,S →NP VP PP, NP→D N, PP→P NP, VP→V NP, NP→John, V→saw, D→a, N→girl, N→telescope, P→with}

6) Даже самые простые предложения не лишены неоднозначности.

Предложение «Johnagirlwithsawtelescope» можно представить по разному:

a) Первое представление

b) Второе представление

4 Классификация систем машинного перевода

Работа над программой, которая переводит с одного языка на другой, разбивается на три очевидные подзадачи:

создать достаточно полный словарь или набор тематических словарей;
научить систему распознавать не только слова, но и устойчивые обороты;
формализовать правила перевода с учетом грамматики языков.

Как уже выше было сказано, с практической точки зрения, имея в виду качество результирующего текста и его соответствие исходному, программы машинного перевода подразделяют на три категории: полностью автоматический перевод, автоматизированный машинный перевод, выполняемый при участии человека, и перевод, осуществляемый человеком с использованием компьютера. Рассмотрим их более подробно.

Полностью автоматический перевод

Программы машинного перевода первой из названных категорий являются делом далекого будущего, поскольку в общем виде не решены проблемы автоматического понимания, перевода и синтеза текстов.

Автоматизированный машинный перевод, выполняемый при участии человека.