Автор работы: Пользователь скрыл имя, 11 Июня 2013 в 18:36, курсовая работа
Коммуникативная эквивалентность нового текста по отношению к оригиналу обеспечивается выполнением трех основных требований:
текст перевода должен в возможно более полном объеме передавать содержание оригинала, что прежде всего означает недопустимость произвольного опущения или добавления информации;
текст перевода должен соответствовать нормам языка перевода, так как их нарушение, по меньшей мере, создает помехи для восприятия информации, а иногда ведет и к ее искажению;
текст перевода должен быть примерно сопоставим с оригиналом по своему объему, чем обеспечивается сходство стилистического эффекта с точки зрения лаконичности или развернутости выражения.
Введение 3
1 История машинного перевода 5
2 Принципы работы систем машинного перевода 9
3 Модели представления синтаксических зависимостей 16
4 Классификация систем машинного перевода 19
5 Обзор программ машинного перевода 24
5.1 Наиболее известные программы машинного перевода 24
5.2 Характеристика Promt 30
6 Оценка машинного перевода 36
Заключение 39
Список литературы 41
Алгоритмы морфологического
анализа делятся на две группы:
словарные и бессловарные. Бессловарные
алгоритмы более компактны и
производительны, но не обладают высокой
скоростью, поэтому их применение целесообразно
лишь для выявления простых
Словарный метод предполагает
наличие словаря основ и
Еще несколько лет назад словосочетание «компьютерная морфология» было понятно только узкому кругу специалистов, сейчас морфология является неотъемлемой частью интеллектуальной поисковой машины. Вероятно, в ближайшем будущем та же участь постигнет и синтаксический анализ.
3. Синтаксический анализ
Аналогию между системой языка и шахматами впервые предложил швейцарский лингвист Фердинанд де Соссюр. Как не меняются суть и правила игры в зависимости от размера доски или цвета фигур, так и сохраняют сходство грамматические структуры и законы внешне абсолютно разных языков. Белопольный слон никогда не займет черную клетку; каждое слово занимает только отведенное его роли место в структуре или линейном порядке предложения (например, в русском существительное не может стоять до предлога, от которого оно зависит). Любая удачная комбинация в партии есть продуманная последовательность ходов, где каждая фигура защищена другой, и если фигура удалена от «своих» и остается без защиты, она будет съедена или заперта фигурами противника, а партия проиграна. Грамматически верное и однозначное высказывание - результат хорошо построенной непрерывающейся структуры, где каждое слово имеет хозяина, и если слово не связано ни с одним из других слов в предложении, оно «выбивается» из контекста, искажая смысл всего высказывания.
Целью синтаксического анализа является построение синтаксических групп на одном морфологическом варианте одной клаузы, т.е. одного простого предложения в составе сложного.
Теоретическую лингвистику интересуют сравнение грамматик естественных языков и синтаксические законы, применимые одновременно к большому количеству разных языков, то есть типология. Целью компьютерной лингвистики в области синтаксиса является построение автоматизированного анализатора отдельного языка. Этот анализатор должен уметь выделять простые предложения в составе сложного, устанавливать связи между словами и по возможности строить полное синтаксическое дерево предложения. Если теоретические исследования описывают как письменный язык, так и устную речь, то компьютерные программы имеют дело только с грамматикой письменного языка. С одной стороны, круг задач в компьютерной лингвистике значительно уже по сравнению с теоретической, но с другой - их решение требует значительно большей строгости и формальности описания.
Сложность реализации высокоточного
анализатора связана с наличием
тесной связи между синтаксисом
и семантикой, присутствием в текстах
различных языков большого количества
синтаксически омонимичных
Чтобы разрешить проблему
с анализом синтаксически омонимичных
конструкций, необходимо построение дерева
синтаксических зависимостей между
словами во фразе. В случае удачного
разбора предложение
Поскольку одна словоформа
может соответствовать
Как показала практика, для снятия большей части омонимии (около 90%) не требуется полный синтаксический анализ, обеспечивающий полную свертку дерева. Достаточным оказывается включение правил согласования слов в именных и глагольных группах, свертки однородных членов, согласования подлежащего и сказуемого, предложно-падежного управления и нескольких прочих – всего в пределах 20-ти правил, описываемых бесконтекстной грамматикой.
Порядок применения правил управляется алгоритмом разбора, который на каждом шаге проверяет возможность применения очередного правила к очередному фрагменту фразы (паре-тройке слов, знаков препинания и т.п.) и, если удается, сворачивает фрагмент. Свертка фрагмента обычно заключается в его замене одним главным словом – удалением подчиненных слов, после чего разбор продолжается. В случае невозможности дальнейшего применения правил на любом из шагов совершается откат – последний свернутый фрагмент восстанавливается и делается попытка применить другие правила. Окончательным вариантом разбора следует считать такую последовательность применения правил, которая порождает максимальную свертку фразы.
4. Семантический анализ
Семантический анализ строит
семантическую структуру одного
предложения. Семантическая структура
состоит из семантических узлов
и семантических отношений. Семантический
узел – это такой объект текстовой
семантики, у которого заполнены
все валентности, как эксплицитно
выраженные в тексте, так и имплицитные
– те, которые получаются из экстралингвистических
источников. Из определения следует,
что семантический узел может
быть построен только в самом конце
семантического анализа. Собственно говоря,
главная цель семантического анализа
– построение семантических узлов,
которое подразумевает
Семантический анализ представляет собой выявление в тексте смысловых связей и групп. Этот тип анализа представляется в виде набора составляющих, направленных на выявление различных семантических связей.
Во-первых, это выделение именованных сущностей, объектов, которые имеют различную форму записи в тексте и могут принимать различные значения. Примерами именованных сущностей являются такие объекты как дата, физическое измерение, географическое название, название организации, имя персоны и т.п. В результате слову или группе слов приписывается атрибут, определяющий вид именованной сущности, и его в дальнейшем можно использовать для идентификации извлекаемой информации.
Второй полезной составляющей является механизм выявления семантических классов. К семантическому классу относится группа понятий, связанных с одной предметной областью и являющихся одной и той же частью речи. Например, семантический класс глаголов, связанных с производственной деятельностью человека.
Третий момент связан с расширением кореферентности в тексте. Под кореферентностью понимается ссылка разными словами на один и тот же объект действительности. Например, фраза «глава Российского государства» и «президент России» обозначает одно и то же лицо. Задача разрешения кореферентности сводится к автоматическому установлению референта для выражения (при наличии модели предметной области) или просто установлению кореферентной связи (признака того, что выражения ссылаются на одни и тот же объект) между выражениями.
Четвертым элементом семантического анализа является разрешение анафоры. Анафора – это использование языковых выражений, которые могут быть интерпретированы лишь с учетом другого, как правило, предшествующего фрагмента текста. Разрешение анафоры сводится к установлению связи между анафорическим выражением и его интерпретацией (антецедентом). Частным случаем этой проблемы является разрешение местоименной анафоры, где в роли анафорического выражения выступает местоимение.
Последний момент при семантическом
анализе – выявление
5. Построение модели предметной области
Наиболее сложным, но и
приносящим наиболее точные результаты
этапом является построение модели ситуации
или предметной области, которая
описывается в тексте. Этот этап
реализует представление в
Существуют несколько моделей описания синтаксиса, мы рассмотрим «Систему непосредственных составляющих» и «Древо зависимостей»
3) Система составляющих
((Он сделал)(это)(так неловко)
Вполне привычная для нас запись, если не принимать во внимания слова естественного языка, но суть та же ,что и с цифрами или логическими выражениями. Группируя слова скобками мы определяем наличие той или иной связи между словами, группируя ,существующие группы, мы проводим связи между ними.
4) В качестве основных
аспектов реализации система
синтаксического анализа
5) Контекстно свободная грамматика
N, T, X, R
N – множество нетерминальных символов
T – множество терминальных символов (N∩T= O)
X – аксиома (X €→N)
R – множество правил преобразования (подстановки) типа Y → a, где Y € N, a – список терминальных и нетерминальных символов
Пример контекстно свободной грамматики:
N={S, NP, PP, V, N, D}
T={John, a, girl, with, saw, telescope}
R={S→NP VP,S →NP VP PP, NP→D N, PP→P NP, VP→V NP, NP→John, V→saw, D→a, N→girl, N→telescope, P→with}
6) Даже самые простые
предложения не лишены
Предложение «Johnagirlwithsawtelescope» можно представить по разному:
a) Первое представление
b) Второе представление
Работа над программой, которая переводит с одного языка на другой, разбивается на три очевидные подзадачи:
Как уже выше было сказано, с практической точки зрения, имея в виду качество результирующего текста и его соответствие исходному, программы машинного перевода подразделяют на три категории: полностью автоматический перевод, автоматизированный машинный перевод, выполняемый при участии человека, и перевод, осуществляемый человеком с использованием компьютера. Рассмотрим их более подробно.
Программы машинного перевода первой из названных категорий являются делом далекого будущего, поскольку в общем виде не решены проблемы автоматического понимания, перевода и синтеза текстов.