Оценка машинного перевода

Автор работы: Пользователь скрыл имя, 11 Июня 2013 в 18:36, курсовая работа

Описание работы

Коммуникативная эквивалентность нового текста по отношению к оригиналу обеспечивается выполнением трех основных требований:
текст перевода должен в возможно более полном объеме передавать содержание оригинала, что прежде всего означает недопустимость произвольного опущения или добавления информации;
текст перевода должен соответствовать нормам языка перевода, так как их нарушение, по меньшей мере, создает помехи для восприятия информации, а иногда ведет и к ее искажению;
текст перевода должен быть примерно сопоставим с оригиналом по своему объему, чем обеспечивается сходство стилистического эффекта с точки зрения лаконичности или развернутости выражения.

Содержание работы

Введение 3
1 История машинного перевода 5
2 Принципы работы систем машинного перевода 9
3 Модели представления синтаксических зависимостей 16
4 Классификация систем машинного перевода 19
5 Обзор программ машинного перевода 24
5.1 Наиболее известные программы машинного перевода 24
5.2 Характеристика Promt 30
6 Оценка машинного перевода 36
Заключение 39
Список литературы 41

Файлы: 1 файл

Курсовая работа.docx

— 402.10 Кб (Скачать файл)

Программы второй категории  разработчики называют МТ-программы (от Machine translation - машинный перевод). Реально  автоматизированный (с участием человека) машинный перевод возможен только в  условиях искусственно ограниченного, как по словарному запасу, так и  по грамматике, языка. Главным критерием  такой программы является качество перевода. Кроме этого, для пользователя важными моментами является удобство интерфейса, лёгкость интеграции программы  с другими средствами обработки  документов, выбор тематики, утилита  пополнения словаря. С появлением Интернета  основные поставщики систем МП включили в свои продукты Web-интерфейсы, обеспечив  при этом их интеграцию с остальным  программным обеспечением и электронной  почтой, что позволило применять механизмы МП для перевода Web-страниц, электронных писем и онлайновых разговорных сеансов.

В системах на основе контролируемого  языка реализован переход от свободного входного языка к контролируемому  входному языку. Контроль входного языка  предусматривает определённые ограничения  лексики, грамматики, семантики. Контролируемый входной язык используется для упрощения  выражений исходного текста, чтобы  повысить качество перевода.

Также при работе с исходным текстом, необходимо учитывать ряд  особенностей МТ-программ, что, по словам разработчиков программы Promt, «не решает всех проблем машинного перевода, но помогает отвоевать несколько очков в противостоянии компьютера и естественного языка»:

  • машинный переводчик не умеет исправлять ошибки и распознавать неправильно написанные слова (здесь могут оказаться полезными специальные программы проверки орфографии);
  • пропущенный или, наоборот, избыточный знак препинания может помешать электронному переводчику правильно понять синтаксическую структуру предложения;
  • как правило, электронный переводчик не воспринимает слова с русской буквой ё, а также слова с ударениями.
  • следует правильно расставлять знаки диакритики;
  • использование простых синтаксических конструкций с прямым порядком слов существенно улучшает качество перевода. Например, на первом месте должно идти подлежащее или его группа. На втором месте – сказуемое, выраженное глаголом. Дальше идут обстоятельства, выраженные разными частями речи.
  • следует обращать особое внимание на регистр букв: маленькая буква в слове вполне может стать большой (например, в начале предложения, в заголовке), и это учитывается при разработке систем машинного перевода; большая же буква, напротив, маленькой становится редко, причем в большинстве случаев это связано с образованием нового слова, например, при переходе собственного имени в разряд имен нарицательных.
  • рекомендуется избегать пропуска служебных слов (даже если это разрешено грамматикой). Например, при переводе английского предложения "Your e-mail address is the address other people use to send e-mail messages to you" на русский язык при помощи переводчика Promt, получается не совсем понятный текст: «Ваш адрес электронной почты — адрес другое использование людей, чтобы послать почтовые сообщения Вам». Если восстановить единственное пропущенное слово — союз that, получится вполне корректный вариант: «Ваш адрес электронной почты — адрес, который другие люди используют, чтобы послать почтовые сообщения Вам».
  • следует избегать использования жаргонных выражений. Одна сторона проблемы состоит в том, что такого рода слова появляются в речи быстрее, чем их успевают фиксировать словари. Другая сторона – в том, что не всегда целесообразно добавлять неологизмы в словарь – зачастую они входят в употребление очень небольшой группы лиц, либо исчезают так же внезапно, как и появляются.
  • следует использовать только общепринятые сокращения. Неправильный перевод сокращения — это только половина проблемы. Дело в том, что даже одно непереведенное слово может помещать электронному переводчику правильно проанализировать синтаксическую структуру предложения (а аббревиатуры участвуют в синтаксических связях наряду с обычными словами).

Неприятные последствия  может иметь тот факт, что некоторые  аббревиатуры совпадают по написанию  с часто используемыми словами. Например, «ПО» (программное обеспечение) пишется так же, как русский  предлог «по» (регистр букв в данном случае не играет роли, так как ничто  не запрещает нам написать предлог  «по» большими буквами, например, в  составе заголовка). Поэтому, увы, вполне закономерно выглядит перевод фразы "Я часто использую это ПО" как "I frequently use it ON." С другой стороны, если написать "Я часто использую это программное обеспечение" мы получим в переводе "I frequently use this software."

    • Перевод, осуществляемый человеком с использованием компьютера

Программы третьей категории  разработчики называют ТМ-программы (от translation memory - память перевода). Эту категорию  программ применяют профессиональные переводчики, осознавшие выигрыш от автоматизации их работы с помощью  компьютеров. Использование технологии ТМ повышает скорость перевода за счет уменьшения объема механической работы. Однако TM не выполнит перевод за переводчика, но значительно облегчит его работу. Принцип работы технологии ТМ довольно прост – в процессе перевода пары «исходный текст – конечный (переведенный) текст» накапливаются в базе (или  базах) данных и затем используются для перевода новых документов. Вообще, понятие массива документов очень  важно для машинного перевода. Большинство специалистов сходится во мнении, что машинный перевод  возможен только для прикладных, технических  текстов, которые могут быть заданы определенными, порой гигантскими  массивами. Для облегчения обработки  информации и сравнения различных  документов система Translation Memory разбивает  весь текст на отдельные кусочки, которые называются сегментами. Такими сегментами чаще всего являются предложения, но могут быть и другие правила  сегментации. При переводе нового текста система сравнивает все сегменты текста с уже имеющимися в базе. Если системе удается найти полностью  или частично совпадающий сегмент, то его перевод отображается с  указанием совпадения в процентах. Слова и фразы, которые отличаются от сохраненного текста, подсвечиваются. Это своего рода "подсказки", в  некоторой мере облегчающие труд переводчика и сокращающие время, необходимое для редактирования перевода. Как правило, задается порог  совпадений на уровне не ниже 75%. При  меньшем проценте совпадения слишком  возрастают затраты на редактирование текста, и этот сегмент быстрее  перевести вручную. Выходит, что  при работе с TM переводчику остается перевести только новые сегменты и отредактировать частично совпадающие. Каждое изменение или новый перевод сохраняются в ТМ, и необходимости переводить одно и то же дважды не возникает. Данная технология помогает заметно сократить расход средств и времени на перевод технической документации за счет использования повторяющихся фрагментов текста. Помимо снижения трудоемкости перевода системы, TМ позволяет выдержать единство терминологии и стиля во всей документации, а также сократить затраты на последующую верстку переведенных документов.

Cистемы машинного второй и третьей категорий также подразделяют на основанные на правилах (rule-based) и основанные на примерах (example-based). В первых языковая грамматика проработана глубже, языковых правил больше. Системы второго типа - самообучающиеся, они строятся на динамическом порождении языковых правил для конкретных текстовых примеров. Границы между системами example-based и rule-based не очень четкие, поскольку и те и другие используют словари (статическая информация о языке) и правила работы со словарями.

 
 

 

5 Обзор программ машинного перевода

5.1 Наиболее известные  программы машинного перевода

 

 

Часто используемый термин «машинный перевод» только запутывает пользователей компьютеров, вызывая  у них завышенные ожидания: стоит, якобы, ввести текст, запустить программу - переводчик - и тут же получится  приемлемый текст на другом языке. Между  тем, задача автоматического (или машинного) перевода с одного языка на другой, поставленная еще в 1946 году, к настоящему времени далеко еще не решена. Пользователю предлагаются программы, которые могут  оказать серьезную помощь при  переводе, осуществляемом человеком, но, естественно, он не может получить от них собственно «литературный» перевод.

Еще несколько лет назад  программами-переводчиками можно  было пользоваться только нервно сжав зубы (чтобы не расхохотаться), а  результаты приходилось подвергать долгой правке. Можно привести массу  забавных примеров из их «трудов» (чего стоят прогремевшие пару лет назад  «гуртовщики мыши»), однако, как известно, закон Мура 1 не дает прогрессу стоять на месте, и с увеличением быстродействия процессоров и ростом объема оперативной памяти постепенно повышается и качество машинного перевода.

Рынок предлагает пользователям  два вида лингвистических программ (если не рассматривать широкий спектр обучающих продуктов) - программы  перевода текстов с одного языка  на другой и электронные словари.

«Электронные помощники» для переводчиков

Часто используемый термин «машинный перевод» только запутывает пользователей компьютеров, вызывая  у них завышенные ожидания: стоит, якобы, ввести текст, запустить программу-переводчик - и тут же получится приемлемый текст на другом языке. Между тем, задача автоматического (или машинного) перевода с одного языка на другой, поставленная еще в 1946 году, к настоящему времени далеко еще не решена. Пользователю предлагаются программы, которые могут оказать серьезную помощь при переводе, осуществляемом человеком, но, естественно, он не может получить от них собственно «литературный» перевод. Качество таких программ определяется набором функциональных возможностей: задание различных шаблонов и выбор вариантов переводов, а также сервис работы со словарями.

Рассмотрим несколько  наиболее известных программных  продуктов, которые можно приобрести на российском рынке.

TRADOS. Многомодульная система  компании TRADOS, эксклюзивный дистрибьютор - компания ПРОМТ. Это система автоматизации труда переводчиков, основанная на так называемой TM-технологии (Translation Memory). Основная идея TM-технологии заключается в том, что выполненные пользователями переводы сохраняются в базе знаний в виде исходного фрагмента текста и его перевода. Накопленные фрагменты текстов на двух языках могут быть использованы для последующих переводов документов сходной тематики. После начальной установки системы база данных пуста, а в процессе работы в нее заносятся те образцы перевода, которые считаются приемлемыми. Получается большое хранилище моделей переводов, создаваемое отдельным пользователем или их группой, выполняющей один проект (переводчики, сотрудники фирмы). Технология показала себя как очень эффективная и в настоящее время активно используется за рубежом в среде профессиональных переводчиков. Отметим, что данная система может оказаться полезной не только профессионалам, но и для организации работ в офисе любой компании, работающей с многоязычными документами. Рискну также высказать предположение, что на базе такой системы можно попытаться построить интересные учебные базы знаний.

PROMT XT. Линейка продуктов  компании ПРОМТ, выпущенная в этом году, представляет собой серьезное продвижение на пути создания универсальных офисных средств для перевода текстов. Линейка содержит три основных продукта - PROMT XT Office, PROMT Internet XT и PROMT XT Standard, которые отличаются друг от друга набором функциональных возможностей (см. www.e-promt.ru). Эти электронные переводчики поддерживают три двусторонние языковые пары с русским языком (английский, немецкий и французский) и две односторонние пары (перевод на русский с итальянского и испанского).

PROMT XT - очень «серьезная»  многофункциональная среда, позволяющая,  при грамотной работе, получать  хорошие результаты в обработке  многоязычных документов самых  различных форматов. Перечислим  некоторые достижения компании  ПРОМТ, наиболее полно реализованные  в PROMT XT Office.

Прежде всего, хочется  отметить большие возможности, предоставляемые  лингвистическим редактором PROMT, позволяющим  просматривать возможные варианты перевода, подключать различные словари, определять, какой именно перевод  и из какого словаря был взят для  данного слова или словосочетания.

В систему также включены развитые возможности работы со словарями, включая создание пользовательских словарей. Очень интересная и важная функция - определение «алгоритмов  перевода», которые задают правила  и шаблоны для перевода определенных конструкций языка.

Наиболее революционное  новшество, предлагаемое пользователям  компанией ПРОМТ - «ассоциированная память», технология, аналогичная описанной  выше TM-технологии в системе TRADOS. Реализованный  здесь механизм позволяет запоминать и использовать при последующих  переводах конкретные и типовые  фрагменты текстов, а также варианты их переводов. Доступ к созданию такой  базы знаний предоставляет колоссальные возможности для пользователей, которым приходится постоянно обрабатывать большое количество тематически  или структурно близких текстов.

Отметим, что компания ПРОМТ  предлагает, на базе своего лингвистического процессора, не только корпоративные  решения для крупных организаций, но и двусторонний англо-русский  переводчик Pocket PROMT 3.0, разработанный  для карманных компьютеров с  операционной системой Windows CE.

СОКРАТ - набор программ компании «Арсеналъ». В эту линейку продуктов входят системы перевода общего назначения «СОКРАТ Персональный 4.1» и «СОКРАТ Профессиональный», а также «СОКРАТ Интернет 3.0», предназначенный для перевода интернет-страниц.

Эти электронные переводчики  предназначены, в первую очередь, для  массового пользования. Программы  имеют простой пользовательский интерфейс, ориентированный на однозначный  вариант выдачи перевода исходного  текста, и хорошо встраиваются в  офисные приложения. Такие программные  продукты удобно использовать, если пользователю нет необходимости добиваться «литературного»  перевода текста, а просто нужно  в оперативном режиме просмотреть  текст, чтобы понять его смысл.

Компания «Арсеналъ» предлагает более десятка специализированных словарей для своих программ-переводчиков и англо-русскую систему перевода «СОКРАТ СЕ 2.1», разработанную специально для карманных компьютеров.

Электронные словари

Без словарей жить трудно. Огромному  количеству людей в ходе своей  профессиональной деятельности приходиться  искать толкование или перевод различных  иностранных слов. Электронные словари, снабженные удобной системой поиска, призваны облегчить труд как профессиональных переводчиков, так и школьников или  студентов. Естественно, что пользователь хочет получать правильный перевод  или толкование слова и иметь  словари с большим словарным  запасом, обогащенные современной  лексикой.

Качество словарей, многоязычных или толковых, определяется профессионализмом  их создателей. На создание словаря  уходят многие годы труда лингвистов и профессиональных переводчиков. Поэтому  в словарном деле большое значение имеют сохранение авторского текста и охрана авторских прав создателей словарей. Покупая словарь, вы должны быть уверены, что его содержание соответствует научным достижениям  как в конкретных областях знаний, так и собственно в сфере лексикографии. В силу этих причин, главным фактором оценки предлагаемых на рынке электронных  словарей следует считать качество, которое определяется, в свою очередь, авторством первоисточников, от которых  происходят электронные версии словарей.

Информация о работе Оценка машинного перевода