Оценка машинного перевода

Автор работы: Пользователь скрыл имя, 11 Июня 2013 в 18:36, курсовая работа

Описание работы

Коммуникативная эквивалентность нового текста по отношению к оригиналу обеспечивается выполнением трех основных требований:
текст перевода должен в возможно более полном объеме передавать содержание оригинала, что прежде всего означает недопустимость произвольного опущения или добавления информации;
текст перевода должен соответствовать нормам языка перевода, так как их нарушение, по меньшей мере, создает помехи для восприятия информации, а иногда ведет и к ее искажению;
текст перевода должен быть примерно сопоставим с оригиналом по своему объему, чем обеспечивается сходство стилистического эффекта с точки зрения лаконичности или развернутости выражения.

Содержание работы

Введение 3
1 История машинного перевода 5
2 Принципы работы систем машинного перевода 9
3 Модели представления синтаксических зависимостей 16
4 Классификация систем машинного перевода 19
5 Обзор программ машинного перевода 24
5.1 Наиболее известные программы машинного перевода 24
5.2 Характеристика Promt 30
6 Оценка машинного перевода 36
Заключение 39
Список литературы 41

Файлы: 1 файл

Курсовая работа.docx

— 402.10 Кб (Скачать файл)

Созданием электронных словарей занимаются, в основном, фирмы-разработчики программного обеспечения. Программисты отвечают за то, чтобы создать грамотную  систему индексации, которая ложится  в основу системы поиска нужных пользователю слов, и предоставить удобный интерфейс. А вот само содержание словарей фирмам-разработчикам  приходиться заимствовать у больших  издательств, или же «сочинять» что-то свое. Этим и определяются не очевидные  для рядового пользователя основные критерии качества электронных словарей.

Сейчас мы кратко опишем, на основе личных впечатлений и информации, помещенной на сайтах производителей, наиболее популярные многоязычные системы  словарей, претендующие на роль продуктов  для профессионального пользования. За рамками нашего краткого обзора осталось множество двуязычных обучающих  изданий.

Multilex («МультиЛекс») - продукт  компании «МедиаЛингва».

Недавно было объявлено о  выходе Multilex 4.0. Словари «МультиЛекс» стремятся сохранить авторство  создателей их бумажных первоисточников. В качестве таковых источников, как  правило, выступают словари, выпущенные в крупных издательствах некоторое  количество лет назад. В «МультиЛексе»  объединены два независимых взаимодополняющих  словаря, образующие языковую пару. Его  интерфейс содержит весьма широкий  спектр настроек, очень удобен для  восприятия предоставляемой информации (различные формы слов, варианты переводов, ударения, примеры использования). Особенно подкупает та деталь, что  на основе базовых словарей доступен широкий спектр омонимов к искомому слову. Например, на запросы по русским  словам «мыть» и «мыло» вы получите по десятку английских вариантов  для каждого слова, сопровожденных описанием контекстов и ситуаций их использования. Словари «МультиЛекс» будут особенно незаменимы для учащихся самого разного возраста.

Polyglossum - продукт издательства  ЭТС - «Электронные и традиционные словари». Сейчас предлагается новая версия - Polyglossum 3.2. Главной особенностью этих электронных словарей является то, что они выпускаются профессиональным словарным издательством, которое готовит и издает также большое количество бумажных словарей. Поэтому словари Polyglossum являются авторскими и «лицензионно чистыми». В издательстве словари сначала готовятся, совместно с автором, в электронном виде, а бумажный вариант создается по материалам электронного и часто выходит уже после электронного издания. Поэтому пользователям электронных словарей оперативно предоставляется наиболее современный словарный запас. Издательство ЭТС, по-видимому, является владельцем наиболее крупных в России электронных словарных баз данных.

Словари Polyglossum обладают самой  простой (даже слишком аскетичной) и  быстро работающей оболочкой. Причем скорость работы определяется не только простотой  интерфейса, но также и хорошо продуманной  оригинальной системой индексации словарных  баз данных. К сожалению, в издательстве мало заботятся о комфорте молодых  российских пользователей, любящих  красивые интерфейсы, и ориентированы, в основном, на профессиональных западных покупателей.

«Контекст» - продукт компании «Информатик». В настоящее время продается версия «Контекст 4.0». Эта программа предоставляет относительно большой набор специализированных авторских словарей. Программная оболочка «Контекста» достаточно проста, но имеет одно ярко выраженное преимущество. После ввода слова сразу осуществляется его морфологический анализ. Такой «интеллект» программы позволяет ввести для поиска в словаре слово в любом падеже или склонении. Программа определит его основу, найдет нормальную форму и уже по ней - словарную статью.

Lingvo - продукт компании ABBYY [Software House] (www.lingvo.ru). Недавно выпущена новая версия Lingvo 8.0. Характерной особенностью словарей Lingvo, отличающей их от остальных издательств, является отсутствие четко выраженного авторства главных базовых словарей. На сайте компании на многих словарях стоит копирайт самой ABBYY. Учитывая, что на создание словарей у специалистов уходят многие годы, что превышает время существования самой компании, можно высказать существенные сомнения по поводу качества подобных изданий. Эти сомнения подтверждаются и сравнением объема. Например, на сайте издательства ЭТС заявлено, что их большой политехнический словарь имеет 1 миллион 200 тысяч индексируемых терминов, в то время как аналогичный словарь, представленный в Lingvo, использует, как следует из списка словарей на сайте компании, лишь 200 тысяч статей - для прямой и 125 тысяч статей - для обратной индексации.

Lingvo имеет относительно  простой, но, на мой взгляд, не  вполне удачный интерфейс. Разделенные  окна и расположенная в нижней  части формы строка ввода создают  эффект «метания взгляда» по  экрану и заставляют излишне  напрягать зрение. Но, тем не менее, Lingvo пока остается наиболее популярным  у студентов и начинающих пользователей  словарем: это обусловлено, в первую  очередь, его максимальной доступностью  на «развалах» и в киосках.

Замечательно, что нам  есть что выбрать на рынке по своему личному вкусу и для индивидуальных целей использования: от игрушки  до серьезных профессиональных словарных  баз данных. Лидеры здесь мне представляются очевидными: «МультиЛекс» - для общеобразовательных  целей и Polyglossum - для задач переводчиков и для иной профессиональной деятельности такого рода.

5.2 Характеристика Promt

 

PROMT Translation Office 2000 - это набор  профессиональных инструментов, который  в зависимости от вида поставки  включает различные пары перевода:

    • английский-русский-английский;
    • немецкий-русский-немецкий;
    • французский-русский-французский;
    • итальянский-русский;
    • "Гигант" (включает все вышеперечисленные языковые направления).

 

PROMT обеспечивает связный  перевод текстов с учетом морфологических,  синтаксических и семантических  связей.

 

Система имеет дружественный  интерфейс и легка в освоении. В рамках одной системы доступен не только перевод, но и полный спектр сервиса по работе с документами. Система настраивается на перевод  конкретных текстов, предоставляет  возможность подключения специализированных предметных словарей.

PROMT - модульная система  с возможностью выборочной установки  необходимых компонентов из восьми  доступных, которые предоставляют  следующие возможности: 

SmarTool - реализует функции  перевода в приложениях Microsoft Office;

Mail Translator - встраивается в Outlook 2000;

PROMT - профессиональная среда  перевода;

Dictionary Editor - средство создания  и коррекции словарей;

Electronic Dictionary (входит только  в комплектации "Гигант" и ERRE);

WebView - браузер-переводчик;

QTrans - упрощенный редактор-переводчик;

Clipboard Translator - переводчик  текстов буфера обмена;

Интегратор - средство доступа  к приложениям семейства.

 

Профессиональная среда  перевода PROMT предоставляет собой  мощный текстовый редактор с настраиваемым  интерфейсом в стиле Microsoft Word 2000. Вся работа с исходным текстом  и переводом осуществляется в  окне документа (рис. 1).

 

 

Рисунок 1

 

Система позволяет не только осуществлять перевод текстов, но и  производить весь комплекс офисной  работы с документами (рис. 2).

 

 

Рисунок 2

 

Возможен итерационный перевод  текста с коррекцией словаря. Каждый цикл повышает качество перевода. Система  поддерживает также использование  препроцессоров2, влияющих на качество перевода.

Встраивание перевода в приложения MS Office (SmarTool)

 

Данный компонент реализует  функции перевода в приложениях Microsoft Office 2000 и позволяет добавлять  полнофункциональное меню перевода в различные приложения Microsoft Office. На рис. 3 показан процесс перевода абзаца текста с замещением русского текста на английский непосредственно из приложения MS Word.

 

 

Рисунок 3

 

Соответственно, аналогичным  образом можно подготовить различные  типы документов, используя функции  перевода в других приложениях Microsoft Office. Подобная организация перевода приложений особенно удобна, когда  вам постоянно требуется перевод. Однако если потребности перевода являются эпизодическими, то, на наш взгляд, встроенная система не очень удобна, так как  достаточно сильно увеличивает время  на запуск приложений MS Office и инициализацию  модуля перевода.

В ряде случаев полезной является функция Text-To-Speech (TTS), которая  позволяет озвучить переведенный документ.

 

Средство просмотра Web-сайтов (WebView)

 

WebView представляет собой  средство просмотра Web-страниц  на иностранных языках с автоматическим  переводом. 

 

Система обеспечивает сравнительно быстрый онлайновый перевод текста и гиперссылок, позволяет осуществить  одновременный просмотр исходной Web-страницы и страницы перевода, сохраняет форматирование при переводе.

 

Пользователь имеет возможность  выбора тематики и направления перевода. Естественно, при наличии графических  элементов на странице объем переводимых единиц снижается (рис.4).

Рисунок 4

 

WebView использует новую  технологию запоминания тематики  для перевода - SmartURL, которая заключается  в том, что приложение запоминает  тематику и направление перевода  той или иной переводимой Web-страницы  и при повторном обращении  использует запоминаемые параметры  автоматически. 

Настройщик словарей (Dictionary Editor)

 

В процессе перевода ряд  слов часто бывает переведен неудачно, а некоторые вовсе не переведены. Эффективность перевода повышается при помещении подобных слов в  пользовательские словари или за счет изменений в текущем словаре. Настройка словарей осуществляется с помощью Dictionary Editor, имеющего интеллектуальные алгоритмы пополнения словарей.

 

 

 

 

6 Оценка машинного перевода

 

Полностью автоматический высококачественный перевод оказался практически недостижимым, как и предсказывал И.Бар- Хиллел. Конкретных пользователей промышленного  МП интересует, может ли МП производить продукт, приемлемый по качеству с точки зрения некоторой конкретной задачи, является ли МП экономически эффективным (по скорости, стоимости, затратам на расширение системы и т.д.).

Основные параметры качества, по которым обычно производится оценка во многих системах, - это понятность (в какой мере выходной текст автоматического перевода может быть понят читателем без обращения к оригиналу) и адекватность (насколько точно он передает смысл оригинала). В некоторых системах к указанным параметрам добавляется еще грамматическая правильность (отсутствие нарушений законов построения синтаксической структуры переводящей фразы).

Ряд авторов на основании своих  оценок делают вывод, что компьютер  дает правильно построенный и  легко понимаемый перевод, обычно верный и с точки зрения передачи смысла. Однако данные других авторов противоречат этому: приводятся примеры, которые  получили по параметру адекватности низкую оценку, а по параметру понятности высокую.

Кратко остановимся на возможностях применения системы МП. Во-первых, программы-переводчики  могут быть использованы для быстрого перевода текста в целях понимания его смысла. Конечно, по качеству машинный перевод не может сравниться с переводом, сделанным человеком, но зато пользователь получает ответ сиюминутно. Кроме того, с помощью систем МП можно читать информацию, размещенную на зарубежных сайтах, а также понять текст присланного письма, написанного на французском, немецком, японском или ином языке. Помимо этого системы МП могут быть использованы для решения задач профессионального перевода и значительно повысить эффективность работ. По сравнению с МП традиционный перевод обычно включает несколько этапов: перевод, редакторская правка, верстка, корректура. При этом в целях ускорения перевод, как правило, выполняют несколько переводчиков. Вследствие этого возникает проблема единой терминологии и единого стиля перевода, что увеличивает затраты на редакторскую правку. Кроме того, значительные усилия приходится тратить на переверстку документа.

Системы МП, используя для перевода общую словарную базу, в значительной степени минимизируют затраты на поддержание единой терминологии, а следовательно, на редакторскую правку. При этом технический редактор получает от системы МП перевод, выполненный в едином стиле. Таким образом, использование систем машинного перевода наиболее эффективно для организации технологического процесса по переводу больших массивов однотипных документов в сжатые сроки с обеспечением единства терминологии и стиля по всему массиву документов.

Возможность применения системы МП определяется ее способностью адаптироваться к переводу документов различной тематики. Качество получаемого перевода в значительной степени зависит от настройки. Помимо обще-лексического словаря должны использоваться специализированные словари, отражающие как тематику перевода, так и специфику конкретных документов. Кроме того, качество переводов зависит от возможности создания переводчиком собственных пользовательских словарей, которые должны включать терминологию, характерную для данной документации, а также часто встречающиеся обороты/фразы/выражения (микросегменты), перевод которых не может быть формальным. Подобная настройка гарантирует качество, при котором применение МП становится эффективным для решения задач «промышленного» перевода.

Информация о работе Оценка машинного перевода