Автоматизированный перевод

Автор работы: Пользователь скрыл имя, 18 Ноября 2012 в 19:30, курсовая работа

Описание работы

За последние 10-15 лет характер работы переводчика и требования к нему существенно изменились. В первую очередь изменения коснулись перевода научно-технической, официальной и деловой документации.

Файлы: 1 файл

Автоматизированный перевод.doc

— 763.00 Кб (Скачать файл)

Вступление

За последние 10-15 лет характер работы переводчика  и требования к нему существенно  изменились. В первую очередь изменения  коснулись перевода научно-технической, официальной и деловой документации. Сегодня уже недостаточно просто перевести текст, пользуясь компьютером как пишущей машинкой. Заказчик ожидает о переводчика, что оформление готового документа будет соответствовать внешнему виду оригинала настолько точно, насколько это возможно, при этом удовлетворять принятым в данной стране стандартам. От переводчика требуется также умение эффективно использовать  ранее выполненные заказы на ту же тему, а работодатель, в свою очередь, рассчитывает на заметную экономию времени и средств при переводе повторяющихся или похожих фрагментах текста. Эти жесткие, зачастую противоречивые условия можно соблюсти лишь в том случае, если переводчик не только в совершенстве владеет родным и иностранным языком и глубоко изучил выбранную им предметную область, но и уверенно ориентируется в современных компьютерных технологиях.

Ключевой для  переводчика технической документации в данных условиях является технология TRANSLATION MEMORY (TM). Системам машинного перевода уделено мало места, так как возможности  их ограничены и это не позволяет  рекомендовать их для применения в процессе профессиональной работы над текстом.

В последнее  время устойчиво возрастает объем  переводов, связанных с информационными  технологиями, причем переводческим  и компьютерным компаниям приходится иметь дело не только с подготовкой  документации, но и с локализацией программного обеспечения, т.е. с переводом ресурсов, содержащихся в exe- и dll- файлах. И с последующим тестированием ПО.

Что же такое  машинный перевод и системы автоматизированного  перевода, чем они отличаются и  как могут помочь переводчику в его работе.

 

1.1 Машинный перевод.

Машинный перевод (MT англ. Machine Translation) — процесс перевода текстов (письменных, а в идеале и устных) с одного естественного языка на другой полностью специальной компьютерной программой. Так же называется направление научных исследований, связанных с построением подобных систем.

Мысль использовать ЭВМ для перевода была высказана  в 1947 году в США, сразу после появления  первых ЭВМ. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году. Несмотря на примитивность той системы (словарь в 250 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и других странах; в том же 1954 году и в СССР.

К середине 1960-х  в США для практического использования  были предоставлены две системы  русско-английского перевода:

  • MARK (в Департаменте иностранной техники ВВС США);
  • GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).

Однако созданная  для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно переведённых текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой тематике.

Тем не менее, в  ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и  персональных компьютеров, а с ними всё более сложных словарных, поисковых и т. п. систем, ориентированных на работу с естественноязыковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъёму этой области, наступившему примерно с середины 1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.

Впрочем, мечты, с которыми человечество полвека  назад взялось за задачу машинного  перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз.

В настоящее  время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания Systran. В России большой вклад в развитие машинного перевода внесла группа под руководством проф. Р. Г. Пиотровского (Российский государственный педагогический университет имени А. И. Герцена, Санкт-Петербург).

 

Статистический  машинный перевод

Статистический  машинный перевод — это разновидность  машинного перевода текста, основанная на сравнении больших объёмов  языковых пар. Языковые пары — тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода. Под понятием «статистического машинного перевода» подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчеты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчеты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединенных наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода.

Формы организации  взаимодействия ЭВМ и человека при  машинном переводе:

  • С постредактированием: исходный текст перерабатывается машиной, а человек-редактор исправляет результат;
  • С предредактированием: человек приспосабливает текст к обработке машиной (устраняет возможные неоднозначные прочтения, упрощает и размечает текст), после чего начинается программная обработка;
  • С интерредактированием: человек вмешивается в работу системы перевода, разрешая трудные случаи;
  • Смешанные системы (например, одновременно с пред- и постредактированием).

 

Качество перевода с использованием машинных средств.

Качество перевода зависит от тематики и стиля исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке.[источник не указан 128 дней] Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.

Применение машинного  перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бытующих в Интернете шуток. Из старых и  наиболее популярных примеров наиболее известен текст перевода документации к драйверу мыши, известный как «Гуртовщики Мыши», заявленный как «перевод компьютерной документации программой Poliglossum на основе медицинского, коммерческого и юридического словарей». Из кратких — фраза «Our cat gave birth to three kittens — two whites and one black», которую онлайн-переводчик «ПРОМТ» (версия 7.0, 2007) превращал в «Наш кот родил трёх котят — двух белых и одного афроамериканца».[5] Если «афроамериканца» ещё можно было сделать «чёрным», написав «black kitten», то «коту» так и не получалось сменить пол: например, female cat переводился как «самка кот».

Чаще всего  подобные шутки связаны с тем, что программа не распознаёт контекст фразы и переводит термины  дословно, к тому же не отличая собственных имён от обычных слов. Тот же переводчик ПРОМТ превращает «Лев Толстой» в «Lion Thick» («толстый лев»), «bra-ket notation» в «примечание Кети лифчика», «Lie algebra» — в «алгебру Лжи», «eccentricity vector» — в «вектор оригинальности», «Shawnee Smith» в «индеец племени шони Смит» и т. п. Переводчик Google, наоборот, слово «rice» часто принимал за фамилию госсекретаря США. Также одним из показательных примеров использования машинного перевода без редактуры является данный веб-сайт: http://querywords.ru/english/Finder%27s+Fee

 

1.2 Автоматизированный перевод http://ikit.edu.sfu-kras.ru/files/12/ch01s01s01.pdf

Вместо «машинный» иногда употребляеся слово «автоматический», что не влияет на смысл. Однако термин «автоматизированный» перевод имеет совсем другое значение — при нём программа просто помогает человеку переводить тексты.

Автоматизированный  перевод (АП или САТ англ. Computer-Aided Translation) — перевод текстов на компьютере с использованием компьютерных технологий. От машинного перевода (МП) он отличается тем, что весь процесс перевода осуществляется человеком, компьютер лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством.

Автоматизированный  перевод предполагает такие формы  взаимодействия:

• Частично автоматизированный перевод: например, использование переводчиком-человеком компьютерных словарей.

• Системы с разделением труда: компьютер обучен переводить только фразы жёстко заданной структуры (но делает это так, чтобы исправлять за ним не требовалось), а всё не уложившееся в схему отдает человеку.

Идея АП появилась  с момента появления компьютеров: переводчики всегда выступали против стандартной в те годы концепции МП, на которую было направлено большинство исследований в области компьютерной лингвистики, но поддерживали использование компьютеров для помощи переводчикам. В 1960-е годы Европейское объединение угля и стали (предшественник современного Евросоюза) стало создавать терминологические базы данных под общим названием Eurodicautom. В Советском Союзе для создания баз такого рода был создан ВИНИТИ.

В современной  форме идея АП была развита в статье Мартина Кея 1980 года, который выдвинул следующий тезис: "By taking over what is mechanical and routine, it (computer) frees human beings for what is essentially human" («Компьютер берет на себя рутинные операции и освобождает человека для операций, требующих человеческого мышления»).

В настоящее время наиболее распространенными способами использования компьютеров при письменном переводе является работа со словарями и глоссариями, памятью переводов (англ. Translation Memory, TM), содержащей примеры ранее переведенных текстов, а также использование так называемых корпусов, больших коллекций текстов на одном или нескольких языках, что дает сжатое описание того, как слова и выражения реально используются в языке в целом или в конкретной предметной области.

Для локализации  программного обеспечения часто применяются специализированные средства, например, Passolo, которые позволяют переводить меню и сообщения в программных ресурсах и непосредственно в откомпилированных программах, а также тестировать корректность локализации. Для перевода аудиовизуальных материалов (главным образом фильмов) также используются специализированные средства, например, Swift, которые объединяют в себе некоторые аспекты памяти переводов, но дополнительно обеспечивают возможность появления субтитров по времени, их форматирования на экране, следования видеостандартам и т.п.

При синхронном переводе использование средств  автоматизированного перевода по необходимости  ограничено. Одним из примеров является использование словарей, загружаемых  на КПК. Другим примеров может служить полуавтоматическое извлечение списков терминов при подготовке к синхронному переводу в узкой предметной области.

В узких предметных областях при большом количестве исходных текстов и устоявшейся  терминологии переводчики могут  использовать и машинный перевод, который может обеспечить хорошее качество перевода терминологии и устойчивых выражений в узкой области. Переводчик в этом случае осуществляет пост-редактирование полученного текста. Более половины текстов внутри Еврокомиссии (главным образом юридические тесты и текущая корреспонденция) переводится с использованием МП.

Автоматизированный  перевод — это широкое и  понятие, охватывающее широкий спектр простых и сложных инструментов. Они могут включать:

  • Программы для проверки правописания, которые могут быть встроены в текстовые редакторы или дополнительные программы;
  • Программы для проверки грамматики, которые также встраиваются в текстовые редакторы или дополнительные программы;
  • Программы для управления терминологией, которые позволяют переводчикам управлять своей собственной терминологической базой в электронной форме. Это может быть и простая таблица, созданная в текстовом редакторе, и электронная таблица, и база данных, созданная в программе FileMaker. Для более трудоемких (и более дорогих) решений существует специальное программное обеспечение, например, LogiTerm, MultiTerm, Termex, TermStar и т. п.
  • Словари на компакт-дисках, одноязычные или многоязычные;
  • Терминологические базы данных, хранимые на компакт-дисках или подключаемые по Интернету, например The Open Terminology Forum или TERMIUM;
  • Программы для полнотекстового поиска (или индексаторы), которые позволяют пользователю обращаться с запросами к ранее переведенным текстам или разного рода справочным документам. В индустрии переводов известны такие индексаторы, как Naturel, ISYS Search Software и dtSearch;
  • Программы конкорданса, которые позволяют находить примеры слов или выражений в употребляемом контексте в одноязычном, двуязычном или многоязычном корпусе, как например, битекст или память переводов, например Transit NXT;
  • Битекст, одно из нововведений последнего времени, это результат слияния исходного текста и его перевода, который впоследствии может быть проанализирован при помощи программ для полнотекстового поиска или конкорданса;
  • Программное обеспечение для управления проектами, которое позволяет лингвистам структурировать сложные переводческие проекты, передавать выполнение различных задач разным сотрудникам и наблюдать за процессом выполнения этих задач;
  • Программы управления памятью переводов (TMM), состоящие из базы данных сегментов текста на исходном языке и их переводов на один или более целевых языков, например Transit NXT;
  • Почти полностью автоматические системы, напоминающие машинный перевод, но позволяющие пользователю вносить определенные изменения в сомнительных случаях. Иногда такие программы называют машинным переводом с участием человека.

Информация о работе Автоматизированный перевод