Програмные системы -переводчики

Автор работы: Пользователь скрыл имя, 07 Мая 2012 в 16:24, контрольная работа

Описание работы

Принято считать, что мировая история машинного перевода началась с развитием компьютеров, однако идея создания механизма, способного осуществлять перевод текста с одного языка на другой, появилась еще в первой половине XVII века. Появление компьютеров позволило начать воплощение этих проектов в жизнь.

Содержание работы

ВВЕДЕНИЕ..............................................................................................................3

1. ИСТОРИЯ РАЗВИТИЯ СИСТЕМ МАШИННОГО ПЕРЕВОДА И ИХ СОВРЕМЕННОЕ СОСТОЯНИЕ............................................................................4
История машинного перевода как научно-прикладного

направления...................................................................................................4

2. ПРОГРАММНЫЕ СИТЕМЫ-ПЕРЕВОДЧИКИ.............................................14

2.1 Понятие и принцип работы программы-переводчика.......................14

2.2 Классификация систем перевода.........................................................19

3. АНАЛИЗ ПОПУЛЯРНЫХ СИСТЕМ – ПЕРЕВОДЧИКОВ..........................22

3.1 Характеристика онлайн-переводчиков...............................................22

3.2 Характеристика технологии Translation Memory...............................24

3.3 Анализ комбинированных систем.......................................................27

4 .СРАВНИТЕЛЬНЫЙ АНАЛИЗ ПЕРЕВОДОВ, ВЫПОЛНЕННЫХ ПРОГРАММАМИ PROMT И PRAGMA............................................................29

5.ЗАКЛЮЧЕНИЕ..................................................................................................33

6.СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ.........................................34

Файлы: 1 файл

Контр.работа.Информатика.Программные_системы_переводчики.docx

— 59.60 Кб (Скачать файл)

Одной из новых разработок этого периода стала технология TM (translation memory), работающая по принципу накопления: в процессе перевода сохраняется  исходный сегмент (предложение) и его  перевод, в результате чего образуется лингвистическая база данных; если идентичный или подобный исходному  сегмент обнаруживается во вновь  переводимом тексте, он отображается вместе с переводом и указанием  совпадения в процентах. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется  системой. А в конечном итоге «не  нужно дважды переводить одно и то же предложение!». В настоящее время  разработчиком известной коммерческой системы, основанной на технологии TM, является система TRADOS (основана в 1984 г.).

В СССР с середины 70-х годов  были созданы промышленные системы  машинного перевода с английского  языка на русский АМПАР (на основе исследований и разработок коллектива Ю. А. Моторина), с немецкого языка  на русский НЕРПА, с французского языка на русский ФРАП, автоматические терминологические словари в  помощь человеку-переводчику. Система  АМПАР длительное время находилась в промышленной эксплуатации; впоследствии на ее базе были созданы более эффективные  системы МП для персональных компьютеров  семейства СПРИНТ; была также разработана  система МП с русского языка на английский АСПЕРА. На этих разработках  основываются такие системы машинного  перевода, как Stylus, Socrat и другие.

От 90-х к XXI веку

90-е годы принесли с  собой бурное развитие рынка  ПК (от настольных до карманных)  и информационных технологий, широкое  использование сети Интернет (которая  становится все более интернациональной  и многоязыкой). Все это сделало  возможным, а главное востребованным, дальнейшее развитие систем МП. Появляются новые технологии, основанные  на использовании нейронных сетей, концепции коннекционизма, статистических методах.

В настоящее время несколько  десятков компаний занимаются разработкой  коммерческих систем МП, в их числе: Systran, IBM, L&H (Lernout & Hauspie), Language Engineering Corporation, Transparent Language, Nova Incorporated, Trident Software, Atril, TRADOS, Caterpillar Co., LingoWare; Ata Software; Lingvistica b.v. и др. В настоящее время в  Российской Федерации продолжаются в незначительных масштабах некоторые  работы по системам МП, основанным на подходе  «текст-смысл-текст», не всегда явно проговариваемым  лозунгом которого в момент обоснования  этого подхода в 1960-х годов  был «машинный перевод без  перевода, без машин, без алгоритмов». Идея подхода заключалась в том, что от лингвиста требуется только декларативное описание фактов языка (т.е. лингвистическая теория, претендующая, правда, на особую точность и формализованность), а алгоритмы перевода составят программист  и математик. В рамках этих исследований были получены значительные теоретико-лингвистические  результаты (в частности, создана  теория так называемых лексических  функций, нашедшая применение в лексикографии), однако для создания практических систем подобного рода подход оказался недостаточно эффективным. Все практические системы  без исключения используют идею переводных соответствий, т.е. в их основе лежит  модель «текст-текст», и они реализуют  краткую схему перевода. Неизмеримо выросшие за последние десятилетия  возможности вычислительной техники  и новые программистские подходы  никак не могут помочь реализовать  идеи анализа и синтеза, основанные на приоритете выявления только синтаксической структуры с последующим переходом  к смыслу.

За рубежом эксплуатируется  целый ряд систем машинного перевода. Наиболее известной из их числа является система Systran, разработанная и поддерживаемая компанией Systran Software Inc, используемая службой  машинного перевода при комиссии Европейского союза.

Появилась возможность воспользоваться  услугами автоматических переводчиков непосредственно в Сети: www.alphaworks.ibm.com/ aw.nsf/html/mt; www.freetranslation.com; www.transtlate.ru; www.logomedia.net/text.asp; www.foreignword.com/Tools/transnow.htm; babelfish.altavista.com/translate.dyn; infinit.reverso.net/traduire.asp; www.t-mail.com.

С начала 1990-х годов на рынок систем ПК выходят отечественные  разработчики.

В июле 1990 года на выставке PC Forum в Москве была представлена первая в России коммерческая система машинного  перевода под названием PROMT (PROgrammer’s Machine Translation). В 1991 г. было создано ЗАО  «ПРОект МТ», и уже в 1992 г. компания «ПРОМТ» выиграла конкурс NASA на поставку систем МП (ПРОМТ была единственной неамериканской фирмой на этом конкурсе).

Несмотря на такую долгую историю, фактически всеми системами  осуществляется перевод только на уровне поверхностного синтаксиса, поскольку  еще не разработаны (по всей видимости) эффективные модели формального  представления смысла, носителем  которого должен выступать язык-посредник  – интерлингва, хотя для отдельных  узких отраслей такие модели строятся (например, METEO и LingoWare). Специалисты  связывают построение адекватных систем МП с развитием искусственного интеллекта: машина сможет переводить с одного языка на другой, когда научится думать, как человек.

Другой путь совершенствования  МП, более доступный на современном  этапе, – составить корпус соответствий на двух языках. Можно предположить, что такие работы ведутся, и многими  разными командами, но их действия не скоординированы, и потому результат  слишком мал.

Критики современных систем МП полагают, что установка на жанровую ограниченность (научить машину сначала  понимать совсем простые, специально отобранные тексты) на практике привела к тому, что задача моделирования естественного языка фактически уступила место задаче моделирования ограниченных (и крайне примитивных) подъязыков отдельных отраслей знания. При этом наилучшего результата на этом пути, как известно, достигла канадская система TAUM-METEO, отлично выполняющая задачу англо-французского перевода сводок погоды. Простейшим видом систем такого рода являются автоматические разговорники для туристов, предлагающие пользователю более или менее разнообразные «меню» стандартных вопросов и ответов на двух или нескольких языках.

Существующий в настоящее  время «словоцентрический» подход (когда машина выбирает и переводит  главным образом отдельные слова) объясняется тем, что выделяется то, что легко выделить (слова  разделены пробелами), и, соответственно, это переводится. Однако человек (в  том числе тот, который занимается переводом) имеет дело с текстом, когда отдельное предложение  приобретает смысл как часть  более широкого контекста: соседние предложения определяют и объясняют  многие невыраженные или неоднозначные  элементы каждого отдельного высказывания. На настоящем же этапе часто самыми удобными для понимания оказываются  такие системы МП, которые выполняют  перевод пословно: фраза корявая, но видно, как она получилась, и, если есть поддержка в виде знания исходного  языка, легко догадаться, что же было в оригинале, и увидеть, какие  слова переведены неверно. Те системы, которые переводят текст пословно, зачастую оказываются удобнее: видно, откуда фраза взялась. Если хотя бы поверхностно знать язык оригинала, можно понять, что же было в первоначальном варианте, и какие слова переведены неверно. Системы МП, которые обрабатывают фразу синтаксически, избегая «корявости», часто выдают гладкие, но совершенно невразумительные переводы. 

 

 

2 ПРОГРАММНЫЕ  СИТЕМЫ-ПЕРЕВОДЧИКИ

 

 

2.1 Понятие и принцип работы программы переводчика

 

Машинный перевод –  выполняемое на компьютере действие по преобразованию текста на одном  естественном языке в эквивалентный  по содержанию текст на другом языке, а также результат такого действия. Чтобы компьютер мог перевести  текст, ему нужна помощь предредактора, который тем или иным образом  предварительно обрабатывает подлежащий переводу текст, интерредактора, который  участвует в процессе перевода, и  постредактора, который исправляет ошибки и недочеты в переведенном машиной тексте.

В основе работы систем-переводчиков лежит алгоритм перевода – последовательность однозначно и строго определенных действий над текстом для нахождения соответствий в данной паре языков L1 – L2 при заданном направлении перевода (с одного конкретного языка на другой). Обычные словари и грамматики разных языков не применимы для машинного перевода, так как описывают значения слов и грамматические закономерности в нестрогой форме, никак не приемлемой для «машинного» использования. Следовательно, нужна формальная грамматика языка, т.е. логически непротиворечивая и явно выраженная (безо всяких подразумеваний и недомолвок). Как только начали появляться формальные описания различных областей языка – прежде всего морфологии и синтаксиса, – наметился прогресс и в разработке систем автоматического перевода. Чтобы успешно работать, система машинного перевода включает в себя, во-первых, двуязычные словари, снабженные необходимой информацией (морфологической, относящейся к формам слова, синтаксической, описывающей способы сочетания слов в предложении, и семантической, т.е. отвечающей за смысл), а во-вторых – средства грамматического анализа, в основе которых лежит какая-нибудь из формальных, т.е. строгих, грамматик. Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода:

1. На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы, например, каким членом предложения может быть данное слово. В школьном грамматическом разборе предложения мы опираемся и на значения слов, составляющих предложение (например, отыскивая подлежащее, задаем вопрос: о чем говорится в предложении?). Для машины же совмещение двух этих операций – и грамматического разбора, и обращения к смыслу слов – задача трудная. Лучше сделать синтаксический анализ не зависящим от смысла слов, а словарь использовать на других этапах перевода.

Что такое независимый  синтаксический анализ, можно понять, если попытаться разобрать фразу, из которой «убраны» значения конкретных слов. Блестящим образцом фразы такого рода является придуманное академиком Л. В. Щербой предложение: Глокая куздра штетко будланула бокра и кудрячит бокрёнка. Бессмысленная фраза? Как  будто да: в русском языке нет  слов, из которых она состоит (кроме  союза и). И все же в какой-то степени мы ее понимаем: «куздра» –  это существительное (мы даже можем  предположить, что оно обозначает какое-то животное), «глокая» – определение  к нему, «будланула» – глагол-сказуемое (похожий на толканула, боднула), «штетко» – скорее всего, обстоятельство образа действия (что-то вроде сильно, резко), «бокра» – это прямое дополнение («будланула» кого? – «бокра») и т. д.

То есть машина осуществляет синтаксический анализ предложения  без опоры на значения составляющих его слов, с использованием информации только об их грамматических свойствах. В результате синтаксического анализа  возникает синтаксическая структура, которая изображается в виде дерева зависимостей: «корень» – сказуемое, а «ветви» – синтаксические отношения  его с зависимыми словами. Каждое слово предложения записывается в своей словарной форме, а  при ней указываются те грамматические характеристики, которыми обладает это  слово в анализируемом предложении.

2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа in case of, in accordance with получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, их роли в данном предложении и пр.), производимое в рамках входного языка; разрешение неоднозначности (скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом); анализ и перевод слов. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения.

3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, притом, что в оригинале может быть и единственное число).

4. Синтез выходных словоформ и предложения в целом на выходном языке. Здесь не получится обойтись простым переводом «узлов» дерева на другой язык. Синтаксис каждого языка устроен на свой лад: то, что в русском предложении – подлежащее, в другом языке может (или должно) быть выражено дополнением, а дополнение, наоборот, должно преобразоваться в подлежащее; то, что в одном языке обозначается группой слов, переводится на другой всего одним словом и т. д. Так, при переводе русской фразы «У меня была интересная книга» на английский язык глагол «быть» надо перевести глаголом to have – «иметь», сочетание «у меня» преобразовать в подлежащее I («я»), а слово «книга», которое в русском языке – подлежащее, по-английски должно стать прямым дополнением: I had an interesting book (буквально: «Я имел интересную книгу»). В связи с этим в машинную память помимо наборов синтаксических правил для каждого языка «вкладывают» и правила преобразования синтаксических структур. К этому добавляют правила перехода от уже преобразованной структуры к предложению того языка, на который делается перевод. Такой переход от структуры к реальному предложению называется синтаксическим синтезом.

В зависимости от особенностей морфологии, синтаксиса и семантики  конкретной языковой пары, а также  направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных  этапов или порядка их следования, но вариации такого рода в современных  системах, как правило, незначительны. Анализ и синтез могут производиться  как пофразно, так и для всего  текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так  называемых анафорических связей (такова, например, связь местоимения с  замещаемым им существительным –  скажем, местоимения им со словом местоимения  в самом этом пояснении в скобках).

Для решения проблемы многозначности слова используется анализ контекста. Дело в том, что каждое из нескольких значений многозначного слова в  большинстве случаев реализуются  в своем наборе контекстов. То есть у каждого из «конкурирующих» (при  интерпретации) значений – свой набор  контекстов. И именно вот эта зависимость  значения от окружения позволяет  слушающему понять высказывание правильно. Для правильного понимания высказывания необходимо в полной мере учитывать  также правила обусловленности  выбранного значения лексическим окружением (действующие при «фразеологической» интерпретации слова), правила обусловленности  выбранного значения семантическим  контекстом (так называемые законы семантического согласования) и правила  обусловленности выбранного значения грамматическим (морфолого-синтаксическим) контекстом. То есть для решения  проблемы «моносемизации» слов при  автоматическом переводе основой служит изучение и тщательное описание закономерностей  лексической, семантической и грамматической сочетаемости. При этом правила такой  сочетаемости достаточно подробно описываются  в словарях – а именно, (а) с  мощным охватом лексики, но весьма бегло  и нетщательно, а также весьма имплицитно это делается в традиционной лексикографии; и, с другой стороны, (б) в выборочном порядке (со слабым охватом лексики), но зато весьма аккуратно  и тщательно, и довольно-таки эксплицитно  это делается в работах по «толково-комбинаторной» лексикографии (последних сорока лет).

Информация о работе Програмные системы -переводчики