Сравнительный анализ программ машинного перевода

Автор работы: Пользователь скрыл имя, 02 Июня 2013 в 10:15, курсовая работа

Описание работы

Современный мир предъявляет повышенные требования к человечеству в связи с образованием единого информационного пространства. Отсутствие знания иностранного языка больше не является препятствием для международной коммуникации. Благодаря повсеместному распространению доступа к сети интернет роль перевода в жизни человечества неуклонно возрастает, в связи с тем, что в настоящее время почти все сферы человеческой деятельности сталкиваются с необходимостью перевода. Переводу с одного языка на другой подвергаются деловая и личная корреспонденция, художественные произведения, стихи, проза, тексты песен, научные книги, дипломатические документы, газетные материалы, интервью и т.д.

Содержание работы

1.Введение....................................................................................................3
2.История развития машинного перевода ................................................5
3.Механизм машинного перевода ...........................................................12
4.Машинный перевод: миф или реальность ...........................................16
5. Сравнительный анализ программ машинного перевода.……….......25
6.Заключение ..............................................................................................33
7.Список используемой литературы ........................................................35

Файлы: 1 файл

машинный перевод.doc

— 196.50 Кб (Скачать файл)

В отличие от других сервисов перевода, таких как Babel Fish и AOL, которые используют английскую технологию SYSTRAN, Google, как и Translate.ru разработал собственное программное обеспечение. Google  Translate использует самообучаемый алгоритм статистического машинного перевода. Слово «статистика» в названии технологии сразу наводит на размышления о том, что в системе применены математические методы для получения перевода. Весь принцип работы основан на статистическом вычислении вероятности совпадений фраз из исходного текста с фразами, которые хранятся в базе системы перевода, другими словами эта технология основана на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. Такие системы перевода строятся на основе сравнения больших объемов корпусов параллельных текстов.

 Корпус параллельных  текстов — это тексты, содержащие  предложения на одном языке  и соответствующие им предложения  на втором.34 Статистический машинный перевод обладает свойством «самообучения»: то есть, чем больше в распоряжении имеется параллельных корпусов текстов и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода. Для работы такой системы необходимы огромные базы параллельных текстов, где попарно хранятся словосочетания (фразы из 2–3 слов) и их переводы, так называемые N-граммы. Очевидно, что практически единственным и совершенно неисчерпаемым источником такой базы может служить только Интернет. Именно этим можно объяснить, что в сравнительных тестах по переводу с арабского и китайского на английский, проведенных Национальным институтом науки и технологий США в 2009 году, именно он-лайновый переводчик Google Translate  одержал победу35.

 В процессе перевода используется механизм анализа, но не лингвистический, а статистический. Система подбирает вариант перевода, основываясь на частоте совпадений, то есть в конечном итоге будет подставлен вариант, имеющий наиболее высокий процент совпадений. Из-за того, что выдача вариантов контролируется статистическим алгоритмом, при переводе обычных общеупотребительных слов Google Переводчик может предлагать в числе возможных вариантов нецензурные слова. На результат выдачи также можно повлиять, массово предлагая некий, в том числе, заведомо неверный вариант перевода.36

Google Переводчик предлагает перевод  с любого поддерживаемого языка  на любой поддерживаемый, но в  большинстве случаев реально  выполняет перевод через английский язык. Иногда качество от этого сильно страдает. Например, при переводе с польского на русский обычно нарушаются падежи (даже когда они в русском и польском одинаковы).

Преимуществами системы Google Переводчик являются:

  • Сравнительная гладкость перевода,
  • Легкость в построении при достаточном количестве параллельных корпусов,
  • Переносимость технологии на любые языковые пары.

Недостатки системы Google Переводчик:

  • Ограниченность параллельных корпусов в природе, сети интернет,
  • Неумение справляться с морфологией и синтаксисом,
  • Искажение информации (дублирование, пропуск, подмена информации).

 

Подводя итоги анализа программ ПРОМТ  и Google, однозначно сделать вывод о преимуществе какой-либо из них невозможно, поскольку каждая имеет ряд положительных и отрицательных характеристик. Так например, плюсами программы ПРОМТ можно назвать ее самодостаточность, ведь для работы переводчика не требуется доступ к базам параллельных текстов. Кроме того, система позволяет выполнять настройку, что серьезно повышает качество перевода специализированных текстов. Минусом этой технологии можно назвать большую ресурсоемкость работы по улучшению качества перевода — ведь для этого нужно не только разрабатывать новые алгоритмы, но и улучшать многие из ранее созданных.

Напротив, программа Google обладает следующими преимуществами - отсутствие необходимости разработки лингвистических алгоритмов в принципе. Как утверждают разработчики, при наличии свода статистических алгоритмов и базы параллельных текстов можно сделать систему перевода с любого языка. Также перевод получается более приближенный к литературному языку.

Минусом статистических систем является отсутствие учета грамматических правил входного и выходного языков. В результате вместо связного перевода можно получиться совершенно не согласованные предложения с разрушенной структурой.

В качестве практической части данной курсовой работы, проведем сравнительный анализ технологий машинного перевода на примере  программ PROMT и Google.

С целью наглядно продемонстрировать принципы действия рассматриваемых систем-переводчиков, использования ими словарей, грамматики и оценить качество перевода подвергнем пару предложений  переводу.

При анализе  текста выделим два основных критерия:

1) правильность  подбора системой-переводчиком значения слов (уровень лексики),

2) правильность согласования слов в предложении (уровень грамматики, согласование слов в предложении в роде, числе, лице, падеже, а также пунктуация).

Возьмем в качестве примера следующий отрывок текста:

«It would be hard to imagine a more evil piece of work than Robert Alton Harris. After a lifetime of vicious, random crime, in 1979 in California he murdered two teenage boys in cold blood for their car. As he drove away, he finished off the cheeseburgers they had been eating».

Проанализируем  перевод, выполненный системой автоматического перевода PROMT:

«Было бы трудно вообразить более злую обрабатываемую деталь чем Роберт Алтон Харрис. После целой жизни порочного, случайного преступления в 1979 в Калифорнии он убил двух подростков хладнокровно для их автомобиля. Когда он уезжал, он завершил чизбургеры, которые они ели»

Система PROMT успешно справилась с поиском эквивалента английскому выражению «in cold blood». Переведенная машинным переводчиком фраза «обрабатываемую деталь» вызывает неоднозначную реакцию. Скорее всего, данная ошибка вызвана, многозначностью слов «piece» и «work». Кроме того, абсолютно неправильно переводчиком была переведена часть предложения «для их автомобиля».

Более того автор  текста в смысле предложения относится  к детали, человек никогда бы не перепутал одушевленное и неодушевленное. Фразу «finished off the cheeseburgers» переводчик PROMT перевёл как «завершил чизбургер». В русском языке данное словосочетание является недопустимым и естественно неупотребимым. Существенным недостатком перевода ПРОМТ является то, что в выходном языке порядок слов почти всегда такой же, как и во входном.

Тот же самое  предложение подвергнем переводу он-лайн переводчика Google:

«Было бы трудно представить себе большее зло, часть  работы, чем Роберт Альтон Харрис. После целой жизни порочного, случайные преступления, в 1979 году в Калифорнии он убил двух подростков в холодной крови для их автомобиля. Когда он уехал, он прикончил чизбургеры они ели». В отличие от PROMT переводчик  Google не перевёл идиому «in cold blood» и выдал для перевода фразу «в холодной крови», т.е. использовал пословный перевод. Также переводчик Google повторил ошибку PROMT в переводе предлога «for» как «для». Вместо использованного предыдущей программой фразы  «завершил чизбургер» машинный переводчик Google использовал глагол «прикончил», что ничем не лучше предыдущего варианта.

Подводя итоги  проделанного анализа необходимо отметить, что в англо-русском переводе он-лайн программа PROMT совершила 6 ошибок, из которых 2 лексических и 4 грамматических. А система Google в свою очередь допустила 6 ошибок, в числе которых 3 лексических и 3 грамматических.

Второе предложение взято из произведения Джейн Остин «Мэнсфилд-парк». «But Miss Frances married, in the common phrase, to disoblige her family, and by fixing on a lieutenant of marines, without education, fortune, or connexions, did it very thoroughly».

Перевод, выполненный  переводчиком ПРОМТ звучит следующим  образом: «Но мисс Фрэнсис вышла замуж в общей фразе, обижать ее семью, и закрепляя на лейтенанте из морских пехотинцев, без образования, состояния или связей, сделал его очень полностью». Переводчик не подобрал нужного эквивалента фразе «in the common phrase» и перевел его дословно.

Фраза «to disoblige her family»  также не передала истинный смысл автора, поскольку героиня вышла замуж с целью досадить своей семье. Фраза «fixing on a lieutenant» в оригинале должна была быть переведена как «выбрав лейтенанта», а не «закрепляя на лейтенанте» как перевел машинный переводчик ПРОМТ.

 

Google переводчик предоставил следующий результат перевода:

 «Но мисс Фрэнсис замужем, в общей фразе, в досаждать своей семьи, и, фиксируя на лейтенанта морской пехоты, без образования, благосостояния, или связями, сделал это очень тщательно».

 Как и  предыдущий переводчик Google  не нашел нужного эквивалента фразе «in the common phrase». Глагол прошедшего времени «married» переводчик распознал как прилагательное. В словосочетании «to disoblige her family» переводчик передал смысл, но не согласовал члены предложения. Выражение в исполнении переводчика «a lieutenant of marines» - «на лейтенанта морской пехоты» прозвучало вполне достойно.

 Итогами данного анализа является 3 ошибки у он-лайн программы PROMT, из которых 3 лексических и 4 у переводчика Google. В обоих переводах слова в предложениях не согласованны.

Выполнив анализ работы вышеназванных современных систем машинного перевода, мы увидели, что  у каждой системы машинного перевода есть свои сильные и слабые стороны. Продемонстрировав наглядно небезупречность  машинного перевода, необходимо отметить, что на данном этапе развития системы машинного перевода не могут существовать без помощи человека. Поэтому, если мы хотим получить качественный перевод, то без постредактирования человеком не обойтись.

 

Заключение

 

Важнейшее преимущество машинного перевода перед переводом, выполненным человеком – это его оперативность. К тому же в последние годы совершенствование программ позволило достаточно точно переводить многие виды текстов, однако некоторые проблемы машинного перевода остались нерешенными и по сей день.

Рассматривая  машинный перевод, нельзя забывать, что компьютерная программа не способна абсолютно  точно передать смысловую нагрузку, стиль текста, языковые нюансы, намеки в тексте, то есть, то, что называется тонкой игрой слов. Также компьютер не способен правильно подобрать слово в соответствии со смыслом текста или распознать «ложных» друзей-переводчиков. Большой проблемой для авторизированных программ перевода также является разделение языков на аналитические и синтетические. Процесс машинного перевода подразумевает, что предложение расчленяется на части речи, в нем выделяются стандартные конструкции, слова и словосочетания переводятся по находящимся в памяти машины словарям, затем переведенные части речи собираются по правилам другого языка. Мыслительная деятельность в данном процессе отсутствует, в связи, с чем значительно снижается  качество перевода.

Компьютер во многом не может  заменить переводчика. Машинный перевод  условно может быть использован  для перевода литературных текстов, поскольку в результате вашему вниманию будет представлен  лишь черновой вариант перевода.  Конечный вариант будет зависеть, от литературного таланта человека-переводчика, который наполнит текст смыслом, используя различные стилистические приемы, превратив его в истинное произведение искусства.

Иначе дела обстоят с  переводом технических текстов, при котором правильный выбор  специализированного словаря позволит добиться удовлетворительного результата, который иногда требует небольшого вмешательства.

 В мире существует большое количество программ машинного перевода. Наиболее яркими примерами программ машинного перевода в России являются системы Stylus (фирма «ПроМТ») и ПАРС (фирма «Лингвистика 93»).

Развитие сети интернет вызвало повышенный интерес к  системам машинного перевода. Миллионы людей, говорящих на разных языках, оказались в едином информационном пространстве. Английский язык преобладает в сети интернет, поскольку большинство сайтов используют международный язык для привлечения пользователей по всему миру. Естественно, что не все пользователи владеют языком, и привлечение переводчика не всегда целесообразно. Также можно отметить и другие положительные стороны использования технологий машинного перевода, такие как оперативность, конфиденциальность, универсальность перевода, свободный доступ, относительная дешевизна в использовании и т.д.

В настоящий момент технология машинного перевода развивается  ударными темпами. Компьютерные технологии  постоянно совершенствуется, а вместе с ней совершенней становится и машинный перевод.

Мы выяснили, что на данном этапе развития машинный перевод  может быть использован лишь при  переводе технической документации, при последующем редактировании, что во многом объясняется применением  единообразных измерительных систем и правил. Следует отметить, что перевод иностранной литературы без участия посредника-человека данной технологии пока не под силу.

Однако, несмотря на наличие  отрицательных моментов,  машинный перевод имеет право на существование, и вполне возможно, что в недалеком будущем сможет достойно конкурировать с профессиональными переводчиками.

 

Список используемой литературы:

 

  1. Андреева Е.В. «Переведутся ли переводчики?» Журнал  «Мир Интернет», №8, 2002 г.
  2. Андреев. Н.Д. «Система речи и эволюция языка» // «Материалы Всесоюзной конференции по общему языкознанию «Основные проблемы эволюции языка», Самарканд, 1967г.
  3. Анисимов А. В. «Компьютерная Лингвистика для Всех. Мифы. Алгоритмы. Язык» — Киев: Наукова думка, 1991г.
  4. Апокин И.А., Майстров Л.Е., Эдлин И.С. «Чарльз Бэббидж». – М.: Наука,  1981 г.
  5. Арнольд И. В. «Основы научных исследований в лингвистике» — Высшая школа, 1991г.
  6. Базылев В.Н. Освоение текстовых жанров в практике подготовке переводчиков// Межкультурная коммуникация и перевод. – М: ИЯ РАН, 2002
  7. Белоногов Г.Г. Зеленков Ю.Г. Интерактивная система русско-английского и англо-русского машинного перевода, ВИНИТИ, 1993г.
  8. Белоногов Г.Г. «Компьютерная лингвистика и перспективные информационные технологии» — М.: Русский мир, 2004г.
  9. Бельская И.К. Язык человека и машина. М., 1969г.
  10. Беляева Л.Н., Откупщикова М.И. Автоматический (машинный) перевод. – В сб.: Прикладное языкознание. СПб, 1996
  11. Васильев А. Компьютер на месте переводчика. // Подводная лодка. - 1998, № 6
  12. Вейзе А.А., Киреев Н.Б., Мирончиков К. «Перевод технической литературы с английского языка на русский». Минск, 1997г.
  13. Винокуров А.А., Чуканов В.О. «Новый метод оценки машинного перевода».// Информационные технологии и системы, Тенденции и перспективы – Сборник статей: М., Международная академия информатизации, 1997г.
  14. Грязнухина Т. А., Дарчук И. П., Клименко Н. Ф., и др. «Использование ЭВМ в лингвистических исследованиях» / Отв. ред. Перебейнос В. И. — Киев: Наукова думка, 1990г.
  15. Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах. - М., 2002
  16. Казакова Т.А. «Translation Techniques» Практические основы перевода. Изд-во «Союз», 2003
  17. Каничев М. Встреча компьютерных толмачей. // Мир ПК. - 1998, № 8
  18. Кисилевский А.И. Языки и метаязыки энциклопедий и толковых словарей. Минск, 1977
  19. Комиссаров В.Н. «Современное переводоведение» // ЭТС, М., 2009г.
  20. Константин К. «Переведутся ли переводчики?» Мир Интернет, № 8, 2002 г.
  21. Кормалев Д.А. Приложения технологии извлечения информации из текста: теория и практика. - Переяславль-Залесский, 2003
  22. Кузнецов П.С., Ляпунов А.А., Реформатский А.А. «Опыты машинного перевода». Кузнецов // Вопросы языкознания. № 5, 1956 г.
  23. Кулагина О.С.. «О современном состоянии машинного перевода» // Математические вопросы кибернетики, вып. 3, М.: Наука, 1991г.
  24. Любарский Ю.Я. Интеллектуальные информационные системы (Проблемы искусст. интеллекта). — М.: Наука. Гл. ред. физ.-мат. лит., 1980г.
  25. Мальковский М. Г. Диалог с системой искусственного интеллекта. –М.: Издательство московского университета, 1985г.
  26. Марчук Ю. Н. Проблемы машинного перевода. М.: Наука, 1983г.
  27. Марчук Ю. Н. «Основы компьютерной лингвистики. Учебное пособие. Издание 2-е до-полненное» — М.: Изд-во МПУ «Народный учитель», 2000г.
  28. Нелюбин Л.Л. Компьютерная лингвистика и машинный перевод. М., 1991г.
  29. Ножов И. Синтаксический анализ. // Компьютерра. - 2002, №21
  30. Панов Д.Ю. «Перевод с одного языка на другой при помощи машины: отчет о первом успешном испытании» // РЖ ВИНИТИ «Математика»,  № 10, 1954 г.
  31. Ревзин И.И., Розенцвейг В.Ю. «Основы общего и машинного перевода».  М.: Изд-во Высшая школа, 1964г.
  32. Рецкер Я.И. Теория перевода и переводческая практика. – М.: Международные отношения, 1974
  33. Рябцева Н.К. Информационные процессы и машинный перевод. Лингвистический аспект - М., Наука, 1986
  34. Стрелковкий Г.М., Латышев Л.К. Научно-технический перевод. М.: 1980.
  35. Филинов Е.Н. «История машинного перевода». // Виртуальный компьютерный музей, 2002 г.
  36. Хатчингс В.Ж «Первые годы машинного перевода: воспоминания и жизнеописания основателей», Амстердам, 2000 г.
  37. Хроменков П. Н. «Анализ и оценка эффективности современных систем машинного перевода» Диссертация на соискание учёной степени кандидата филологических наук. — М.: РГБ, 2009
  38. Чеповский А. «Неразрешимая проблема компьютерной лингвистики» // Компьютерра №30,2002г.
  39. Черняховская Л.А. Перевод и смысловая структура. – М.: Международные отношения, 1976
  40. Шаляпина З.М. «Автоматический перевод: эволюция и современные тенденции» вопросы языкознания, 1996г.
  41. Якушина М. «Машинный и профессиональный перевод».2008г.

Информация о работе Сравнительный анализ программ машинного перевода