Автор работы: Пользователь скрыл имя, 11 Июня 2013 в 18:36, курсовая работа
Коммуникативная эквивалентность нового текста по отношению к оригиналу обеспечивается выполнением трех основных требований:
текст перевода должен в возможно более полном объеме передавать содержание оригинала, что прежде всего означает недопустимость произвольного опущения или добавления информации;
текст перевода должен соответствовать нормам языка перевода, так как их нарушение, по меньшей мере, создает помехи для восприятия информации, а иногда ведет и к ее искажению;
текст перевода должен быть примерно сопоставим с оригиналом по своему объему, чем обеспечивается сходство стилистического эффекта с точки зрения лаконичности или развернутости выражения.
Введение 3
1 История машинного перевода 5
2 Принципы работы систем машинного перевода 9
3 Модели представления синтаксических зависимостей 16
4 Классификация систем машинного перевода 19
5 Обзор программ машинного перевода 24
5.1 Наиболее известные программы машинного перевода 24
5.2 Характеристика Promt 30
6 Оценка машинного перевода 36
Заключение 39
Список литературы 41
Министерство образования и науки Российской Федерации
Федеральное агентство по образованию
Уральский Государственный Экономический университет
Кафедра информатики и эконометрики
Курсовая работа по дисциплине
«Интеллектуальные информационные системы»
МАШИННЫЙ ПЕРЕВОД
Исполнитель:
студент группы Пиэ-08-2
Ананьин А.Д.
Руководитель:
Крылов В.Г
Екатеринбург
2011г.
Оглавление
Введение 3
1 История машинного перевода 5
2 Принципы работы систем машинного перевода 9
3 Модели представления синтаксических зависимостей 16
4 Классификация систем машинного перевода 19
5 Обзор программ машинного перевода 24
5.1 Наиболее известные программы машинного перевода 24
5.2 Характеристика Promt 30
6 Оценка машинного перевода 36
Заключение 39
Список литературы 41
Перевод текста - это очень древний вид человеческой деятельности. Своими корнями он восходит к тем, далеким временам, когда праязык стал распадаться на отдельные языки, т.е. как только в истории человечества образовались группы людей, языки которых отличались друг от друга. Именно в те времена возникла необходимость в людях, знавших несколько языков. С возникновением письменности, появились переводчики посменные, переводившие различные тексты официального, религиозного и делового характера. Что бы облегчить письменное общение между народами, были созданы первые словари.
Появление компьютера поставило на реальную техническую основу исследования в области автономного (машинного) перевода. С появлением персонального компьютера технология машинного перевода постепенно усовершенствовалась. И если качество и скорость перевода первых писем оставляли желать лучшего, то теперь компьютер действительно может связно переводить текст с одного языка на другой. Одновременно начались работы по созданию словарей, ориентированных на облегчение поиска нужного слова и выполнения множества новых полезных функций (озвучивание слова, поиск синонимов и т.д.)
Переводом называется процесс
и результат создания на основе исходного
текста на одном языке равноценного
ему в коммуникативном
Коммуникативная эквивалентность нового текста по отношению к оригиналу обеспечивается выполнением трех основных требований:
Однако выполнение указанных требований к тексту перевода часто связано с преодолением разного рода объективно существующих трудностей. В данной работе мы рассмотрим те из них, с которыми мы можем столкнуться при машинном переводе. Понятно, что в данном случае, если перевод не соответствует этим нормам, винить некого, поскольку машинный перевод еще не предназначен для самостоятельного перевода, он требует редактирования. Что же касается других видов этой деятельности, и письменный, и устный переводчики должны отдавать себе отчет в том, что «их работу замечают скорее тогда, когда они терпят неудачу, чем когда перевод идет нормально».
Целью курсовой работы является ознакомиться с технологией машинного перевода, выявить наиболее важные проблемы.
Впервые мысль о возможности машинного перевода высказал Чарльз Бэббидж (1791-1871), разработавший в 1836-1848 гг. проект цифровой аналитической машины - механического прототипа электронных цифровых вычислительных машин, появившихся через 100 лет. Идея Ч. Бэббиджа состояла в том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей. Ч. Бэббидж привел эту идею в качестве обоснования для запроса у английского правительства средств, необходимых для физического воплощения аналитической машины, которую ему так и не удалось построить (см. Апокин и др. Чарльз Бэббидж. М., Наука, 1981).
Мысль использовать ЭВМ для перевода была высказана в 1946 году, сразу после появления первых ЭВМ. Датой рождения МП как области исследований принято считать 1947 г.: все началось с письма Уоррена Уивера, директора отделения естественных наук Рокфеллеровского фонда, к Норберту Винеру в марте того же года, в котором задача перевода сравнивалась с задачей дешифровки текстов. Последняя в то время уже стала выполняться на электромеханических устройствах. За этим письмом последовало множество дискуссий, появился меморандум о целях, и, наконец, были выделены средства на исследования. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году.Несмотря на примитивность той системы (словарь в 150 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и других странах; в том же 1954 году и в СССР.
Первое поколение систем машинного перевода базировалось на алгоритмах последовательного перевода «слово за словом», «фраза за фразой». Возможности таких систем определялись доступными размерами словарей, прямо зависящими от объема памяти компьютера. Перевод текста осуществлялся отдельными предложениями, смысловые связи между ними никак не учитывались. Такие системы называют системами прямого перевода. На смену им со временем пришли системы последующих поколений, в которых перевод от языка к языку осуществлялся на уровне синтаксических структур. В алгоритмах перевода использовался набор операций, позволяющий путем анализа переводимого предложения построить его синтаксическую структуру по правилам грамматики языка входного предложения (так же, как учат детей языку в средней школе), а затем преобразовать ее в синтаксическую структуру выходного предложения и синтезировать выходное предложение, подставляя нужные слова из словаря. Такие системы называются Т-системами (от английского слова transfer - преобразование).
Наиболее совершенным считается подход к построению систем машинного перевода на основе получения некоторого, независимого от языков, смыслового представления входного предложения путем его семантического анализа. Затем производится синтез выходного предложения по полученному смысловому представлению. Такие системы называют И-системами (И - от слова "интерлингва"). Считается, что следующие поколения систем машинного перевода будут относиться к классу И-систем.
Однако, слишком много трудностей и неясностей было в том, как нужно формализовать и строить алгоритмы для работы с текстами, какие словари надо вводить в машину, какие лингвистические закономерности следует использовать при машинном переводе и каковы вообще эти закономерности.
Выяснилось, что традиционная лингвистика не располагает ни фактическим материалом, ни идеями и представлениями, нужными для построения систем машинного перевода, которые использовали бы смысл переводимого текста.
Традиционная лингвистика не могла дать исходные представления не только в части семантики, но и в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозаменяемости, не были разработаны правила построения крупных единиц синтаксической структуры из более мелких. В сущности, ни на один вопрос, поставленный в связи с построением систем машинного перевода, традиционная лингвистика в 50-х годах не могла дать ответа.
А к середине 1960-х в США для
практического использования
Однако созданная для оценки
подобных систем комиссия ALPAC пришла к
выводу, что в силу низкого качества
машинно переведенных текстов эта
деятельность в условиях США нерентабельна.
Хотя комиссия рекомендовала продолжать
и углублять теоретические
Тем не менее, в ряде стран исследования
продолжались, чему способствовал постоянный
прогресс вычислительной техники. Особенно
существенным фактором стало появление
мини- и персональных компьютеров, а
с ними всё более сложных словарных,
поисковых и т. п. систем, ориентированных
на работу с естественноязыковыми данными.
Росла и необходимость в
Впрочем, мечты, с которыми род людской взялся полвека назад за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз. В 1990 г. Ларри Чаилдс, специалист по машинному переводу, предложил следующую классификацию систем машинного перевода:
В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания Systran. В России большой вклад в развитие машинного перевода внесла группа под руководством профессора Пиотровского (Российский государственный педагогический университет им. Герцена, Санкт-Петербург).
Извлечение информации из текста производится на основании набора атрибутов: морфологических, синтаксических, лексических, семантических и т.п. Атрибуты не указаны в тексте в явном виде, их нужно предварительно получить. Для этого производятся различные виды анализа текста с целью выделения атрибутов, используемых алгоритмом извлечения информации. Анализ, как правило, носит многоуровневый характер и выполняется модулем лингвистического процессора. Обычно выделяют следующие составляющие анализа текста:
- графематический анализ
(выделение слов и предложений)
- морфологический анализ;
- синтаксический анализ;
- семантический анализ;
- построение модели предметной
области (сценария или
На каждом уровне фрагментам
текста сопоставляются новые атрибуты.
На основании таких наборов
Теперь следует рассмотреть каждый:
1. Графематический анализ
Графематический анализ –
это программа начального анализа
естественного текста, вырабатывающая
информацию, необходимую для дальнейшей
морфологической и
- разделение входного текста на слова, разделители и т.д.
- сборка слов, написанных в разрядку;
- выделение устойчивых оборотов, не имеющих словоизменительных вариантов;
- выделение фамилии, имени и отчества, когда имя и отчество написаны инициалами;
- выделение электронных адресов и имен файлов;
- выделение предложений из входного текста;
- выделение абзацев, заголовков, примечаний.
2. Морфологический анализ