Процесс речеобразования

Автор работы: Пользователь скрыл имя, 06 Апреля 2013 в 11:14, курсовая работа

Описание работы

Одной из форм взаимодействия человека и машины, считающейся перспективной и усиленно разрабатываемой в последнее время, является речевой диалог, который делится на распознавание речи и её синтез, и относящийся к области искусственного интеллекта. Это наиболее простой и натуральный способ общения между человеком и машиной, не требующий особых навыков.

Содержание работы

Введение 5
1. Процесс речеобразования 6
1.1. Физиология органов речи 6
1.2. Работа речевого тракта 7
1.3. Акустическая фонетика 9
1.4. Иерархия лингвистических уровней 11
1.5. Физические характеристики речевого сигнала 12
1.6. Многотрубные модели и электрические аналоги речевого тракта 13
2. Слух 14
2.1. Устройство уха 14
2.2. Преобразование механических колебаний в нервное возбуждение 16
2.3. Математические модели уха 17
2.4. Характеристики слуховой системы 20
3. Обработка речевого сигнала 23
3.1. Цифровое представление речевого сигнала и его параметры 23
3.2. Методы и средства восстановления разборчивости зашумленной речи 25
3.3. Методы сжатия речевых сигналов 27
3.4. Оценка качества восстановленного речевого сигнала. Разборчивость речи 29
4. Устройства для анализа речи 32
4.1. Спектральный анализ речи 32
4.1.1. Кратковременный спектральный анализ 33
4.1.2 Измерение мгновенного спектра 36
4.1.3. Звуковой спектрофотограф 37
4.2. Формантный анализ речи 38
4.3. Анализ частоты основного тона 40
4.3.1. Амплитудная селекция 41
4.3.2. Частотная селекция 41
4.4. Кепстральный анализ речи 42
4.5. Анализа речевого сигнала на основе линейного предсказания 45
5. Синтез речи 47
5.1. Основные методы решения задачи синтеза речи 47
5.1. Артикуляторный метод синтеза речи 48
5.2. Дельта-модуляция 49
5.3. Формантный синтез 51
5.4. Компиляционный метод синтеза речи 55
Заключение 56
Список литературы 57

Файлы: 1 файл

PZkurs2.doc

— 2.06 Мб (Скачать файл)

 

Рис. 5.6. – Схема формантного синтезатора речи с компьютерным управлением.

Для передачи индивидуальности голоса формантным синтезатором речи необходимо создать персонализированные БД целей и параметров траекторий перестройки формант, а также создать адекватную модель голосообразования. Однако автоматическое выделение значений формантных параметров из речевого сигнала, как правило, сопровождается большим количеством ошибок, которые в конечном итоге влияют и на качество синтезируемой речи, и на точность передачи индивидуальных характеристик голоса.

Кроме того, существенным недостатком  формантного метода является представление процессов речеобразования линейными моделями, не учитывающими взаимовлияние колебаний голосовых связок и резонаторов речевого тракта. Как следствие, формантный метод синтеза не позволяет с достаточной степенью правдоподобия передать индивидуальные характеристики голоса диктора. Эксперименты по узнаваемости голоса, синтезированного с использованием формантного метода показывают, что степень опознавания (субъективная оценка) не превышает 80%.

5.4. Компиляционный метод синтеза  речи

Основным отличием компиляционного, или иначе конкатенативного метода, от описанных выше является использование при синтезе речи элементарных отрезков естественной речевой волны. При таком подходе исключается необходимость моделирования сложных акустических процессов речеобразования. В процессе синтеза скомпилированный из сегментов естественной речи сигнал подвергается дополнительной модификации: сглаживаются переходы между соединёнными участками и изменяются просодические параметры в соответствии со значениями, полученными на этапе просодической обработки.

Общая структурная схема компиляционного  синтезатора речи показана на рис. 5.7.

Последовательность фонетических элементов подаётся в блок обработки  сигнала, который выбирает из БД сегментов  естественной речи соответствующие звуковые реализации элементов и соединяет их в непрерывный речевой сигнал. Сформированный сигнал подаётся в блок акустической обработки, выполняющий модификацию значений Fo, А, Т речевой волны в соответствии с входными значениями просодических параметров. При этом используются различные алгоритмы модификации сигнала, например алгоритм плавной сшивки, модель «гармоники плюс шум».

Рис. 5.7. – Структурная схема компиляционного синтезатора речи

Для передачи индивидуальности голоса и дикции личности методом компиляционного синтеза речи по тексту необходимо создать БД элементарных сегментов естественной речи, причём в ней должен содержаться, по крайней мере, один экземпляр речевого сегмента для каждого возможного фонетического элемента, получаемого на этапе фонетической обработки. Определённым недостатком компиляционного метода в сравнении с двумя описанными выше являются повышенные требования на объём памяти, используемой для хранения БД элементов компиляции.

Заключение

В  последнее время достигнуты некоторые успехи в анализе, синтезе и распознавании слитной речи, последовательностей цифр и предложений, относящихся к ограниченной предметной области. Кроме того, быстро развивается техническое обеспечение. В настоящее время ведутся передовые исследования, работы по созданию систем понимания речи, например, проекты ARPA (США), PARCOR(Япония), ИКАР (Россия, Санкт Петербург, «Центр речевых технологий») и многие другие. 

Многое еще предстоит сделать, и ряд спорных проблем ждет своего решения. Решать данные проблемы необходимо путем интеграции знаний многих специалистов из различных областей (радиоинженеры, математики, программисты, лингвисты, биологи, психологи).

Проблема заключается также в том, что все попытки практической реализации неизбежно упираются в необходимость создания искусственного интеллекта. Важно заметить, что наиболее перспективное направление развития с точки зрения создания систем искусственного интеллекта — так называемые нейронные сети. Человек «подсмотрел» архитектуру этих сетей у самой природы. Но для наиболее эффективной работы нейронной сети нужно создавать специальные аппаратные решения.

  
Список литературы

 

  1. Джеймс Л. Фланаган Анализ, синтез и восприятие речи. Пер. с англ./ Под ред. А.А. Пирогова. – М.:Связь, 1968. -  395с., ил.
  2. Лобанов Б.М., Цирульник Л.И. Компьютерный синтез и клонирование речи.- Минск: «Белорусская наука», 2008. – 316 с., ил.
  3. Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ./ Под ред. У. Ли. - М.: Мир, 1983. – Кн. 1, 328 с., ил.
  4. Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ./ Под ред. У. Ли. - М.: Мир, 1983. – Кн. 2, 392 с., ил.
  5. Сорокин В.Н. Синтез речи. – М.: Наука, 1992. – 392с., ил.
  6. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи.– М.: Радио и связь, 2000.– 454 с.
  7. http://www.frolov-lib.ru/books/hi/index.html- А.В. Фролов, Г.В. Фролов Синтез и распознавание речи. Современные решения, 2003

 

 

 

 

 

 

 

 

 

                                                                                                                                    

                          

 

                                                               

                                                              

                                                         


Информация о работе Процесс речеобразования