Автор работы: Пользователь скрыл имя, 06 Апреля 2013 в 11:14, курсовая работа
Одной из форм взаимодействия человека и машины, считающейся перспективной и усиленно разрабатываемой в последнее время, является речевой диалог, который делится на распознавание речи и её синтез, и относящийся к области искусственного интеллекта. Это наиболее простой и натуральный способ общения между человеком и машиной, не требующий особых навыков.
Введение 5
1. Процесс речеобразования 6
1.1. Физиология органов речи 6
1.2. Работа речевого тракта 7
1.3. Акустическая фонетика 9
1.4. Иерархия лингвистических уровней 11
1.5. Физические характеристики речевого сигнала 12
1.6. Многотрубные модели и электрические аналоги речевого тракта 13
2. Слух 14
2.1. Устройство уха 14
2.2. Преобразование механических колебаний в нервное возбуждение 16
2.3. Математические модели уха 17
2.4. Характеристики слуховой системы 20
3. Обработка речевого сигнала 23
3.1. Цифровое представление речевого сигнала и его параметры 23
3.2. Методы и средства восстановления разборчивости зашумленной речи 25
3.3. Методы сжатия речевых сигналов 27
3.4. Оценка качества восстановленного речевого сигнала. Разборчивость речи 29
4. Устройства для анализа речи 32
4.1. Спектральный анализ речи 32
4.1.1. Кратковременный спектральный анализ 33
4.1.2 Измерение мгновенного спектра 36
4.1.3. Звуковой спектрофотограф 37
4.2. Формантный анализ речи 38
4.3. Анализ частоты основного тона 40
4.3.1. Амплитудная селекция 41
4.3.2. Частотная селекция 41
4.4. Кепстральный анализ речи 42
4.5. Анализа речевого сигнала на основе линейного предсказания 45
5. Синтез речи 47
5.1. Основные методы решения задачи синтеза речи 47
5.1. Артикуляторный метод синтеза речи 48
5.2. Дельта-модуляция 49
5.3. Формантный синтез 51
5.4. Компиляционный метод синтеза речи 55
Заключение 56
Список литературы 57
Рис. 5.6. – Схема формантного синтезатора речи с компьютерным управлением.
Для передачи индивидуальности голоса формантным синтезатором речи необходимо создать персонализированные БД целей и параметров траекторий перестройки формант, а также создать адекватную модель голосообразования. Однако автоматическое выделение значений формантных параметров из речевого сигнала, как правило, сопровождается большим количеством ошибок, которые в конечном итоге влияют и на качество синтезируемой речи, и на точность передачи индивидуальных характеристик голоса.
Кроме того, существенным недостатком формантного метода является представление процессов речеобразования линейными моделями, не учитывающими взаимовлияние колебаний голосовых связок и резонаторов речевого тракта. Как следствие, формантный метод синтеза не позволяет с достаточной степенью правдоподобия передать индивидуальные характеристики голоса диктора. Эксперименты по узнаваемости голоса, синтезированного с использованием формантного метода показывают, что степень опознавания (субъективная оценка) не превышает 80%.
Основным отличием компиляционного, или иначе конкатенативного метода, от описанных выше является использование при синтезе речи элементарных отрезков естественной речевой волны. При таком подходе исключается необходимость моделирования сложных акустических процессов речеобразования. В процессе синтеза скомпилированный из сегментов естественной речи сигнал подвергается дополнительной модификации: сглаживаются переходы между соединёнными участками и изменяются просодические параметры в соответствии со значениями, полученными на этапе просодической обработки.
Общая структурная схема
Последовательность
Рис. 5.7. – Структурная схема компиляционного синтезатора речи
Для передачи индивидуальности голоса и дикции личности методом компиляционного синтеза речи по тексту необходимо создать БД элементарных сегментов естественной речи, причём в ней должен содержаться, по крайней мере, один экземпляр речевого сегмента для каждого возможного фонетического элемента, получаемого на этапе фонетической обработки. Определённым недостатком компиляционного метода в сравнении с двумя описанными выше являются повышенные требования на объём памяти, используемой для хранения БД элементов компиляции.
В последнее время достигнуты некоторые успехи в анализе, синтезе и распознавании слитной речи, последовательностей цифр и предложений, относящихся к ограниченной предметной области. Кроме того, быстро развивается техническое обеспечение. В настоящее время ведутся передовые исследования, работы по созданию систем понимания речи, например, проекты ARPA (США), PARCOR(Япония), ИКАР (Россия, Санкт Петербург, «Центр речевых технологий») и многие другие.
Многое еще предстоит сделать, и ряд спорных проблем ждет своего решения. Решать данные проблемы необходимо путем интеграции знаний многих специалистов из различных областей (радиоинженеры, математики, программисты, лингвисты, биологи, психологи).
Проблема заключается также в том, что все попытки практической реализации неизбежно упираются в необходимость создания искусственного интеллекта. Важно заметить, что наиболее перспективное направление развития с точки зрения создания систем искусственного интеллекта — так называемые нейронные сети. Человек «подсмотрел» архитектуру этих сетей у самой природы. Но для наиболее эффективной работы нейронной сети нужно создавать специальные аппаратные решения.