Автор работы: Пользователь скрыл имя, 06 Апреля 2013 в 11:14, курсовая работа
Одной из форм взаимодействия человека и машины, считающейся перспективной и усиленно разрабатываемой в последнее время, является речевой диалог, который делится на распознавание речи и её синтез, и относящийся к области искусственного интеллекта. Это наиболее простой и натуральный способ общения между человеком и машиной, не требующий особых навыков.
Введение 5
1. Процесс речеобразования 6
1.1. Физиология органов речи 6
1.2. Работа речевого тракта 7
1.3. Акустическая фонетика 9
1.4. Иерархия лингвистических уровней 11
1.5. Физические характеристики речевого сигнала 12
1.6. Многотрубные модели и электрические аналоги речевого тракта 13
2. Слух 14
2.1. Устройство уха 14
2.2. Преобразование механических колебаний в нервное возбуждение 16
2.3. Математические модели уха 17
2.4. Характеристики слуховой системы 20
3. Обработка речевого сигнала 23
3.1. Цифровое представление речевого сигнала и его параметры 23
3.2. Методы и средства восстановления разборчивости зашумленной речи 25
3.3. Методы сжатия речевых сигналов 27
3.4. Оценка качества восстановленного речевого сигнала. Разборчивость речи 29
4. Устройства для анализа речи 32
4.1. Спектральный анализ речи 32
4.1.1. Кратковременный спектральный анализ 33
4.1.2 Измерение мгновенного спектра 36
4.1.3. Звуковой спектрофотограф 37
4.2. Формантный анализ речи 38
4.3. Анализ частоты основного тона 40
4.3.1. Амплитудная селекция 41
4.3.2. Частотная селекция 41
4.4. Кепстральный анализ речи 42
4.5. Анализа речевого сигнала на основе линейного предсказания 45
5. Синтез речи 47
5.1. Основные методы решения задачи синтеза речи 47
5.1. Артикуляторный метод синтеза речи 48
5.2. Дельта-модуляция 49
5.3. Формантный синтез 51
5.4. Компиляционный метод синтеза речи 55
Заключение 56
Список литературы 57
Рис. 4.8. – Трехмерный спектр речевого сигнала
Рис. 4.9. – Спектрограмма речевого сигнала
При формантном анализе исследуют такие свойства речи как спектр речи ; спектр формант ; относительную встречаемость формант по спектру .
Спектром речи называют оценку спектральной плотности мощности речевого сигнала , вычисленную по отрезку речевого сигнала значительной протяженности (более минуты). Спектр речи характеризует распределение мощности речевого сигнала по частоте.
Спектром формант называют зависимость наиболее вероятного уровня формант от частоты. Чтобы оценить спектр формант, необходимо также располагать отрезком речи большой протяженности. Спектр формант на всех частотах меньше спектра речи (рис.4.10):
.
Рис. 4.10. – Соотношение спектра
речи
Относительная встречаемость формант по спектру может быть оценена так. Разобьем весь диапазон частот на полоски, например, по 100 Гц, и подсчитаем относительное число формант (в %) каждой полоске. Результат такого подсчета даст нам кривую (рис. 4.11).
Рис. 4.11. – Относительная встречаемость
формант
Процедура определения форманты на ЭВМ путем подгонки кратковременных спектров осуществляется при помощи устройства, блок-схема которого показана на рис. 4.12. Как и в предыдущем случае, мгновенный спектр получается посредством гребенки полосовых фильтров и через аналого-цифровой преобразователь вводится в вычислительную машину. Синтезированные спектры речевого типа производятся вычислительной машиной с помощью модели распределения полюсов и нулей речевого тракта и возбуждающего его сигнала. Действительный и синтезированный спектры для каждого момента времени сравниваются между собой с последующим вычислением взвешенной квадратической ошибки.
Рис. 4.12. – Процедура определения форманты на ЭВМ путем подгонки кратковременных спектров
Принято считать, что на участках вокализованного звука речевой тракт человека возбуждается периодическим колебанием связок. Период этого колебания называют периодом основного тона. Эта величина является индивидуальной характеристикой диктора. Она может меняться в зависимости от эмоциональной окраски речи, но в достаточно узких пределах. При параметрическом кодировании речи предполагают, что частота основного тона человека лежит в пределах 80 – 400 Гц.
Акустически мелодические характеристики речи соотносятся с изменяющейся во времени частотой самой низкой составляющей в спектре звука - частотой основного тона. Частота основного тона является величиной, обратной периоду колебания, и характеризует все периодические и квазипериодические звуки. В речевых звуках первый период колебания соответствует полному циклу работы голосовых связок. За единицу измерения частоты колебаний принят Герц, равный одному колебанию в секунду.
В речи частота основного тона гласных и согласных изменяется в весьма значительных пределах - от 50 Гц (низкий тон низкого мужского голоса) до 500 Гц (высокий тон высокого женского или детского голоса). Еще больше диапазон изменений частоты основного тона голоса при пении. Типичные средние значения частоты основного тона в речи, определенные на группе говорящих, составляют 132Гц для мужчин, 223 Гц для женщин и 264 Гц для детей.
Методы определения (выделения) основного тона можно разделить на следующие группы: амплитудная селекция; корреляционные методы; частотная селекция.
На стационарном участке вокализованного звука при малом уровне шумов форма речевого колебания почти точно повторяется на каждом очередном периоде основного тона. Расстояние между максимумами речевого сигнала можно приблизительно считать равными периоду основного тона. Основная трудность алгоритмов амплитудной селекции состоит в необходимости подавления локальных ложных максимумов. Этого можно добиться за счет повышения порога срабатывания в схеме поиска максимумов. Однако при этом увеличивается вероятность пропуска истинного максимума. Очевидно, что как пропуск, так и потеря максимума может привести к существенным искажениям
Временная диаграмма работы алгоритма амплитудной селекции частоты основного тона синтезированного звука приведена на рис. 4.13.
Рис. 4.13. – Временная диаграмма работы алгоритма амплитудной селекции частоты основного тона
Надежность определения периода основного тона добавлением второго канала амплитудной селекции, выделяющего положение минимумов речевого сигнала. На рис. 4.13 S(t) – речевой сигнал с периодом основного тона T. Сигналы h(t) и l(t) являются последовательностями импульсов на позициях, соответствующих максимальным и минимальным значениям речи. Эти импульсы управляют триггером, на выходе которого сформирован сигнал f(t) с периодом близким к Т.
Главным достоинством алгоритмов временной селекции является чрезвычайная простота реализации. Основной недостаток – невысокие точность и надежность определения основного тона.
При вокализованном возбуждении речевого тракта в спектре сигнала присутствуют пики на частотах, кратных частоте основного тона. Если вычислить дискретное преобразование Фурье с достаточно малым шагом дискретизации по частоте, то можно попытаться в качестве оценки частоты основного тона использовать частоту, соответствующую максимальному значению энергии спектра. Поиск максимума следует производить в интервале 80 – 400 Гц. Однако часто возникает ситуация, когда в указанной полосе лежит и вторая гармоника основного тона, иногда даже с большей энергией. В этом случае она будет ошибочно принята за оценку основного тона. Чтобы избежать этого применяется частотная селекция. Суть идеи состоит в том, что для истинной частоты основного тона вторая гармоника второго слагаемого сложится с первой гармоникой первого слагаемого и усилит ее. Аналогично для третьего слагаемого и т. д. В результате для вокализованного звука будет иметь место ярко выраженный пик функции на частоте основного тона.
Одно из основных предположений состоит в том, что речевой сигнал трактуется как сигнал на выходе линейной системы с медленно изменяющимися параметрами. Это предположение позволяет считать, что на коротких сегментах речевой сигнал можно рассматривать как сигнал на выходе линейной системы с постоянными параметрами, возбуждаемой либо последовательностью импульсов, либо случайным шумом.. Поскольку сигнал возбуждения и импульсная характеристика фильтра взаимодействуют через операцию свертки, задача анализа речи может рассматриваться как задача разделения компонент, участвующих в операции свертки. Такая задача иногда называется задачей обратной свертки.
Гомоморфные относительно свертки
системы удовлетворяют
(4.12)
(4.13)
где L – линейный оператор.
Системы, обладающие свойством (4.14), названы гомоморфными относительно свертки системами.
(4.14)
Характеристическая система
(4.15)
Математическое описание характеристической системы определяется требованиями к выходному сигналу. Если на входе имеется сигнал свертки, то
(4.16)
и z-преобразование входного сигнала имеет вид
. (4.17)
Из (4.15) очевидно, что z-преобразование сигнала на выходе системы должно представлять собой сумму z-преобразований компонент. Таким образом, в частотной области характеристическая система для свертки должна обладать следующим свойством: если на входе имеется произведение компонент, то на выходе должна возникнуть их сумма. Один из подходов к синтезу такой системы представлен на рис. 4.14.
Рис. 4.14. – Представление системы, гомоморфной относительно свертки в частотной области
Этот подход основан на том, что логарифм произведения равен сумме логарифмов сомножителей, т. е.
(4.18)
Выход характеристической системы назван «комплексным кепстром» (термин «кепстр» является в настоящее время общепринятым для обозначения обратного преобразования Фурье логарифма спектра мощности сигнала; термин «комплексный кепстр» означает, что применяется комплексный логарифм).
Термин «кепстр» используется для величины
(4.19)
Последовательность с(п) представляет собой четную часть комплексного кепстра : .
Комплексный кепстр быстро затухает с ростом п. Кроме того, отметим, что вклад в комплексный кепстр от периодического возбуждения проявится в наличии импульсов в точках, кратных периоду возбуждения. Пример анализа (рис.4.14) иллюстрирует основные особенности вокализованного речевого сигнала.
а) б)
в) г)
д) е)
Рис. 4.14. – Гоморфный анализ вокализованный речи:
а) взвешенный речевой сигнал; б) логарифм модуля кратковременного Фурье; в) значение фазы; г) «развернутая» фаза; д) комплексный кепстр; е) кепстр
На рис. 4.14,а показан сегмент вокализованного сигнала, взвешенный с окном Хемминга. На рис. 4.14,б представлен логарифм модуля дискретного преобразования Фурье. В этой функции имеется периодическая компонента, обусловленная периодическим характером входного сигнала. На рис. 4.14,в представлен разрывной характер главного значения фазы, а на рис. 4.14,г – фазовая кривая, лишенная разрывов. Результат преобразования Фурье в комплексный кепстр кривых на рис. 4.14,б и 4.14,г представлен на рис. 4.14,д.
Отметим наличие пиков в положительном и отрицательном времени и быстрое затухание компонент в области малых времен, что обусловлено совместным воздействием речевого тракта, источника возбуждения и излучением. Кепстр, являющийся обратным преобразованием Фурье логарифма амплитуды модуля спектра, показан на рис. 4.14,е. В данном случае сохранены все основные особенности комплексного кепстра, поскольку он является четной частью комплексного кепстра.
Последовательность графиков на рис. 4.14 показывает, как можно использовать гомоморфную фильтрацию для анализа речевого сигнала.
Таким образом, с помощью гомоморфной
фильтрации можно выделить ряд важных
компонент речевого сигнала. Чаще сталкиваются
с необходимостью оценки таких параметров,
как период основного тона и частоты формант.
Для этих целей кепстральный анализ весьма
эффективен. Для вокализованного сегмента
речи пик в кепстре возникает при задержке,
соответствующей периоду основного тона.
Для невокализованного сегмента такие
пики в кепстре не возникают. Это свойство
кепстра может быть использовано для классификации
вокализованный/
Обычно кепстр вычисляется 1 раз через каждые 10 – 20 мс, поскольку в нормальной речи параметры возбуждения не изменяются быстрее.
К сожалению, имеется ряд практических вопросов и трудностей, которые возникают при построении кепстральных анализаторов основного тона.
Во-первых, амплитуда или даже просто существование пика в кепстре зависит от целого ряда факторов, включая длину окна, используемого для взвешивания входного сигнала, и формантной структуры самого сигнала. Один из способов выбора окна, при котором оно было и не слишком длинным и не слишком коротким, состоит в адаптации длины окна с учетом предшествующих (или возможно среднего значения) оценок периодов основного тона.
Другая причина, по которой сигнал может сильно отличаться от описываемого моделью, заключается в чрезмерном ограничении полосы.
Кепстр используется также для непосредственного описания речи в системах, называемых гомоморфными вокодерами.В гомоморфном вокодере кепстр вычисляется 1 раз через каждые 10 –20 мс. Период основного тона и признак тон/шум оцениваются по кепстру, а компоненты кепстра в области малых времен (примерно первые 30 отсчетов) квантуются и кодируются для передачи или хранения. По квантованным отсчетам кепстра в области малых времен в синтезаторе восстанавливается импульсная реакция hv(n) или hu(n) и вычисляется свертка с функцией возбуждения, восстановленной в синтезаторе по информации об основном тоне, признаке тон/шум и соответствующих амплитудах.
На рис. 4.15 основная модель речеобразования в дискретном времени представлена в форме, наиболее удобной для решения задач линейного предсказания. В этом случае общий спектр, обусловленный излучением, речевым трактом и возбуждением, описывается с помощью линейной системы с переменными параметрами и передаточной функцией:
. (4.20)
Эта система возбуждается импульсной
последовательностью для
Рис. 4.15. – Структурная схема упрощенной модели речеобразования
Для системы, показанной на рис. 4.15, отсчет речевого сигнала связан с сигналом возбуждения разностным уравнением:
. (4.21)
Линейный предсказатель с
, (4.22)
где – коэффициенты линейного предсказания в пределах сегмента речевого сигнала.