Автор работы: Пользователь скрыл имя, 06 Апреля 2013 в 11:14, курсовая работа
Одной из форм взаимодействия человека и машины, считающейся перспективной и усиленно разрабатываемой в последнее время, является речевой диалог, который делится на распознавание речи и её синтез, и относящийся к области искусственного интеллекта. Это наиболее простой и натуральный способ общения между человеком и машиной, не требующий особых навыков.
Введение 5
1. Процесс речеобразования 6
1.1. Физиология органов речи 6
1.2. Работа речевого тракта 7
1.3. Акустическая фонетика 9
1.4. Иерархия лингвистических уровней 11
1.5. Физические характеристики речевого сигнала 12
1.6. Многотрубные модели и электрические аналоги речевого тракта 13
2. Слух 14
2.1. Устройство уха 14
2.2. Преобразование механических колебаний в нервное возбуждение 16
2.3. Математические модели уха 17
2.4. Характеристики слуховой системы 20
3. Обработка речевого сигнала 23
3.1. Цифровое представление речевого сигнала и его параметры 23
3.2. Методы и средства восстановления разборчивости зашумленной речи 25
3.3. Методы сжатия речевых сигналов 27
3.4. Оценка качества восстановленного речевого сигнала. Разборчивость речи 29
4. Устройства для анализа речи 32
4.1. Спектральный анализ речи 32
4.1.1. Кратковременный спектральный анализ 33
4.1.2 Измерение мгновенного спектра 36
4.1.3. Звуковой спектрофотограф 37
4.2. Формантный анализ речи 38
4.3. Анализ частоты основного тона 40
4.3.1. Амплитудная селекция 41
4.3.2. Частотная селекция 41
4.4. Кепстральный анализ речи 42
4.5. Анализа речевого сигнала на основе линейного предсказания 45
5. Синтез речи 47
5.1. Основные методы решения задачи синтеза речи 47
5.1. Артикуляторный метод синтеза речи 48
5.2. Дельта-модуляция 49
5.3. Формантный синтез 51
5.4. Компиляционный метод синтеза речи 55
Заключение 56
Список литературы 57
Дополнительное отставание фазы обеспечивается с помощью электрической линии задержки. Подобная модель для случая показана на рис. 2.6.
Напряжение на каждом отдельном отводе линии задержки отображает смещение мембраны на соответствующем удалении от стремечка. На рисунке показаны также напряжения, представляющие звуковое давление у барабанной перепонки и смещения стремечка. Буферные усилители, обозначенные буквой А, имеют постоянные коэффициенты усиления, устанавливаемые в соответствии с параметрами моделируемой системы. Элементы схемы выбираются в соответствии с ограничениями, установленными для G(s) и Fl(s). Эти ограничения представлены в виде уравнений на рис. 2.6.
Рис. 2.6. – Модель уха, представленная в виде электрической схемы
Для оценивания разборчивости речи наибольшее значение имеют следующие характеристики слуховой системы человека, именуемые «постоянными слуха»: порог слышимости ; логарифмическая ширина критической полосы слуха ; маскировка слуха .
Порог слышимости – это минимальное звуковое давление, ниже которого ухо не воспринимает звук (рис. 2.7). Выражается в децибелах, по отношению к пороговому давлению , соответствующему пороговой величине давления звука на частоте 1000 Гц.
Ширина критической полосы слуха - это разрешающая способность слухового аппарата человека, который можно уподобить гребенке фильтров. Например, на частоте 100 Гц критическая полоса слуха близка 100 Гц, а на частоте 8000 Гц – близка 600 Гц (рис. 2.8). Для удобства расчетов вводят понятие логарифмической критической полосы слуха (рис. 2.9):
Рис. 2.7. – Порог слышимости
Рис. 2.8. – Критическая полоса слуха
Рис. 2.9. – Логарифмическая критическая полоса слуха
Маскировка слуха – это явление ослабления слышимости или полного пропадания полезного звука на фоне мешающего звука. Количественно выражается как разница:
,
где – порог слышимости при наличии мешающего звука. На рис. 2.10. приведено семейство индивидуальных кривых маскировки для различных уровней маскирующего сигнала . Здесь - разность высот тона маскирующей и маскируемой компонент, причем высота тона измеряется в Барках:
. (2.6)
Рис. 2.10. – Семейство индивидуальных кривых маскировки
Цифровая система звукозаписи требует представления входного аналогового сигнала в цифровом виде, а выходного цифрового сигнала - в аналоговом. Для преобразований используют аналого-цифровые (АЦП) и цифро-аналоговые (ЦАП) преобразователи.
Аналого-цифровые преобразователи характеризуются двумя важными параметрами - частотой преобразования и количеством уровней квантования входного сигнала. Правильный выбор этих параметров критически важен для достижения адекватного представления в цифровом виде аналогового сигнала. для оцифровки без потери качества звукового сигнала, частота которого лежит в диапазоне 16-20 000 Гц, нужно выбрать частоту преобразования, не меньшую, чем 40 000 Гц.
Для применения методов цифровой обработки к такому аналоговому сигналу, как речевое колебание, необходимо представить его в виде последовательности чисел. Обычно это осуществляется путем периодической дискретизации аналогового сигнала для получения последовательности его значений:
, , (3.1)
где принимает только целые значения.
По последовательности отсчетов аналогового сигнала, взятых с частотой, равной, по крайней мере, удвоенной частоте Найквиста, можно по (3.2) восстановить исходный аналоговый сигнал. Применяемые на практике цифроаналоговые преобразователи основаны на приближении соотношения (3.2).
(3.2)
Дискретизация предполагается во многих алгоритмах обработки речевых сигналов, предназначенных для оценки таких важных параметров речи, как частоты формант или период основного тона.
Иногда возникает задача изменения частоты дискретизации сигнала, представленного в дискретном времени. Процесс понижения и повышения частоты дискретизации называется прореживанием и интерполяцией соответственно.
Изменение частоты дискретизации в дробное число раз. Отсчеты, соответствующие периоду дискретизации T'=МТ/L, можно получить путем комбинаций интерполяции с параметром L и последующей процедуры прореживания с параметром М. Соответствующим подбором целых чисел М и L можно получить любое, необходимое соотношение между частотами дискретизации. Для этого достаточно иметь один фильтр нижних частот (рис. 3.1).
Рис. 3.1. – Структурная схема повышения частоты дискретизации
Предположим, что речевой сигнал пропущен через фильтр нижних частот и в результате дискретизации получена последовательность непрерывных величин {х(п)}. В большинстве случаев последовательность {х(n)} рассматривается как случайный процесс в дискретном времени. Для того чтобы передать, эту последовательность отсчетов по цифровому каналу связи, каждый отсчет необходимо проквантовать до конечного множества значений, которые можно описать конечным множеством символов.
Уровни квантования выбирают исходя из условий применения того или иного квантователя. Самым простым является равномерный квантователь (рис. 3.2) для которого
(3.3)
где – шаг квантования.
Для случая восьми уровней квантования на рис. 3.2 приведены характеристики двух обычно используемых квантователей. На рис. 3.2а изображен случай, когда начало отсчета приходится на середину вертикального участка ступенчатой функции - квантователь с усечением. На рис. 3.2б приведён квантователь с округлением.
Рис. 3.2. – Характеристики равномерных квантователей:
а) с усечением; б) с округлением.
Простейшим способом кодирования формы сигнала является импульсно-кодовая модуляция – ИКМ или PCM – Pulse Code Modulation, при использовании которой производятся просто дискретизация и равномерное квантование входного сигнала, а также преобразование полученного результата в равномерный двоичный код.
Для речевых сигналов со стандартной для передачи речи полосой 0,3 – 3,4 кГц обычно используют частоту дискретизации . Экспериментально показано, что при равномерном квантовании для получения практически идеального качества речи нужно квантовать сигнал не менее чем на ± 2000 уровней, т.е. для представления каждого отсчета понадобится 12 бит.
Используя неравномерное квантование (более точное для малых уровней сигнала и более грубое для больших его уровней, таким образом, чтобы относительная ошибка квантования была постоянной для всех уровней сигнала), можно достичь того же самого субъективного качества восстановления речевого сигнала, но при гораздо меньшем числе уровней квантования – порядка ± 128. В этом случае для двоичного представления отсчетов сигнала понадобится 8 бит.
С учетом статистических свойств речевого сигнала (вида распределения вероятностей мгновенных значений), а также нелинейных свойств слуха, гораздо лучше различающего слабые звуки, оптимальной является логарифмическая шкала квантования, которая и была принята в качестве стандарта еще в середине 60-х годов и сегодня повсеместно используется. Правда, в США и Европе стандарты нелинейного квантования несколько различаются ( m-law companding и A-law compression), что приводит к необходимости перекодирования сигналов.
Речевые сигналы, с которыми приходится иметь дело на практике, всегда в той или иной степени зашумлены. В тех случаях, когда шум имеет значительную интенсивность, его наличие может существенно исказить результаты обработки, анализа или распознавания речи. В целом ряде других случаев, например, при анализе зашумленных записей в криминалистических целях или восстановлении аудиозаписей в архивах, задача очистки сигнала от шума носит самостоятельный характер и является единственной целью работы. Поэтому разработка методов очистки сигнала от шума является весьма актуальным направлением исследований. К настоящему времени разработано очень большое количество различных методов цифровой обработки зашумленных речевых сигналов.
Для снижения уровня шума применяются
частотные фильтры и использует
Рис. 3.3. – Нелинейное усиление перед оцифровкой
Основным типом шумов, для методов, представленных в обзоре, является аддитивный шум. В целях упорядочения рассмотрения методов очистки сигнала от шума целесообразно произвести их классификацию. Основным признаком, по которому будут классифицироваться алгоритмы, является характер или тип тех закономерностей, которые служат основой для выделения речевого сигнала из смеси с шумом. В качестве вспомогательного признака будет использоваться классификация по типу того математического или алгоритмического аппарата, который использован для фильтрации. Подобная классификация, конечно, весьма условна, так как многие из рассматриваемых методов нельзя безоговорочно отнести к какой-либо одной категории. Как правило, одни и те же методы используют одновременно различные принципы, и в этом случае можно говорить лишь о преимущественном влиянии какой-либо концепции.
Классификация цифровых методов повышения качества и разборчивости речи:
- методы цифровой обработки зашумленных речевых сигналов;
- методы адаптивной компенсации помех;
- методы, основанные на использовании математических моделей речевых сигналов во временной области (авторегресионная модель речевого сигнала и рекуррентные алгоритмы оценки параметров и речевого сигнала);
- методы, основанные на использовании математических моделей речевых сигналов в частотной области (оценивание минимальной среднеквадратической ошибки, марковские модели сигнала и шума);
- методы, основанные на использовании спектральных характеристик шума (вычитание амплитудных спектров, Винеровская фильтрация);
- методы, основанные на использовании моделей искусственных нейронных сетей;
- методы, основанные на моделях восприятия речи человеком.
Эффективному кодированию, или сжатию речи, в системах связи уделяется исключительное внимание. На приведенных ниже рисунках изображены фрагменты речевых сигналов, содержащих гласные (рис. 3.4) и согласные (рис. 3.5) звуки, а также спектры этих сигналов (рис. 3.6 и 3.7). Хорошо видны разница в характере соответствующих сигналов, а также то, что как в первом, так и во втором случаях ширина спектра сигнала не превышает 3,5 кГц. Кроме этого, можно отметить, что уровень низкочастотных (то есть медленных по времени) составляющих в спектре речевого сигнала значительно выше уровня высокочастотных (быстрых) составляющих. Эта существенная неравномерность спектра, кстати, является одним из факторов сжимаемости таких сигналов.
Рис. 3.4. – Фрагмент речевого сигнала, содержащий гласные звуки
Рис. 3.5. – Фрагмент речевого сигнала, содержащий согласные звуки
Рис. 3.6. – Спектр речевого сигнала, содержащего гласные звуки
Рис. 3.7. – Спектр речевого сигнала, содержащего согласные звуки
Второй особенностью речевых сигналов, как это можно отметить из приведенных примеров, является неравномерность распределения вероятностей (плотности вероятности) мгновенных значений сигнала. Малые уровни сигнала значительно более вероятны, чем большие. Этот фактор также обеспечивает возможность экономного кодирования – более вероятные значения могут кодироваться короткими кодами, менее вероятные – длинными.
Из рис. 3.4 и 3.5 хорошо видно, что речевой сигнал обладает высокой степенью кратковременной и долговременной предсказуемости из-за периодичности вибраций голосовых связок и резонансных свойств голосового тракта. Большинство кодеров/декодеров речи и используют эту предсказуемость, а также медленность изменения параметров модели системы речеобразования для уменьшения скорости кода.
Человек в состоянии принимать огромные потоки информации. Но сознательно он способен обрабатывать лишь около 100 бит/с информации. Степень учета психоакустических закономерностей слухового восприятия определяет качество систем кодирования со сжатием цифровых данных. Методами устранения психофизической избыточности можно обеспечить сжатие цифровых аудиоданных в 10 - 12 раз без существенных потерь в качестве.
Технологии сжатия, основанные на использовании психоакустических моделей, имеют один общий недостаток: все они работают качественно до скорости битового потока (битрейт) 128 Кбит/c при частоте дискретизации 44.1 кГц с разрешением 16 разрядов на отсчет. Нормальный для слухового восприятия битрейт составляет 320 Кбит/с. Битрейт характеризует степень сжатия аудиоданных. Чем меньше эта величина, тем больше степень сжатия и тем ниже качество звучания. В связи с этим был разработан кодек MP3 Pro, который является развитием MP3 и использует новую технологию SBR (Spectral Band Replication) для использования битрейта 64 Кбит/с. Данная технология дополняет использование психоакустической модели и предназначена для передачи верхнего частотного диапазона. Сущность технологии SBR заключается в том, что кодируется чуть более узкий диапазон частот с обрезанными верхними частотами, которые восстанавливаются декодером на основе информации о более низких частотных составляющих. Таким образом, слышимый сигнал представляет собой уже не столько оригинал, сколько синтезированную копию оригинала.