Процесс речеобразования

Автор работы: Пользователь скрыл имя, 06 Апреля 2013 в 11:14, курсовая работа

Описание работы

Одной из форм взаимодействия человека и машины, считающейся перспективной и усиленно разрабатываемой в последнее время, является речевой диалог, который делится на распознавание речи и её синтез, и относящийся к области искусственного интеллекта. Это наиболее простой и натуральный способ общения между человеком и машиной, не требующий особых навыков.

Содержание работы

Введение 5
1. Процесс речеобразования 6
1.1. Физиология органов речи 6
1.2. Работа речевого тракта 7
1.3. Акустическая фонетика 9
1.4. Иерархия лингвистических уровней 11
1.5. Физические характеристики речевого сигнала 12
1.6. Многотрубные модели и электрические аналоги речевого тракта 13
2. Слух 14
2.1. Устройство уха 14
2.2. Преобразование механических колебаний в нервное возбуждение 16
2.3. Математические модели уха 17
2.4. Характеристики слуховой системы 20
3. Обработка речевого сигнала 23
3.1. Цифровое представление речевого сигнала и его параметры 23
3.2. Методы и средства восстановления разборчивости зашумленной речи 25
3.3. Методы сжатия речевых сигналов 27
3.4. Оценка качества восстановленного речевого сигнала. Разборчивость речи 29
4. Устройства для анализа речи 32
4.1. Спектральный анализ речи 32
4.1.1. Кратковременный спектральный анализ 33
4.1.2 Измерение мгновенного спектра 36
4.1.3. Звуковой спектрофотограф 37
4.2. Формантный анализ речи 38
4.3. Анализ частоты основного тона 40
4.3.1. Амплитудная селекция 41
4.3.2. Частотная селекция 41
4.4. Кепстральный анализ речи 42
4.5. Анализа речевого сигнала на основе линейного предсказания 45
5. Синтез речи 47
5.1. Основные методы решения задачи синтеза речи 47
5.1. Артикуляторный метод синтеза речи 48
5.2. Дельта-модуляция 49
5.3. Формантный синтез 51
5.4. Компиляционный метод синтеза речи 55
Заключение 56
Список литературы 57

Файлы: 1 файл

PZkurs2.doc

— 2.06 Мб (Скачать файл)

Погрешность предсказания представляет собой сигнал на выходе системы с передаточной функцией:

.      (4.23)

фильтр погрешности предсказания A(z) является обратным фильтром для системы Н(z), соответствующей уравнению (4.20), т. е.:

.       (4.24)

Основная задача анализа на основе линейного предсказания заключается  в непосредственном определении  параметров по речевому сигналу с целью получения хороших оценок его спектральных свойств путем использования уравнения (4.24). Вследствие изменения свойств речевого сигнала во времени коэффициенты предсказания должны оцениваться на коротких сегментах речи. Основным подходом является определение параметров предсказания таким образом, чтобы минимизировать дисперсию погрешности на коротком сегменте сигнала.

 

5. Синтез речи

5.1. Основные методы решения задачи синтеза речи

Синтез речи - восстановление формы речевого сигнала по его параметрам в более узком смысле - формирование речевого сигнала по печатному тексту.

 Все существующие в настоящее  время методы синтеза человеческой  речи основаны на использовании  двух моделей — модели компилятивного синтеза и формантно-голосовой модели.

Модель компилятивного синтеза  предполагает синтез речи путем конкатенации (составления) записанных образцов отдельных звуков, произнесенных диктором. При использовании этой модели составляется база данных звуковых фрагментов, из которых в дальнейшем будет синтезироваться речь.

Формантно-голосовая модель основана на моделировании речевого тракта человека. Схематически эта модель показана на рис. Х.1. При построении модели использовались данные об артикуляционном аппарате человека, а также данные фонетики и лингвистики. Как видите, в качестве исходного сигнала применяется комбинация голосового источника и генератора шума. Прерыватель и резонансное устройство моделирует работу речевого тракта. В результате этого моделирования образуется излучаемый звук речи.

Рис. 5.1. – Формантно-голосовая  модель синтеза речи

Формантно-голосовая модель может быть реализована с применением нейронных сетей и допускает самообучение. К сожалению, ввиду сложности точного моделирования особенностей речевого тракта, а также учета интонационной модуляции речи формантно-голосовая модель обладает относительно низкой точностью синтезируемых звуков речи.

Синтез с использованием нейронных сетей. Уровни выходов нейронов эффекторного слоя нейросети при помощи карты эффекторов преобразуются в значения выбранных параметров модели синтеза. Карта эффекторов определяет соответствие между каждым нейроном эффекторного слоя и конкретным параметром модели синтеза, а также предельные значения каждого параметра. 
       Синтез с использованием скрытых марковских моделей. При синтезе речи, основывающемся на HMM, предполагается, что последовательность наблюдаемых векторов текста, соответствующих какому-то слову, порождена Марковской моделью. Марковская модель представляет собой автомат с конечным числом состояний, изменяющий свое состояние один раз в каждую единицу времени, и в каждый момент времени t, когда модель находится в состоянии j, вектор речи Ot генерируется исходя из плотности вероятностей b.

5.1. Артикуляторный метод синтеза речи

Исторически первым получил развитие артикуляторный метод, использующий физическую модель, основанную на детальном описании физиологии речеобразования. При этом речевой аппарат представляется как акустическая система, состоящая из последовательности коротких цилиндрических труб переменного сечения, возбуждаемая голосовым и (или) шумовым источниками. При генерации речевого сигнала характеристики речевого аппарата представляются электро-акустическими аналогами. Общая структурная схема артикуляторного синтезатора речи по тексту представлена на рис. 5.2.

Рис 5.2. – Схема артикуляторного синтезатора речи по тексту

Последовательность фонетических элементов с заданными просодическими параметрами (интонация, эмоциональная окраска) подаётся в блок генерации артикуляторных движений, который извлекает из БД соответствующие значения целей и параметров траекторий движений артикуляторов. Сгенерированные значения функций движения артикуляторов передаются в следующий блок, который, используя геометрическую модель речевого тракта (РТ), вычисляет текущие значения площадей сечений секций РТ - Si, где 1<i< N.

Количество секций N равно отношению длины моделируемого речевого тракта к длине одной секции, которая может варьироваться от 0,2 до 1 см. Средняя длина речевого тракта у женщин составляет в 9-11 см. у мужчин - 11-13 см. Последовательность значений Si, а также параметры сигналов источников голосового (Aг, F0) и шумового (Аш) возбуждения (ИГВ и ШИВ) передаются в блок генерации речевого сигнала. Каждая секция РТ может быть представлена эквивалентным Т-образным электрическим звеном. Аналоговая реализация речевого тракта содержит 45 таких звеньев. Для представления речевого сигнала в терминах геометрических размеров речевого тракта цифровым методом используются так называемые коэффициенты отражения ki. Эти величины можно интерпретировать как коэффициенты частичной корреляции между отсчётами сигнала xn и xn+1. Показано, что в случае акустической трубы с одинаковыми по длине звеньями площади сечения звеньев связаны с коэффициентами отражения формулой (5.1):

                                                              (5.1)

Также предложен метод реализации синтезатора речевых сигналов в виде цифрового фильтра лестничной формы, описываемого коэффициентами отражения {ki}.

Персонализированная артикуляторная модель речеобразования может быть задана базой данных целей и параметров траекторий движений артикуляторов. Для создания такой БД исследуются и моделируются нейрофизиологические, механические, аэродинамические и акустические аспекты речеобразования. Однако к настоящему времени достигнутые результаты исследования механики движения артикуляторных органов и аэродинамики процессов всё ещё не готовы для практического использования из-за чрезвычайной сложности и нерешённости базовых теоретических проблем моделирования процессов речеобразования.

5.2. Дельта-модуляция

Один из способов, получивший довольно широкое распространение в телефонии  и в некоторых из существующих микросхем синтезаторов, называется дельта-модуляцией. Главное отличие этого способа от непосредственного кодирования восстановления заключается в том, что он основан на относительных изменениях амплитуды, а не на ее абсолютных величинах. 

Процесс дельта-модуляции часто называют кодированием последовательных приращений, так как в нем кодируется лишь изменение сигнала между соседними выборками. Одна из возможных схем цифрового дельта-модулятора представлена на рис. 5.3. Сигнал речи, принятый микрофоном, фильтруется и усиливается так же, как в предыдущих случаях. Затем сигнал подвергается дельта-модуляции; для этого используется простая схема, состоящая из аналогового компаратора и контура обратной связи, содержащего аналоговый интегратор. В контуре обратной связи имеется также триггер D-типа, синхронизующий дельта-компоненту сигнала (изменение наклона) с тактовой частотой аналого-цифрового преобразования. Сигналы, с которыми имеют дело при кодировании методом дельта-модуляции, показаны на рис. 5.4.

Рис. 5.3. – Схема дельта-модулятора

Pиc. 5.4. – Сигналы при кодировании методом дельта-модуляции

Отметим, что входной сигнал (верхний график) представляет собой колебание, где участки нарастания и спада чередуются с участками относительного постоянства (стабильности) сигнала. Стробированные выходные сигналы триггера D-типа (рис. 5.3) представлены на рис. 5.4 графиками А и В — это импульсы неизменной амплитуды 5В, которые поступают на интегратор, создавая на его выходе сигнал С. Изменения сигнала отсчитываются в каждый из периодов выборки Т (график А). Если входной сигнал продолжает нарастать, то о его увеличении свидетельствуют импульсы в точке А схемы. Импульсы же в точке В указывают на уменьшение входного сигнала. В те интервалы времени, когда величина входного сигнала остается неизменной, дельтамодулятор начинает генерировать поочередно импульсы А и В. Выходной сигнал в точке С — это результат сравнения сигнала обратной связи с сигналом на входе интегратора.

На нижнем графике рис. 5.4 показан цифровой сигнал, который эта схема подает на компьютер. Этот двухуровневый сигнал записывается в память компьютера с той же самой частотой синхронизации, какая использовалась в схеме кодирования с дельта-модуляцией (рис. 5.3).

Система на основе адаптивной импульсно-кодовой  дельта-модуляции (АИКДМ) весьма сходна с аналогичной линейной системой; единственное различие между ними заключается в том, что система АИКДМ храпит в своей памяти не только направление изменения крутизны с момента последней выборки, но и величину этого изменения с того же момента. Это позволяет сохранить все преимущества предыдущей системы и одновременно исключить проблему перегрузки по крутизне. Проще говоря, вместо использования единственного бита, указывающего, является ли сигнал нарастающим или спадающим, можно брать четыре бита, которые будут характеризовать как нарастающий, так и спадающий сигнал одним из восьми возможных уровней в зависимости от конкретных условий изменения. Это дает возможность более точно описывать изменение сигнала между выборками.

5.3. Формантный синтез

При формантном методе, в отличие  от артикуляторного, моделируются не физиологические процессы образования речи, а результат этих процессов: акустические характеристики речевой волны. При этом достигается компактность описания речевого сигнала при достаточно высокой разборчивости синтезируемой речи. Фундаментальное понятие акустической теории речеобразования - форманта, может быть, с одной сторона, определена расчетным путем для каждой фонемы по конфигурации речевого тракта, а с другой - измерена экспериментально по спектру звука. Общая структура формантного синтезатора речи показана на рис. 5.5.

Pиc. 5.5. – Схема формантного синтезатора речи по тексту

Последовательность фонетических элементов, размеченных значениями просодических параметров, поступает в блок генерации формантных параметров речи, использующий данные БД целей и параметров траекторий перестройки формант. Базовая акустическая модель, используемая данным блоком, состоит из источников возбуждения и набора формантных фильтров. Каждый из фильтров описывает характеристики формант и, вместе с источником возбуждения, моделирует речевой спектр, который отражает динамику движения артикуляторных органов.

Формантные параметры, генерируемые данным блоком, различны в разных системах синтеза, и их количество может доходить до 60. Основными параметрами модели являются следующие: частота основного тона – F0, амплитуды голосового - Aг и аспиративного - Aа возбуждения ротовых формант, амплитуда шумового возбуждения - Аф фрикативных формант, амплитуда голосового возбуждения - Aн носовых формант, частоты – F1, F2, F3 ротовых формант, частота и полоса пропускания - Вф фрикативных формант. Временная последовательность наборов полученных параметров поступает в блок генералии речевого сигнала, управляя источниками шумового и голосового возбуждения (ИШВ. ИГВ) и характеристиками формантных фильтров.

В качестве источника шумового возбуждения  используется генератор широкополосного  шума. Импульсы голосового возбуждения  могут аппроксимироваться треугольной  функцией, отрезками синусоидальной функции, комбинацией синусоидальной и экспоненциальной функций, либо представляться с помощью аэродинамической модели голосообразования. Формантные фильтры могут быть представлены цифровыми фильтрами второго порядка, описываемыми уравнением (5.2).

                                           (5.2)

где п – текущий отсчёт времени;

п-1, п-2 – предыдущие отсчеты времени;

xn, xn-1 – входные сигналы фильтра;

yn, yn-1, yn-2 – выходные сигналы;

k1, k2 – коэффициенты, отражающие частоту и полосу пропускания и определяемые следующими формулами:

                                                  (5.3)

                                                       (5.4)

Где Bi   – полоса пропускания i-ой форманты;

F–   частота i–ой форманты;

  fi – частота дискретизации сигнала.

В формантном синтезаторе каждой форманте в спектре речевого сигнала соответствует  отдельный резонатор, обычно представляемый в виде системы второго порядка. Прежде всего, нужно определить, сколько  таких резонаторов требуется  для обеспечения надлежащей разборчивости синтетической речи. Затем возникает вопрос о способе соединения этих резонаторов — последовательном или параллельном.

Было обнаружено, что при каскадном  соединении резонаторов огибающая спектра синтезированного сигнала имеет примерно тот же наклон, который наблюдается в спектрах гласных звуков. Это означает, что каскадная схема не требует раздельного управления амплитудами резонаторов. Это соображение оказалось решающим в те времена, когда синтез речи осуществлялся с помощью аналоговой техники и всякое, сокращение объема управления было крайне необходимо.

Каскадная схема не позволяет описать  влияние нулей, возникающих при  разветвлении речевого тракта и при  возбуждении турбулентным или импульсным источниками. Каскадная схема не позволяет имитировать изменение голосовых усилий, проявляющееся в относительном смещении уровня высших формант (например, при подъеме уровня первой форманты на 10 дБ, уровень высших формант может увеличиваться на 30 дБ). Поэтому более предпочтительной является параллельная или смешанная схемы.

Одна из возможных схем управления такой говорящей системы приведена  иа рис. 5.6. Слева на этой схеме изображен компьютер. Чтобы управлять такой системой, компьютер должен обладать следующими основными средствами:

Набором 8-битовых выходных портов для реализации различных функций управления.

Одним 8-битовым входным портом, служащим для уведомления компьютера о готовности синтезатора к приему следующего кадра данных для текущей  перенастройки синтезатора.

Сигналы занятости, поступающие по управляющим линиям (показаны в нижней части рис. 5.6), сообщают компьютеру, что формантный синтезатор речи закончил произносить очередной кадр данных. Термин «кадр данных» выбран не случайно: он говорит  о том, что управление синтезатором через отдельные порты производится не в произвольном порядке. Напротив, компьютер обновляет управляющие данные на всех девяти параллельных портах одновременно в соответствии с подлежащей воспроизведению фонемой или ее частью, затем ожидает окончания произнесения этого кадра (типичное время ожидания составляет 33 мс), после чего возобновляет цикл перенастройки управления для завершения произнесения фонемы.

Информация о работе Процесс речеобразования