Процесс речеобразования

Автор работы: Пользователь скрыл имя, 06 Апреля 2013 в 11:14, курсовая работа

Описание работы

Одной из форм взаимодействия человека и машины, считающейся перспективной и усиленно разрабатываемой в последнее время, является речевой диалог, который делится на распознавание речи и её синтез, и относящийся к области искусственного интеллекта. Это наиболее простой и натуральный способ общения между человеком и машиной, не требующий особых навыков.

Содержание работы

Введение 5
1. Процесс речеобразования 6
1.1. Физиология органов речи 6
1.2. Работа речевого тракта 7
1.3. Акустическая фонетика 9
1.4. Иерархия лингвистических уровней 11
1.5. Физические характеристики речевого сигнала 12
1.6. Многотрубные модели и электрические аналоги речевого тракта 13
2. Слух 14
2.1. Устройство уха 14
2.2. Преобразование механических колебаний в нервное возбуждение 16
2.3. Математические модели уха 17
2.4. Характеристики слуховой системы 20
3. Обработка речевого сигнала 23
3.1. Цифровое представление речевого сигнала и его параметры 23
3.2. Методы и средства восстановления разборчивости зашумленной речи 25
3.3. Методы сжатия речевых сигналов 27
3.4. Оценка качества восстановленного речевого сигнала. Разборчивость речи 29
4. Устройства для анализа речи 32
4.1. Спектральный анализ речи 32
4.1.1. Кратковременный спектральный анализ 33
4.1.2 Измерение мгновенного спектра 36
4.1.3. Звуковой спектрофотограф 37
4.2. Формантный анализ речи 38
4.3. Анализ частоты основного тона 40
4.3.1. Амплитудная селекция 41
4.3.2. Частотная селекция 41
4.4. Кепстральный анализ речи 42
4.5. Анализа речевого сигнала на основе линейного предсказания 45
5. Синтез речи 47
5.1. Основные методы решения задачи синтеза речи 47
5.1. Артикуляторный метод синтеза речи 48
5.2. Дельта-модуляция 49
5.3. Формантный синтез 51
5.4. Компиляционный метод синтеза речи 55
Заключение 56
Список литературы 57

Файлы: 1 файл

PZkurs2.doc

— 2.06 Мб (Скачать файл)

1.5. Физические характеристики речевого  сигнала

Человеческая речь представляет собой  шумоподобный акустический сигнал, несущий амплитудную и частотную модуляции. Основная энергия акустических колебаний речевого сигнала заключена в диапазоне 70 Гц - 7 кГц, причем более 95% смысловой информации размещается в более узком диапазоне – 200 Гц - 5 кГц. Акустические колебания выше и ниже этих частот несут информацию об эмоциях и личности говорящего, способствуют узнаваемости и несколько повышают разборчивость речи в условиях повышенных шумов. Уровень интенсивности любого звука в децибелах вычисляется через интенсивность измеряемого звука , равную энергии, переносимой волной в единицу времени через поперечное сечение площадью 1м2, относительно к пороговой интенсивности , равной 10-12 Вт/м2, по формуле

.     (1.1)

 

Если имеются два звука с  уровнями интенсивности  и , то разность этих уровней равна

 

,    (1.2)

Из (8.2) видно, что различие между  уровнями двух звуков может быть найдено  непосредственно из отношения их интенсивностей. Полезными оценками изменения значений физических параметров звука, выраженных в децибелах, являются следующие: 1 дБ – минимальное различие в громкости звуковых сигналов, воспринимаемое большинством слушателей; 3дБ – увеличение мощности сигнала в два раза; 10 дБ – увеличение мощности сигнала в 10 раз.

Интервал воспринимаемых человеком  интенсивностей звука равен

,    (1.3)

где =10 Вт/м2 – максимальное значение интенсивности при болевом ощущении. Одна тринадцатая часть уровней шкалы интенсивности носит название бела.

1.6. Многотрубные модели и электрические аналоги речевого тракта

С увеличением числа элементарных труб, используемых для аппроксимации  голосового тракта, возрастает сложность  вычислительных работ. Когда число аппроксимирующих секций превышает четыре, обычно прибегают к помощи аналоговых или цифровых устройств. Аналоговые электрические схемы зарекомендовали себя как полезное средство моделирования как голосового, так и носового трактов. Основная идея такого моделирования состоит, во-первых, в аппроксимации линейных характеристик голосового аппарата достаточно большим числом трубчатых секций с последующей заменой их эквивалентными Т-образными или П-образными звеньями с сосредоточенными и постоянными параметрами. На низких частотах эквивалентная схема с сосредоточенными постоянными ведет себя как длинная линия и достаточно хорошо моделирует распространение одномерной акустической волны в голосовом тракте. Верхняя граничная частота диапазона, для которого электрическая линия может быть адекватным аналогом, определяется числом аппроксимирующих трубчатых секций, способом аппроксимации элементов, характеристики которых выражаются гиперболическими функциями и влиянием поперечных колебаний в реальном речевом тракте.

Электрическое моделирование осуществимо  применительно как к голосовому, так и к носовому трактам. Выбор длины элементарной цилиндрической секции I, электрического масштабного коэффициента k, а также данные о распределении площади поперечного сечения по продольной оси тракта полностью определяют элементы длинной линии без потерь. Для расчета потерь на вязкость и теплопроводность (R и G) необходимы данные о длине окружности сечения тракта вдоль его оси. Нагрузка излучения рта и ноздрей определяется с учетом электрического масштабного коэффициента. Этот метод можно также применить для электрического моделирования подгортанной системы. Другим исключительно эффективным методом анализа многотрубных моделей голосового тракта является применение цифровой вычислительной машины (ЦВМ), позволяющей производить расчеты моделей из 20 или 30 секций. Один из подходов состоял в описании характеристик секций посредством коэффициентов отражения в точках их сочленения. Этот метод можно эффективно использовать и для синтеза речи.

 

2. Слух

2.1. Устройство уха

Наибольший объем информации об окружающем мире человек (и животные) получает через глаза и уши. Наличие пары ушей обеспечивает «стереофонический слух», с помощью которого человек может быстро определять направление на источник звука.

Уши воспринимают колебания воздуха  и превращают их в электрические  сигналы, поступающие в мозг. В результате обработки по неизвестным нам пока алгоритмам эти сигналы превращаются в образы. Создание таких алгоритмов для компьютеров и есть научная задача, решение которой необходимо для разработки по-настоящему хорошо работающих систем распознавания речи.

Первичный акустический преобразователь, используемый человеком, схематически показан на рис. 2.1. Акустико-механические компоненты этого органа обычно разделяются на три области: наружное, среднее и внутреннее ухо.

 

Рис. 2.1. – Схема уха человека. Показаны области наружного, среднего и внутреннего уха. Рисунок выполнен без соблюдения масштаба. Для наглядности структуры внутреннего и среднего уха увеличены:

1 - ушная раковина, 2 - слуховой проход, 3, 4, 5 - слуховые косточки - соответственно стремечко, наковальня, молоточек, 6 - наружное ухо, 7 - среднее ухо, 8 - внутреннее ухо, 9 - вестибулярный аппарат с полуокружными каналами, 10 - вестибулярный нерв - слуховой нерв, 12 - улитка, 13 - полость носа, 14 - евстахиева труба, 15 - круглое окно, 16 - овальное окно, 17 – барабанная перепонка

 

Наружное ухо состоит из ушной раковины и наружного слухового прохода. Функционально наружное ухо предназначено, во-первых, для улавливания и фокусировки звуковых волн, и, во-вторых, для защиты среднего и внутреннего уха от механических повреждений.

Среднее ухо герметично отделено от наружного уха барабанной перепонкой. Внутренняя область среднего уха, называемая барабанной полостью, соединена при помощи евстахиевой трубы с носоглоткой. Это позволяет поддерживать давление внутри барабанной полости, равному внешнему атмосферному давлению.  В барабанной полости находится система так называемых слуховых косточек, состоящая из молоточка, наковальни и стремени. Эти косточки связаны между собой в единую подвижную цепь, состоящую из рычагов. Задача системы слуховых косточек заключается в передаче звуковых колебаний от барабанной перепонки в область внутреннего уха.

Внутреннее ухо заполнено жидкостью. Оно состоит из двух частей: вестибулярного аппарата и улитки Механизм функционирования внутреннего уха достаточно сложен. Важно, что внутри улитки имеются чувствительные волоски, «подключенные» при помощи нервов к головному мозгу (рис. 2.2). Улитка разделена эластичной перегородкой на два канала, заполненных жидкостью. В этой перегородке и находятся упомянутые выше чувствительные волоски и нервы.

 

Рис. 2.2. – Чувствительные волоски  внутри улитки

Человеческое ухо воспринимает звуковые волны длиной примерно от 1,6 см до 20 м, что соответствует частотному диапазону 16-20 000 Гц. Что же касается человеческой речи, то ее частотный диапазон 300-4000 Гц. Надо заметить, что разборчивость речи останется вполне удовлетворительной при ограничении этого диапазона до 300-2400 Гц. Сказанное означает, что для улучшения качества распознавания речи компьютерные системы могут исключить из анализа частоты, лежащие вне диапазона 300-4000 Гц или даже вне диапазона 300-2400 Гц.

2.2. Преобразование механических  колебаний в нервное возбуждение

Механические движения мембраны превращаются в нервное возбуждение в органе Корти. Орган Корти, представленный в увеличенном виде на рис. 2.3, состоит из большого числа клеток, среди которых имеются и волосковые клетки.

 

Рис. 2.3. – Поперечное сечение органа Корти:

1 - пограничные клетки, 2 - лимб, 3 - внутренние волосковые клетки, 4 - покровная мембрана. 5 - нервные волокна, 6 - наружные волосковые клетки, 7 - сетчатая пластинка, 8 - наружный туннель, 9 - клетки Хеисена, 10 - клетки Клаудиуса, 11 - базилярная мембрана, 12 - внутренний туннель (Корти), 13 - клетки Дейтернса, 14 - кровеносный сосуд, 15 - столбы органа Корти, 16 - базальные клетки, 17 - нервные клетки, входящие в эпителий органа Корти

Каким-то, неизвестным в настоящее  время образом, изгиб волосков вызывает электрические разряды в улиточной  части VIII нерва. Чувствительные клетки уха соединены с мозгом пучком нервных клеток, или нейронов, образующим слуховой нерв. Слуховой нерв проходит вдоль оси спирали улитки, собирая на пути от вершины к основанию все большее число нервных волокон. Общее число нейронов в слуховом нерве доходит, примерно, до 30 000. По-видимому, нейроны имеют только два состояния: активное и заторможенное. При возбуждении входным электрическим сигналом, превышающим некоторый порог, нейроны генерируют стандартный электрический импульс длительностью около 1 мсек, после чего наступает период нечувствительности, длящийся от 1 до 3 мсек. Следовательно, возбуждение нейронов может приводить к появлению разрядов с максимальной частотой до 300—1000 Гц.

Связи между  клетками нерва и волосковыми  клетками органа Корти имеют сложную структуру. Каждая внутренняя волосковая клетка иннервируется одним или двумя нервными волокнами, а каждое волокно соединяется с одной или с двумя волосковыми клетками. Иннервация наружных клеток еще сложней. Функциональное назначение этой сложной системы многократных соединений в настоящее время точно не известно. Высказано предположение, что эта система способствует расширению динамического диапазона слуха.

Относительно  мало известно о механизмах преобразования смещения базилярной мембраны в нервную  активность. Еще меньше известно о способе кодирования информации нервными импульсами и о том, каким образом в мозге возникает слуховое ощущение. Тем не менее ясно, что локальная деформация мембраны (достаточной амплитуды), приводящая к изгибам волосков в данной области, вызывает генерацию чувствительными клетками потенциала в улитковом ходе, в результате чего создаются благоприятные условия для возбуждения находящихся поблизости нейронов. Чем больше амплитуда смещений, тем больше число возбужденных нейронов.

2.3. Математические модели уха

На рис. 2.4 вверху показана упрощенная схема периферических органов слуха, положенная в основу математического моделирования. На этой упрощенной схеме уха улитка показана развернутой; p(t) - давление звука у барабанной перепонки, х(t) - эквивалентное линейное смещение основания стремечка и yl(t) - линейное смещение базилярной мембраны в точке, расположенной на расстоянии l от стремечка. Целью исследования является установление приблизительной аналитической зависимости между указанными величинами. Задачу удобно решать в два этапа. На первом этапе аппроксимируется передаточная функция среднего уха, т. е. устанавливается связь между x(t) и p(t). На втором этапе аппроксимируется передаточная функция системы на участке от стремечка до указанной точки l на мембране. Аппроксимирующие функции представлены в нижней части рис. 2.4 в виде частотных преобразований G(s) и Fl(s) соответственно.

Функции G(s) и Fl(s) должны выбираться в соответствии с имеющимися физиологическими данными. Если предполагать, что механическая система уха в интересующем нас диапазоне частот и амплитуд пассивна и линейна, то для аппроксимации физиологических данных можно использовать рациональные функции частоты со стабильными спектральными максимумами (полюса в левой полуплоскости). Кроме удобства расчетов, рациональные функции имеют дополнительное достоинство, состоящее в том, что при необходимости эти функции могут быть воспроизведены электрическими цепями с сосредоточенными элементами. Так как модель устанавливает связь между входным и выходным сигналами, т. е. описывает передаточные свойства системы, для расчета реакции в некоторой выбранной точке мембраны можно не производить подробные расчеты для других точек.

Рис. 2.4. – Схематическое изображение  уха

Таким образом, смещения yl(t) можно рассчитывать для произвольных фиксированных значений l.

Функция Fl(s) рассчитывается по физиологическим данным Бекеши. Одна из функций, достаточно хорошо согласующаяся с результатами Бекеши, записывается следующим образом:

                (2.1)

 

где - комплексная частота; - угловая частота, для которой в точке, удаленной от стремечка на расстояние l, возникают колебания с максимальной амплитудой; c1 - действительная постоянная величина, задающая надлежащее значение смещения; - множитель,  вводящий задержку на секунд, необходимую для согласования фазовой задержки в модели с измеренной фазовой характеристикой уха человека, этот множитель учитывает, главным образом, время распространения колебания от стремечка до точки l мембраны; - амплитудный множитель, аппроксимирующий изменения амплитуды колебаний на резонансной частоте при изменении значений резонансной частоты   согласно физиологическим измерениям Бекеши (1943); в зависимости от желаемого соответствия фазовой характеристике.

Реакция мембраны в любой точке определяется полюсами и нулями рациональной функции, входящей в Fl(s) в виде сомножителя. Резонансные свойства мембраны примерно соответствуют резонансным свойствам контуров с постоянным Q (постоянная относительная ширина полосы пропускания). Следовательно, действительная и мнимая части критических частот отличаются лишь постоянным множителем, а именно . Значит, мнимая часть частоты полюса с точностью до постоянного множителя полностью описывает модель и характеристики мембраны в точке, удаленной от стремечка на расстояние l. Схема расположения полюсов и нулей для данной модели показана на рис. 2.5.

Рис. 2.5. – Схема расположения полюсов и нулей аппроксимирующей функции Fl(s)

Чтобы вычислить передаточную функцию  среднего уха, необходимо найти аналитическое выражение зависимости смещения стремечка от заданного звукового давления у барабанной перепонки. В результате многочисленных исследований было выявлено, что передаточная функция среднего уха имеет свойства фильтра нижних частот.

Если воспользоваться результатами, поученными в результате исследований Звислоцкого, то для них достаточно хорошая аппроксимация дается функцией третьего порядка:

                                            (2.2)

где с0 – действительная положительная постоянная.

Основываясь на уравнениях (2.1) и (2.2), можно создавать электрические схемы с передаточными функциями, соответствующими функциям G(s) и Fl(s). Проще всего промоделировать эти функции с помощью каскадно включенных одиночных резонансных контуров.

Информация о работе Процесс речеобразования