Процесс речеобразования

Автор работы: Пользователь скрыл имя, 06 Апреля 2013 в 11:14, курсовая работа

Описание работы

Одной из форм взаимодействия человека и машины, считающейся перспективной и усиленно разрабатываемой в последнее время, является речевой диалог, который делится на распознавание речи и её синтез, и относящийся к области искусственного интеллекта. Это наиболее простой и натуральный способ общения между человеком и машиной, не требующий особых навыков.

Содержание работы

Введение 5
1. Процесс речеобразования 6
1.1. Физиология органов речи 6
1.2. Работа речевого тракта 7
1.3. Акустическая фонетика 9
1.4. Иерархия лингвистических уровней 11
1.5. Физические характеристики речевого сигнала 12
1.6. Многотрубные модели и электрические аналоги речевого тракта 13
2. Слух 14
2.1. Устройство уха 14
2.2. Преобразование механических колебаний в нервное возбуждение 16
2.3. Математические модели уха 17
2.4. Характеристики слуховой системы 20
3. Обработка речевого сигнала 23
3.1. Цифровое представление речевого сигнала и его параметры 23
3.2. Методы и средства восстановления разборчивости зашумленной речи 25
3.3. Методы сжатия речевых сигналов 27
3.4. Оценка качества восстановленного речевого сигнала. Разборчивость речи 29
4. Устройства для анализа речи 32
4.1. Спектральный анализ речи 32
4.1.1. Кратковременный спектральный анализ 33
4.1.2 Измерение мгновенного спектра 36
4.1.3. Звуковой спектрофотограф 37
4.2. Формантный анализ речи 38
4.3. Анализ частоты основного тона 40
4.3.1. Амплитудная селекция 41
4.3.2. Частотная селекция 41
4.4. Кепстральный анализ речи 42
4.5. Анализа речевого сигнала на основе линейного предсказания 45
5. Синтез речи 47
5.1. Основные методы решения задачи синтеза речи 47
5.1. Артикуляторный метод синтеза речи 48
5.2. Дельта-модуляция 49
5.3. Формантный синтез 51
5.4. Компиляционный метод синтеза речи 55
Заключение 56
Список литературы 57

Файлы: 1 файл

PZkurs2.doc

— 2.06 Мб (Скачать файл)

3.4. Оценка качества восстановленного  речевого сигнала. Разборчивость речи

Оценка качества речевого сигнала является важной задачей. Отношение сигнал/шум (ОСШ), являющееся одной из наиболее распространенных  объективных мер для оценки качества фильтрации зашумленного речевого сигнала, задается выражением

,   (3.4)

где s(n) и – выборочные значения исходного и восстановленного речевого сигнала соответственно; M – общее число выборок в пределах речевого сигнала.

Разборчивость речи – относительное количество правильно принятых элементов речи (звуков, слогов, слов, фраз), выраженное в процентах от общего числа переданных элементов.

Качество речи – параметр, характеризующий субъективную оценку звучания речи в испытуемой системе низкоскоростной передачи речи, выраженную в баллах по пятибалльной шкале или в процентах предпочтения при сравнении с эталонным трактом.

Эталонный тракт - тракт, показатели качества речи которого известны и с которым сравнивают оцениваемую систему низкоскоростной передачи речи. Нормальный темп речи – произнесение речи со скоростью, при которой средняя длительность контрольной фразы равна 2,4 с.

Ускоренный темп речи – произнесение речи со скоростью, при которой средняя длительность контрольной фразы равна 1,5-1,6 с.

Узнаваемость голоса говорящего - возможность слушателей отождествлять звучание голоса, принимаемого из телефонного тракта, с конкретным лицом, известным слушателю ранее.

Смысловая разборчивость - показатель степени правильного воспроизведения информационного содержания речи.

Интегральное качество - показатель, характеризующий общее впечатление слушателя от принимаемой речи.

АЧХ - амплитудно-частотная характеристика.

Различают  следующие виды (меры) разборчивости речи: разборчивость  формант  ; разборчивость звуков ; разборчивость слогов ; разборчивость слов ; разборчивость фраз .

При оценке качества кодирования и  сопоставлении различных кодеков  оцениваются разборчивость речи и качество синтеза (качество звучания) речи. Для оценки разборчивости речи используется метод DRT (Diagnostic Rhyme Test - диагностический рифмованный тест). В этом методе подбираются пары близких по звучанию слов, отличающихся отдельными согласными (типа "дот -тот", "кол - гол"), которые многократно произносятся рядом дикторов, и по результатам испытаний оценивается доля искажений. Метод позволяет получить как оценку разборчивости отдельных согласных, так и общую оценку разборчивости речи. DRT - весьма широко используемый метод, имеющий большую диагностическую информативность о разборчивости согласных. Испытание может быть осуществлено за малое время и несколькими различными способами. Однако DRT слабо проверяет разборчивость гласных и просодические особенности. Другой недостаток в том, что испытательный материал весьма ограничен, и испытательные стимулы не равновероятны, а значит, не тестируют все возможные вариации согласных. Модифицированное рифмованное испытание(MRT—Modified Rhyme test) это своего рода расширение DRT. MRT является испытанием на разборчивость согласных, находящихся и в начале и в конце слов. К положительным качествам рифмованных испытаний можно отнести возможность: привлечения необученных дикторов и аудиторов и небольшого их числа (обычно 10 – 20 чел.) без ущерба для достоверности результатов; легкость и быстроту проведения испытания.

Разнообразие методов повышения качества и разборчивости зашумленных речевых сигналов обусловлено как важностью проблемы, так и отсутствием достаточно надежных методов ее решения. Объективное сравнение этих методов и выбор наиболее приемлемых сделать весьма затруднительно, так как перед системами коррекции речевых сигналов ставятся различные задачи. Например, можно в качестве главного критерия использовать повышение разборчивости речи, допуская при этом возможность искажений в тембре голоса или появление артефактов в виде структурированного шума. Можно поставить целью понижение утомляемости аудитора или сохранение натуральности голоса диктора, что достигается в основном за счет повышения качества речевого сигнала. Если сравнивать системы обработки зашумленной речи по двум показателям - повышению качества звучания речевых сигналов и повышению разборчивости, то системы, повышающие качество и натуральность звучания, скорее всего снижают разборчивость и наоборот, повышение разборчивости приводит к понижению качества и натуральности звучания. Поэтому, многие из названных методов фильтрации нужно рассматривать как взаимодополняющие, и в идеальном случае нужно иметь библиотеку из нескольких методов фильтрации. Рассматривая последние тенденции в области обработки зашумленных сигналов, следует особенно выделить высокие результаты, полученные за счет использования математических моделей речевых сигналов, а также использование нейроподобных структур для фильтрации аддитивных стационарных шумов, хотя первые результаты в этом направлении проигрывают более традиционным методам типа минимальной среднеквадратической оценки.

 

4. Устройства для анализа  речи

Усилия в области анализа  и синтеза речи направлены в основном на повышение эффективности передачи речевой информации. Иначе говоря, основная цель состоит в передаче речевой информации по каналу, обладающему минимально возможной пропускной способностью, при условии удовлетворения определенному критерию верности восприятия. Анализ механизма речеобразования, выполненный на акустическом и физиологическом уровнях, позволяет выявить некоторые возможности для эффективного описания сигнала. Психологические и физиологические эксперименты по слуховому восприятию также помогают установить общие границы восприятия. Хотя подобные исследования не могут привести к нахождению оптимальных методов для кодирования и передачи, они позволяют обнаружить важные физические закономерности. Дальнейшие возможности повышения эффективности передачи речи связаны с использованием лингвистических и семантических закономерностей.

4.1. Спектральный анализ речи

Для выделения информативных признаков  речевого сигнала используется спектральное представление речи. При этом на первом этапе осуществляется получение частотного спектра речевого сигнала с помощью набора программных полосовых фильтров (выполняя так называемое дискретное преобразование Фурье).

На втором этапе выполняются  преобразования полученного спектра  речевого сигнала:

  • логарифмическое изменение масштаба в пространстве амплитуд и частот;
  • сглаживание спектра с целью выделения его огибающей;
  • кепстральный анализ, т.е. обратное преобразование Фурье от логарифма прямого преобразования.

Помимо спектральных характеристик, необходимо учитывать и динамические особенности речи. Для этого используют дельта-параметры, представляющие собой производные по времени от основных параметров. При этом мы можем отслеживать не только изменение параметров речи, но и скорость их изменения.

Таким образом, при анализе акустических параметров речевого сигнала в современных специализированных программах оцениваются следующие характеристики:

  • уровнеграмма и все связанные с ней параметры  
    (динамический диапазон, распределение мгновенных значений сигнала, текущая мощность и др.);
  • одномерный спектр (распределение формантных областей);
  • трехмерный спектр (изменение формы огибающей во времени); 
  • спектрограммы (широкополосные, узкополосные, слуховые), из которых могут быть получены такие характеристики, как изменение основной фонационной частоты во времени, изменение формантных областей, распределение гармоник голосового источника, временная структура импульсов звукового давления и др.

Кроме того, в ряде программ предусмотрена  операция расчета нелинейной маскировки составляющих речевого сигнала, удаление неслышимых компонент расчет распределения формантных полос с учетом их ширины и добротности. Общая картина анализа речевого сигнала, обычно производимая в современных компьютерных программах, показана на рис. 4.1.

 

Рис. 4.1. – Пример анализа речевого сигнала

4.1.1. Кратковременный спектральный  анализ

 

     Преобразование  Фурье последовательности х(nТ), -∞<n<+∞, определяется:

                                         (4.1)  

Для нестационарных сигналов типа речевых сигналов преобразование Фурье не имеет смысла, так как спектр речи изменяется во времени. Более полезной характеристикой является преобразование Фурье на коротком интервале, определяемое как (рис. 4.2):

                                         (4.2)

Используя свертку, равенство (4.2) можно  записать иначе:

                                         (4.3)

 

    

Рис. 4.2. – Представление кратковременного спектрального анализа

Левую часть равенства (4.2) можно представить в виде:

                                           (4.4)

где а(ω,nТ) и b(ω,nТ) — действительная и мнимая части кратко временного фурье-преобразования, равные:

                               (4.5)

Из этих формул вытекает простой  способ измерения кратковременных  преобразований, который иллюстрируется на рис. 4.3. Обычно  преобразование Фурье от h{nТ}, выбирают таким образом, чтобы аппроксимировать идеальный фильтр нижних частот с частотой среза ωc, показанный на рис. 4.4.

В большинстве систем для спектрального  анализа речи кратко временное преобразование желательно измерять на N частотах, которые  обычно располагаются в полосе 0 < ωT < 2π равномерно. С этой целью  описанные выше измерения проводятся для каждой из N частот.

        

Рис. 4.3. – Простой метод анализа речевого сигнала, основанный на кратковременном спектральном анализе

     

Рис. 4.4. –  Идеальный фильтр нижних частот для кратковременного спектрального анализа

Если h(nТ) является импульсной характеристикой КИХ-фильтра, а частоты распределены равномерно, одновременные измерения могут быть выполнены весьма эффективно с применением алгоритма БПФ. Чтобы показать это, положим, что h(nT) отлично от нуля при 0<n<M-1 и что центральные частоты анализа равны:

                                         (4.6)

Тогда (4.2) можно переписать следующим образом:

(4.7)

где [M/N] означает целую часть от M/N. Подставив ωk из (4.6) и заменив , получим:

                   (4.8)


    


Где

               (4.9)

Соотношение (4.91) показывает, что X(ωk,nТ) можно получить, перемножив последовательность   и ДПФ последовательности g(l,n).  
     На рис. 4.5 иллюстрируется процесс почленного получения последовательности g (l, n) из исходных последовательностей х(rТ) и h(rT).

Таким образом, кратковременный фурье-анализ речевых сигналов можно получить либо с использованием гребенки цифровых фильтров, либо косвенно с применением БПФ.

          

Рис. 4.5. –   Формирование g(r,n) из х(nТ) и h(nТ)

4.1.2 Измерение мгновенного спектра

Соответствующий выражению (4.10)  способ измерения можно осуществить при помощи функциональной схемы, показанной на рис. 4.6.

(4.10)

Рис. 4.6. – Способ измерения мгновенного амплитудного спектра |F(ω,t)|

В этом способе измерения применяется  фильтрация с помощью полосовых фильтров со взаимно сдвинутыми на π/2 фазовыми характеристиками и с симметричными относительно ω частотными характеристиками, имеющими вдвое большую полосу пропускания по сравнению с характеристикой фильтра нижних частот h(t). Поступающие с обоих фильтров сигналы возводятся в квадрат и суммируются, образуя мгновенный спектр мощности |F(ω,t)|2. Оба фильтра имеют импульсные отклики, огибающие которых представляют собой временное окно h(t). В общей сложности требуется столько пар фильтров, сколько отсчетов мгновенного спектра требуется определить.

Способ измерения, показанный на рис. 4.7, является способом, используемым в широко известном звуковом спектрографе и в большинстве анализаторов спектра параллельного типа.

Рис. 4.7. – Блок-схема измерения мгновенного спектра |F(ω,t)|

На рис. 4.8 в качестве примера изображены следующие друг за другом графики мгновенного спектра озвученного образца речи, воспроизведенные гребенкой из 24 фильтров. При ширине полосы каждого фильтра примерно в 150 Гц они перекрывают частотный диапазон от 150 до 4000 Гц. За каждым фильтром (следует выпрямитель и RC-цепочка). Сигналы, снимаемые с выходов гребенки фильтров, поочередно коммутируются с периодом 10 мсек. Дискретные отсчеты спектра соединяются прямыми линиями. Линии, соединяющие пиковые значения, представляют собой формантные частоты речи, которые были определены в процессе машинной обработки мгновенного спектра.

Рис. 4.8. – Мгновенные амплитудные спектры речи, измеренные гребенкой из 24 полосовых фильтров

4.1.3. Звуковой спектрофотограф

Звуковой спектрограф производит акустический анализ звуков в произносимых словах. Звуковой спектрограф представляет спектр звука в видимой форме. Было сконструировано и применено на практике большое число приборов типа звукового спектрографа, причем обычно каждый из них предназначался для вполне определенной цели. В этих устройствах использовались самые различные способы анализа от гребенки фильтров со сканированием до корреляторов.

В 1940 году в лаборатории Bell Lab (США) был построен прибор, получивший название "спектрограф видимой речи", который позволял представить спектр речи в трехмерной форме, только построенной несколько иначе, чем обычный трехмерный спектр. Это своего рода "вид сверху" на трехмерный спектр: по оси абсцисс отложено время, по оси ординат – частота, а амплитуда показана интенсивностью цвета (чем интенсивнее, тем больше амплитуда). На рис. 4.9 показан пример спектрограммы того же речевого сигнала, 3D-спектр которого дан на рис. 4.8. В подобном приборе имеется набор фильтров, каждый из которых выбирает узкий частотный диапазон в звуковом спектре. В идеале эти диапазоны следуют вплотную друг за другом и перекрывают всю полосу звуковых частот.

Еще одним видом прибора служит коррелограф, который воспроизводит изображение кратковременной функции корреляции сигнала в виде следов различной плотности; при этом по оси ординат откладывается время задержки, а по оси абсцисс — текущее время. Было также описано несколько схем, позволяющих осуществить квантование в измерении интенсивности для обычных спектрограмм. В результате вычерчивается «топологическая карта» сигнала, в которой градиент интенсивности проявляется в виде сгущения или разрежения контурных линий.

Информация о работе Процесс речеобразования