Автор работы: Пользователь скрыл имя, 06 Апреля 2013 в 11:14, курсовая работа
Одной из форм взаимодействия человека и машины, считающейся перспективной и усиленно разрабатываемой в последнее время, является речевой диалог, который делится на распознавание речи и её синтез, и относящийся к области искусственного интеллекта. Это наиболее простой и натуральный способ общения между человеком и машиной, не требующий особых навыков.
Введение 5
1. Процесс речеобразования 6
1.1. Физиология органов речи 6
1.2. Работа речевого тракта 7
1.3. Акустическая фонетика 9
1.4. Иерархия лингвистических уровней 11
1.5. Физические характеристики речевого сигнала 12
1.6. Многотрубные модели и электрические аналоги речевого тракта 13
2. Слух 14
2.1. Устройство уха 14
2.2. Преобразование механических колебаний в нервное возбуждение 16
2.3. Математические модели уха 17
2.4. Характеристики слуховой системы 20
3. Обработка речевого сигнала 23
3.1. Цифровое представление речевого сигнала и его параметры 23
3.2. Методы и средства восстановления разборчивости зашумленной речи 25
3.3. Методы сжатия речевых сигналов 27
3.4. Оценка качества восстановленного речевого сигнала. Разборчивость речи 29
4. Устройства для анализа речи 32
4.1. Спектральный анализ речи 32
4.1.1. Кратковременный спектральный анализ 33
4.1.2 Измерение мгновенного спектра 36
4.1.3. Звуковой спектрофотограф 37
4.2. Формантный анализ речи 38
4.3. Анализ частоты основного тона 40
4.3.1. Амплитудная селекция 41
4.3.2. Частотная селекция 41
4.4. Кепстральный анализ речи 42
4.5. Анализа речевого сигнала на основе линейного предсказания 45
5. Синтез речи 47
5.1. Основные методы решения задачи синтеза речи 47
5.1. Артикуляторный метод синтеза речи 48
5.2. Дельта-модуляция 49
5.3. Формантный синтез 51
5.4. Компиляционный метод синтеза речи 55
Заключение 56
Список литературы 57
Содержание
Одной из форм взаимодействия человека и машины, считающейся перспективной и усиленно разрабатываемой в последнее время, является речевой диалог, который делится на распознавание речи и её синтез, и относящийся к области искусственного интеллекта. Это наиболее простой и натуральный способ общения между человеком и машиной, не требующий особых навыков.
Речевой способ передачи деловой информации, по данным специалистов, изучающих взаимодействие людей в производственных условиях, используется на порядок чаще, чем другие способы передачи информации – рукопись, машинопись, телефакс. Велико поэтому стремление специалистов, работающих над созданием новых информационных технологий, систем искусственного интеллекта и автоматизированных систем различного назначения, оснастить реализующие их вычислительные комплексы средствами речевого ввода-вывода информации.
Однако до последнего времени широкое
внедрение речевых средств
Речевой ввод создает возможность организации естественной связи между человеком и машиной, что, в случае если можно будет добиться сбалансированного соотношения между вкладываемыми средствами и стоимостью, несомненно, приблизит человека к созданию вычислительных машин и других механизмов, которые будут его истинными помощниками, анне повлечет за собой необходимость еще большей адаптации человека к машине.
Распознавание речи является составной частью исследований, проводимых в области, которая получила название обработки речи. Эта область кроме распознавания речи включает в себя идентификацию говорящих с помощью ЭВМ, машинный синтез речи и воспроизведение хранящихся в ЭВМ речевых ответов, машинный анализ физического и психологического состояния говорящего, эффективную передачу устных разговоров, а также обнаружение речевых дефектов и помощь больным с нарушениями речи.
Речь является конечным акустическим продуктом произвольных формализованных движений дыхательных и жевательных органов. Она относится к моторным видам поведения, приобретаемым индивидом в процессе обучения. Речь развивается, корректируется и поддерживается под воздействием акустической обратной связи органов слуха и кинестетической обратной связи мускулатуры органов речи. Слуховая и кинестетическая информации систематизируются и координируются центральной нервной системой и используются для управления речевой деятельностью.
Органы речи участвуют также в жизненно важных процессах дыхания и потребления пищи. Органы, участвующие в речеобразовании, схематически изображены на рис. 1.1, на котором дан средний профильный разрез голосового тракта взрослого человека. Собственно голосовой тракт представляет собой трубу с неодинаковой по продольной оси площадью поперечного сечения. Он на одном конце заканчивается губами, а на другом конце щелью у входа в трахею, образуемой голосовыми связками. У взрослого мужчины длина голосового тракта примерно равна 17 см. Носовой тракт образует вспомогательный путь распространения звуковых колебаний. Источником энергии при речеобразовании служит мускулатура грудной клетки и брюшная мускулатура.
Рис. 1.1. – Схематичеcкое изображение речевого аппарата человека: 1 — носовая полость, 2 — твердое небо, 3 — язык, 4—щитовидный хрящ, 5 — голосовые связки, 6 — трахея, 7 — легкое, 8 — грудина, 9 — пищевод, 10 — кольцеобразный хрящ, 11 — надгортанье, 12 — подъязычная кость; 13 — мягкое небо (небная занавеска)
При средней громкости и средней частоте основного тона импульсы, создаваемые голосовой щелью, в общем имеют треугольную форму, а отношение длительности импульса к общему периоду колебаний‚ составляет величину ‚порядка от 0,3 до 0,7. Поэтому частотный спектр импульсов голосовых связок сравнительно богат обертонами или гармониками. Благодаря примерно треугольной форме импульсов, верхние частотные составляющие уменьшаются по амплитуде со скоростью около 6 дб на октаву.
Форма импульсов, образуемых голосовой щелью, в процессе разговоров сильно изменяется. В частности, она зависит от основного тона и интенсивности звука. Звуки малой интенсивности и с низкой частотой основного тона имеют низкое подсвязочное давление, большую скважность и небольшую амплитуду импульсов. Звуки большой интенсивности и с высокой частотой основного тона характеризуются высоким подсвязочным давлением, небольшой скважностью импульсов и большой амплитудой. Используя электрические термины, можно сказать, что голосовая щель в определенной мере аналогична генератору тока, подключенному к цепи, характеристики которой изменяются во времени.
Произносительный аппарат
Схематически
движение воздуха показано на рис. 1.2.
Как видите, на выходе из гортани
поток воздуха может
Рис. 1.2. – Схема прохождения воздуха при образовании голоса
Органы, расположенные в ротовой полости, наряду с голосовыми связками, играют решающую роль в формировании звуков. Что же касается носовой полости, то она служит резонатором, усиливая колебания определенных частот.
К органам речеобразующей системы также относятся такие органы, как легкие, бронхи и трахея, расположенные ниже гортани. Совокупность этих органов служит источником энергии для образования речи. Воздух втягивается в лёгкие при расширении грудной клетки и опускании диафрагмы. Он выталкивается из лёгких при сжимании грудной клетки и увеличении лёгочного давления. Для образования гласных звуков речи с минимальным возможным уровнем требуется лёгочное давление порядка 4 см водяного столба. Для очень громких высоко тональных звуков обычно развивается давление порядка 20 см водяного столба. В процессе разговора лёгочное давление поддерживается на требуемом уровне благодаря непрерывному и медленному сжиманию грудной клетки.
Движения, выполняемые органами речи в процессе произнесения звуков, называются артикуляцией.
Источниками возникновения речевых звуков в артикуляторном тракте человека являются:
- периодические
модуляции посредством
- турбулентные завихрения воздушного потока в сужениях произносительного тракта (шумовой, или вихревой, источник);
- скачкообразное
изменение давления воздуха в
артикуляторном тракте при
На следующем этапе возбуждённый речевой звук модифицируется в отношении своего частотного состава в акустическом фильтре, который образуют активные и пассивные артикуляторные органы (голосовые связки, задняя стенка полости зёва, надгортанник, нёбная занавеска вместе с язычком, язык, губы, зубы, альвеолы, нёбо) и система резонаторов (полость гортани, полость зёва, носовая полость, полость рта, а также полость, образуемая в пространстве между губами и зубами). Ротовый резонатор, роль которого в модификации речевых звуков наиболее важна, может быстро менять свой объём и свою конфигурацию; он может быть более и менее жёстким. В результате отдельные составляющие возбуждённого звука усиливаются или ослабляются. Каждый звук приобретает в итоге свои индивидуальные акустические особенности.
Звуки речи могут быть разделены на три четко выраженные группы по типу возбуждения:
1. Вокализованные звуки образуются проталкиванием воздуха через голосовую щель, при котором периодически напрягаются и расслабляются голосовые связки и возникает квазипериодическая последовательность импульсов потока воздуха, возбуждающая голосовой тракт.
2. Фрикативные или невокализованные звуки генерируются при сужении голосового тракта в каком-либо месте (обычно в конце рта) и проталкивании воздуха через суженное место со скоростью, достаточно высокой для образования турбулентного воздушного потока. Таким образом, формируется источник широкополосного шума, возбуждающего голосовой тракт.
3. При произнесении взрывных звуков голосовой тракт полностью закрывается (обычно в начале голосового тракта). За этой смычкой возникает повышенное сжатие воздуха. Затем воздух внезапно высвобождается.
В русском языке можно выделить 44 фонемы. На рис. 1.3. приведены различные классы фонем русского языка. Четыре широких класса звуков образуют гласные, сонарные (полугласные) и согласные. Каждый из классов разбит на подклассы по способу и месту образования звука в голосовом тракте.
Рис. 1.3. – Классификация фонем русского языка
Помимо голосовых, человек может издавать и шумовые звуки.
Все шумовые звуки можно разделить на два типа: турбулентные и импульсные.
Турбулентные звуки образуются при прохождении звука через сужения речевого тракта. Например, согласные с, ф, х, ц, ч, ш, щ произносятся «без голоса» с использованием турбулентных шумовых звуков.
Импульсные шумовые звуки
Голосовой тракт и носовую полость можно представить в виде труб с переменной по продольной оси площадью поперечного сечения. При прохождении звуковых волн через эти трубы их частотный спектр изменяется в соответствии с частотной избирательностью трубы. Этот эффект похож на резонансные явления, происходящие в трубах органов и духовых музыкальных инструментов. При описании речеобразования резонансные частоты трубы голосового тракта называют формантными частотами или просто формантами.
В результате исследований было установлено, что в образовании речи активно участвуют четыре частоты, образующиеся в резонансных полостях речевого тракта. Эти частоты называются формантами.
В процессе артикуляции происходит постоянное изменение амплитуды формантных частот, которое можно обнаружить при помощи программ спектрального анализа. Такие программы позволяют развернуть спектр сигнала во времени, отображая его в трехмерном виде.
На рис. 1.4. четко виден формантный состав гласных и и у при произнесении последовательности этих звуков. При переходе от гласной и происходит смещение частоты форманты F2 c 2400 Гц на 784 Гц, а также одновременное ослабление формант F3 и F4.
Рис. 1.4. – Формантный состав гласных и и у.
Как видите, в процессе артикуляции может изменяться как амплитуда, так и частота форматных составляющих звука. При этом, однако, количество самих формант в голосовых звуках остается постоянным и всегда равно 4.
Что же касается шумовых звуков, то в них затруднительно выделить формантные составляющие. Это видно на рис. 1.5., где приведен спектр звука х (представляющего собой турбулентный шум).
Современные системы распознавания речи выполняют спектральный анализ, который позволяет выделить из звуковых сигналов речи наиболее информативные составляющие. Это формантные частоты, а также шум. Помимо спектрального анализа используются и более совершенные методы, такие, например, как вейвлет-преобразования.
Рис. 1.5. – Спектр звука х
Что же касается синтеза речи, то один из таких методов предполагает создание звуков речи из отдельных формантных составляющих с добавлением шума.
Все лингвистические понятия
Рис. 1.6. – Иерархия лингвистических уровней
На фонетическом уровне определяются такие понятия, как фонемы и аллофоны. Фонемы - это неделимые далее звуковые единицы языка, которые служат для построения словоформ и для различения их звуковых видов. Таким образом, основные лингвистические элементы называются фонемами, а их часто разнообразные, различимые варианты – аллофонами. В каждом языке имеется присущее ему множество фонем, обычно ют 30 до 50.
На фонологическом уровне определяются комбинации фонем и аллофонов, реально встречающихся в человеческой речи. На морфологическом уровне накладываются ограничения на структуру таких лингвистических элементов, как слоги и морфемы. Слог — это минимальная фонетическая единица речевого потока, включающая в свой состав, как правило, один гласный звук с примыкающими к нему согласными звуками. Морфемой называется наименьшая значимая часть слова. На лексическом уровне определяются слова и словоформы, которые возможны для данного языка. Высшим уровнем языка является семантика. Именно на этом уровне человеческий мозг отображает речевые конструкции на понятия и образы, устанавливая отношения между объектами и обозначающими их словами.