Автор работы: Пользователь скрыл имя, 13 Октября 2013 в 14:02, курсовая работа
Для современного человека эта способность является совершенно обыденной, обычный человек даже не задумываемся как и почему он слышит то, что слышит. А в действительности проходит огромная работа для анализа чей-то речи или звуков - аналоговым потоком аудиоинформацией, с которым, непрерывно работает наше ухо. Звуки, излучаемые в воздушную среду, обнаруживаются ухом и затем осмысливаются в мозгу. С такой задачейможет справится большинство ЭВМ, но на данный момент нет способа проанализировать получаемую звуковую информацию на уровне человеческого мозга, так же как и приёмника сравнимого с человеческим ухом.
В данной работе рассматривается задача изучения аллофонизации фонем на примере фонемы «О» в стороннем окружении «Лок» и «Момь». Под аллофонизацией понимают изменение участков формантных треков, указывающих на предыдущую и последующую фонемы.
Перечень условных обозначений и сокращений 5
ВВЕДЕНИЕ 6
1. Основная часть 7
1.1. Обоснование актуальности задачи 7
1.2. Блок-схема алгоритма обработки сигнала 8
1.3. Сегментация речевого сигнала 9
1.4. Синхронизация периода основного тона 10
1.5. Преобразование амплитуддно-временной формы сигнала в спектрально-временную. 12
1.6. Построение сонограммы 13
1.7. Анализ формантных треков аллофонизированной гласной фонемы 14
ЗАКЛЮЧЕНИЕ 16
Список литературы 17
Приложение 1 - Исходные тексты программ 18
МИНОБРНАУКИ РОССИИ
Федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования
«Московский государственный технический университет радиотехники, электроники и автоматики»
МГТУ МИРЭА
Факультет информационных технологий (ИТ)
«наименование факультета»
Кафедра базовая автоматизированных систем организационного управления (АСОУ) №239 МГТУ МИРЭА при ФГУП НИИ «Восход»
«наименование кафедры»
КУРСОВАЯ РАБОТА
по дисциплине
«Предварительная обработка аудио и видео»
<Наименование дисциплины>
Тема курсовой
работы:
<Название темы курсовой работы/проекта>
Студент группы ___ ___ |
|||
<код группы> |
<подпись студента> |
<ФИО студента> | |
Руководитель курсовой работы |
доцент, к.т.н. | ||
<должность, звание, уч.степень> | |||
<подпись руководителя> |
< ФИО руководителя > | ||
Рецензент (при наличии) |
|||
<должность, звание, уч.степень> | |||
<подпись рецензента> |
< ФИО рецензента > | ||
Работа представлена к защите |
«___»________201_ г. |
||
<подпись студента> | |||
«Допущен к защите» |
«___»________201_ г. |
||
<подпись руководителя> |
МИНОБРНАУКИ РОССИИ
Федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования
«Московский государственный
технический университет
МГТУ МИРЭА
Факультет информационных технологий (ИТ)
«наименование факультета»
Кафедра базовая автоматизированных систем организационного управления (АСОУ) №239 МГТУ МИРЭА при ФГУП НИИ «Восход»
«наименование кафедры»
УТВЕРЖДАЮ Заведующий кафедрой _________________ Л.Ю. Бородинов «____» ___________________ 201__г. |
ЗАДАНИЕ
на выполнение курсовой работы
по дисциплине |
«Предварительная обработка аудио и видео» |
«Название дисциплины» |
Студент |
Группа |
||
1. Тема курсовой работы
«Аллофонизация гласной фонемы «О» в стороннем окружении ЛОК и МОМЬ»
2. Исходные данные
3. Перечень вопросов, подлежащих разработке, и обязательного графического материала:
4. Срок представления к защите курсовой работы: до « 16 » мая 2013 г.
Задание на курсовой проект (работу) выдал |
«___»_______201_ г. |
||||
<подпись руководителя проекта> |
<Ф.И.О. руководителя проекта> | ||||
Задание на курсовой проект (работу) получил |
«___»_______201_ г. |
||||
<подпись студента-исполнителя проекта> |
<Ф.И.О. студента-исполнителя проекта> |
5. Мониторинг процесса выполнения курсовой работы
№
э т апа |
Наименование этапа курсовой работы |
Этап курсового проекта, работы выполнил и представил результаты руководителю курсовой работы дата и подпись исполнителя |
Работу по этапу курсовой работы принял на рассмотрение, дата и подпись руководителя |
Рекомендации и замечания по дата и подпись руководителя |
Оценка выполнения этапа курсовой
работы |
Комментарии |
1 |
Разработка задания на КП |
10.04.2013 |
11.04.2013 |
|||
2 |
Обоснование актуальности задачи |
12.04.2013 |
16.04.2013 |
|||
3 |
Ввод и визуализация сигналов во временной области |
17.04.2013 |
18.04.2013 |
|||
4 |
Сегментация триад, на предмет выделения фонем образованных тоном |
19.04.2013 |
23. 04.2013 |
|||
5 |
Синхронизация с периодом основного тона ( только для фонем образованных тоном) |
24.04.2013 |
25.04.2013 |
|||
6 |
Используя финитные свойства преобразования Фурье, осуществить переход от амплитудно-временного вида представления сигнала к спектрально-временному |
26.04.2013 |
29.04.2013 |
|||
7 |
Построение и визуализация сонограммы |
30.04.2013 |
06.05.2013 |
|||
8 |
Анализ формантных треков на предмет аллофонизации гласной фонемы |
07.05.2013 |
13.05.2013 |
|||
9 |
Визуализация стилизованных |
14.05.2013 |
15.05.2013 |
ЛИСТ ЗАМЕЧАНИЙ
Содержание
Перечень условных обозначений и сокращений 5
ВВЕДЕНИЕ 6
1. Основная часть 7
1.1. Обоснование актуальности задачи 7
1.2. Блок-схема алгоритма обработки сигнала 8
1.3. Сегментация речевого сигнала 9
1.4. Синхронизация периода основного тона 10
1.5. Преобразование амплитуддно-временной формы сигнала в спектрально-временную. 12
1.6. Построение сонограммы 13
1.7. Анализ формантных треков аллофонизированной гласной фонемы 14
ЗАКЛЮЧЕНИЕ 16
Список литературы 17
Приложение 1 - Исходные тексты программ 18
БПФ – быстрое преобразование Фурье
ДПФ – дискретное преобразование Фурье
ЭВМ - электронная вычислительная машина
ПОТ - периода основного тона
ВВЕДЕНИЕ
Как известно, одним из способов общения между существами является создание определённых звуков. Человек достиг больших высот в этом направлении, по сравнению с остальным животным миром, так, что теперь звуковая передача информации между людьми, называется устной речью.
Для современного человека эта способность является совершенно обыденной, обычный человек даже не задумываемся как и почему он слышит то, что слышит. А в действительности проходит огромная работа для анализа чей-то речи или звуков - аналоговым потоком аудиоинформацией, с которым, непрерывно работает наше ухо. Звуки, излучаемые в воздушную среду, обнаруживаются ухом и затем осмысливаются в мозгу. С такой задачей может справится большинство ЭВМ, но на данный момент нет способа проанализировать получаемую звуковую информацию на уровне человеческого мозга, так же как и приёмника сравнимого с человеческим ухом.
В данной работе рассматривается задача изучения аллофонизации фонем на примере фонемы «О» в стороннем окружении «Лок» и «Момь». Под аллофонизацией понимают изменение участков формантных треков, указывающих на предыдущую и последующую фонемы.
Человек всегда хотел бы использовать более простые способы взаимодействия с ЭВМ, и применение устной речи одно из них. В последнее время активно идут разработки в области распознавания и имитирования человеческой речи. И уже повсеместно используется «компьютерный голос», который всё ещё не обладает способом передавать эмоции, но, который человек способен понять. Так же как с имитацией речевого сигнала, есть продвижения в его анализе. Сейчас существуют программы способные проанализировать человеческую речь, но на очень примитивном уровне. Поскольку речь вариативна по темпу, по изменению частоты основного тона и фиксируется всегда при различных условиях соотношения сигнал/шум, поэтому существующие программные средства не могут с большой вероятностью распознать аудиоинформацию. И всё же, как уже говорилось, на данный момент не существует системы возможности которой были сравнимы с человеческими ухом и мозгом.
Одним из сдерживающих факторов является аллофонизация, которая является одной из многочисленных основ полноценного взаимодействия человека посредством речи.
В данной работе был разработан алгоритм (Рис. 1), направленный на вскрытие аллофонизации фонемы «О» в стороннем окружении «Лок» и «Момь».
Для изучения аллофонизации фонемы «О» в стороннем окружении триад «Лок» и «Момь», был разработан алгоритм обработки сигнала (Рис. 1), который впоследствии был реализован в программном коде, с помощью возможностей пакета MatLab.
Сегментация речевого сигнала подразумевает под собой выделение участков образованных тоном и шумом.
В данном курсовом проекте были предоставлены звуковые сигналы триад «Лок» и «Момь», в формате WAV. С использованием функции plot была осуществлена визуализация входных сигналов (Рис. 2).
Рисунок 2. Изображение триад «Лок» и «Момь», в амплитудно-временной области.
По результатом визуального анализа, была произведена сегментация речевого сигнала для выделения фонем образованных тоном.(Рис. 3)
Рисунок 3. Сегментация речевого сигнала триад «Лок» и «Момь».
Информация о работе Аллофонизация гласной фонемы «О» в стороннем окружении ЛОК и МОМЬ