Автор работы: Пользователь скрыл имя, 27 Марта 2012 в 10:27, реферат
Хотя термин «распознавания речи» встречается в литературе очень часто, на самом деле он имеет много различных значений. В этой главе мы попытаемся рассказать о различных трактовках этого термина, а также сделаем небольшой обзор технологий распознавания речи, сведения о которых доступны широкой публике.
Методы распознавания и синтеза речи
Основные процедуры распознавания
визуальной и речевой информации
Методы распознавания речи
Хотя термин «распознавания речи» встречается в литературе очень часто, на самом деле он имеет много различных значений. В этой главе мы попытаемся рассказать о различных трактовках этого термина, а также сделаем небольшой обзор технологий распознавания речи, сведения о которых доступны широкой публике.
Как правило, в существующих системах используются два принципиально разных подхода:
· распознавание голосовых меток;
·
распознавание лексических
Первый подход предполагает распознавание фрагментов речи по заранее записанному образцу. Этот подход широко используется в относительно простых системах, предназначенных для исполнения заранее записанных речевых команд.
Второй подход сложнее. При его реализации из потока речи выделяются отдельные лексические элементы — фонемы и аллофоны, которые затем объединяются в слоги и морфемы. Строго говоря, именно этот подход и используется в «настоящих» системах распознавания речи.
Все системы распознавания речи можно разделить на два класса:
· системы, зависимые от диктора;
· системы, не зависимые от диктора
К первому классу относятся системы, работа которых не зависит от диктора. Такие системы не требуют предварительного обучения и способны распознавать речь любого диктора.
Системы второго класса настраиваются на речь диктора в процессе обучения. Для работы с другим диктором такие системы требуют полной перенастройки.
Сразу отметим, что создание систем распознавания речи любого класса, пригодных для промышленного применения, представляет собой чрезвычайно сложную задачу. Как правило, разработчики таких систем обладают многолетним опытом в практическом применении речевых технологий.
Распознавание по образцу
Если у Вас есть современный мобильный телефон, то, скорее всего, одна из систем распознавания речи уже лежит в Вашем кармане. Такая система предназначена для ускоренного выбора абонентов из записной книжки мобильного телефона с помощью голоса.
Как это работает?
При добавлении нового контакта в записную книжку Вам предоставляется возможность ввести голосовую метку, идентифицирующую этот контакт, например, произнести в телефон имя или фамилию абонента. Возможно, придется сделать это два или три раза.
Теперь, чтобы позвонить абоненту, достаточно нажать одну из кнопок, расположенных на корпусе мобильного телефона, и произнести голосовую метку. Номер абонента будет выбран из записной книжки, после чего мобильный телефон попытается установить с абонентом связь.
Помимо мобильного телефона,
существуют и другие устройства с
подобным голосовым управлением, например,
компьютерные клавиатуры. Такие клавиатуры
оборудуются встроенным микрофоном
и позволяют назначить
Технология распознавания фрагментов по заранее записанным образцам применяется и во многих программах, позволяющих подключить голосовое управление к операционной системе Microsoft Windows и ее приложениям. При использовании этих программ Вы сможете запускать приложения, переключаться между ними, выбирать строки из меню и щелкать кнопки диалоговых окон, отдавая голосовые команды и не притрагиваясь руками к клавиатуре или мыши. Возможно, такие программы и не намного ускорят работу с приложениями для обычных людей, но они отчасти помогут инвалидам, неспособным использовать стандартные средства общения с компьютером.
Эта технология работает достаточно хорошо, если телефоном пользуется только один человек, а общее количество голосовых меток не превышает десяток-другой. Если Вы «обучите» свой телефон (или клавиатуру с голосовым интерфейсом) реагировать на Ваш голос, то только Вы и сможете пользоваться речевыми метками. Таким образом, эти системы относятся к классу систем, зависимых от диктора. Впрочем, этот недостаток есть и у многих более совершенных систем распознавания речи, основанных на выделении из речи лексических элементов.
Выделение лексических элементов
Далее в этой главе мы сосредоточим свое внимание на подходе к созданию систем распознавания речи, основанном на выделении из речи лексических элементов, таких как фонемы и аллофоны.
Как Вы можете убедиться, проводя осциллографические исследования (описанные нами в 3 главе), невозможно выделить из речи фонемы и аллофоны, анализируя только форму огибающей звукового сигнала. Как отмечено в [3], нельзя ограничиться составлением базы данных из записей звуковых сигналов всех фонем, аллофонов и других лексических элементов для последующего сравнения формы сигналов в процессе распознавания. Здесь нужны более сложные методы.
Предварительная обработка звуковых сигналов
Перед тем как предпринимать
попытки распознавания речи, нужно
выполнить предварительную
Отфильтрованный звуковой сигнал нужно оцифровать, выполнив аналого-цифровое преобразование. Этот этап обработки мы тоже уже обсуждали ранее.
Всю предварительную обработку
звукового сигнала можно
Важным этапом предварительной
обработки входного сигнала является
нормализация уровня сигнала. Это позволяет
уменьшить погрешности
Заметим, однако, что если
входной звуковой сигнал имеет слишком
малый уровень громкости, то после
нормализации может появиться шум.
Поэтому для успешной работы системы
распознавания речи необходимо отрегулировать
оптимальным образом
Выделение информативных признаков речевого сигнала
Как мы уже говорили, информации об амплитуде и форме огибающей речевого сигнала не достаточно для выделения из речи лексических элементов. В зависимости от различных обстоятельств форма огибающей речевого сигнала может меняться в широких пределах, что затрудняет задачу распознавания.
Для решения задачи распознавания необходимо выделить первичные признаки речи, которые будут использованы на последующих этапах процесса распознавания. Первичные признаки выделяются посредством анализа спектральных и динамических характеристик речевого сигнала.
Спектральное представление речи
Для выделения информативных признаков речевого сигнала используется спектральное представление речи. При этом на первом этапе осуществляется получение частотного спектра речевого сигнала с помощью набора программных полосовых фильтров (выполняя так называемое дискретное преобразование Фурье).
На втором этапе выполняются преобразования полученного спектра речевого сигнала:
·
логарифмическое изменение
· сглаживание спектра с целью выделения его огибающей;
· кепстральный анализ (cepstral analysis), т.е. обратное преобразование Фурье от логарифма прямого преобразования [16].
Как отмечено в [3], перечисленные
выше преобразования позволяют учитывать
такие особенности речевого сигнала,
как понижение информативности
высокочастотных участков спектра,
логарифмическую
Учет динамики речи
Помимо спектральных характеристик, необходимо учитывать и динамические особенности речи. Для этого используют дельта-параметры, представляющие собой производные по времени от основных параметров.
При этом мы можем отслеживать не только изменение параметров речи, но и скорость их изменения.
Выделение фонем и аллофонов
В первой главе нашей книги мы рассказывали о таких лексических элементах речи, как фонемы и аллофоны. Для их выделения в [3] применяются нейронные сети и метод формирования нейронных ансамблей.
При этом обучение выделению
примитивов речи (фонем и аллофонов)
может заключаться в
Формирование нейронных ансамблей представляет собой процесс обучения нейронной сети без учителя, при котором происходит статистическая обработка всех сигналов, поступающих на вход нейронной сети. При этом формируются ансамбли, соответствующие наиболее часто встречающимся сигналам. Запоминание редких сигналов происходит позже и требует подключения механизма внимания или иного контроля высшего уровня.
Уровни распознавания слитной речи
Распознавание слитной речи представляет
собой многоуровневый процесс. После
предварительной обработки
На втором уровне выделяются слоги и морфемы, на третьем — слова, предложения и сообщения (рис. 5-1).
Как отмечается в [3], на каждом уровне сигнал кодируется представителями предыдущих уровней. То есть слоги и морфемы составляются из фонем и аллофонов, слова — из слогов и морфем, предложения и сообщения — из слов.
Три уровня распознавания слитной речи
При переходе с уровня на уровень помимо представителей сигналов передаются и некоторые дополнительные признаки, временные зависимости и отношения между сигналами. Собирая сигналы с предыдущих уровней, высшие уровни располагают большим объемом информации (или её другим представлением), и могут осуществлять управление процессами на низших уровнях, например, с привлечением механизма внимания.
Механизм внимания используется при обучении нейронной сети. В случае использования такого механизма при появлении образца, неизвестного нейронной сети, скорость обучения многократно возрастает. При этом редко встречающийся образец запоминается в нейронной сети.
Применение
нейронных сетей для
Рассказывая в 4 главе нашей книги о нейронных сетях, мы упоминали такое свойство этих сетей, как способность к обучению и классификации объектов по их числовым параметрам.
При обучении сети с учителем можно научить сеть распознавать объекты, принадлежащие заранее определенному набору классов. Если же сеть обучается без учителя, то она может группировать объекты по классам в соответствии с их цифровыми параметрами.
Таким образом, на базе нейронных
сетей можно создавать
· Разработка системы заключается только в построении архитектуры системы
В процессе создания системы разработчик создает только функциональную часть, но не наполняет (или наполняет в минимальных объемах) систему информацией. Основную часть информации система получает в процессе обучения.
· Возможность контроля своих действий с последующей коррекцией
Этот принцип говорит
о необходимости обратной связи Действие-Результат-
· Возможность накопления знаний об объектах рабочей области
Знание об объекте — это способность манипулировать его образом в памяти.
Количество знаний об объекте определяется не только набором его свойств, но ещё и информацией о его взаимодействии с другими объектами, поведении при различных воздействиях, нахождении в разных состояниях, и т.д., т.е. его поведении во внешнем окружении.