Проблемы систем распознавания и понимания речи

Автор работы: Пользователь скрыл имя, 23 Марта 2014 в 23:29, реферат

Описание работы

В настоящее время в развитие и усовершенствование систем распознавания и понимания речи вкладываются огромные суммы денег. В основном эти разработки интересуют военных и бизнесменов. Хотя количество людей интересующихся данными системами с каждым разом становится все больше.
Однако зачастую в практическом использовании системы распознавания речи возникают некоторые проблемы. Например: не профессиональность пользователя, который произносит речь произвольно; спонтанная речь т.е. засоренная речевым мусором ; акустические помехи и искажения ; речевые помехи. Поэтому следует определить условия в которых будет работать данная система.

Файлы: 1 файл

систем распознавания и понимания речи.docx

— 17.55 Кб (Скачать файл)

  В настоящее время в развитие и усовершенствование систем распознавания и понимания речи вкладываются огромные суммы денег.  В основном эти разработки интересуют военных и бизнесменов. Хотя количество людей интересующихся данными системами с каждым разом становится все больше.

 Однако зачастую в практическом использовании системы распознавания речи возникают некоторые проблемы. Например:  не профессиональность пользователя, который произносит речь произвольно;  спонтанная речь т.е.  засоренная речевым мусором ; акустические  помехи  и искажения ; речевые помехи. Поэтому следует определить условия в которых будет работать данная система.

 Хотя с другой стороны следует правильно определить задачи, научную и прикладную фундаментальность, связь с другими областями знаний, а также научно- промышленный потенциал.

 В настоящее время разработчики данных систем склоняются к тому, что главным является создание «фонетической печатающей машинки», а методом решения всех речевых проблем являются скрытые Марковские модели (HMM).

 Постараемся рассмотреть эти предположения.

 Первое- преобразование речи в текст.

 Рассматривая возможности и недостатки существующих систем автоматического распознавания речи, мы приходим к выводу, что большинство систем  выдают не менее 5% ошибок.

 Проблема заключается в том, что система часто не справляется с омонимией слов, даже если текст был произнесен правильно и аккуратно. Однако, такие ошибки порой очень трудно отследить, поэтому большим недостатком в этих системах является весьма слабый аппарат коррекции ошибок. Наконец обработка введенного отрезка речи может занять минуты.

 Это означает, что мы не можем говорить о существующих системах, как об идеальных или конечных.

 Второе - скрытые Марковские модели

 Итак, рассмотрим метод. Предложенный А.А.Марковым в 1913 г. и, который используется в большинстве систем автоматического распознавания речи.

 Построение систем автоматического распознавания речи по методу сМм зависит от вероятностной организации речевого поведения человека. Но эти предположения не являются очевидными.

 Рассмотрим речь как систему и выделим факторы, которые ее формируют:

1) Продуктивность т.е. возможность порождения огромного количества информационных сообщений;

2) Помехозащищенность т.е. способность сохранять точный смысл сообщаемой информации, несмотря на помехи и шумы.

 Помехозащищенность в системах АРР обеспечивается двумя механизмами:

1) Использование нескольких параллельно работающих способов выделения одних и тех же элементов речевого сигнала на основе анализа акустического сигнала.

2) Параллельно независимое использование сегментного(фонемного) и целостного восприятия слов в потоке речи.

 Итак, одним из важнейших вопросов АРР является: какова должна быть общая модель распознавания, если отказаться от бесполезной вероятностной модели?

 Естественным представляется использование моделей восприятия речи. Однако и здесь обнаруживается ряд вопросов:

 Второй вопрос: Каков принцип выбора первичного описания сигнала?

 Первый подход основан на статистическом анализе различных речевых акустических параметров.

 Второй подход предполагает, что для распознавания речи необходим переход от акустических параметров  к артикуляции.

 Третий подход- это применение квантовой теории, что является весьма перспективным.

  В этой теории акустические признаки делятся на 2 категории:

  Первый тип акустических признаков соответствуют резкому изменению акустического сигнала при небольшом изменении артикуляционного тракта.

 Второй тип соответствует синхронно плавному изменению сигнала с изменением артикуляции.

 Третий вопрос связан с тем, что если мы отказываемся от линейной модели речевого сигнала, то тогда не ясно как должны взаимодействовать первичные признаки с другими речевыми уровнями: Вербальным, семантическим, прагматическим, вероятностным и др.

 А теперь перейдем к рассмотрению таких областей систем АРР, как семантика и прагматика.

 В современных системах АРР сначала происходит распознавание сегментов речи, а потом уже семантики. Семантически модуль представляет собой матрицу, составленную из векторов вероятности распознания каждого сегмента в потоке речи, который соответствует определенному слову или словоформе. Далее, из векторов вероятности составляется список осмысленных предположений.

 Применять грамматику для построения предложений практически бессмысленно, потому что живая речь обычно полна грамматических ошибок, а падежные окончания часто заглатываются говорящим, поэтому обычно используют: учет предыстории; выявление контекста и падежно-ролевых отношений; использование статистических вероятностных методов ( частотности, ассоциативности).

 Есть и другой способ понимания речи: подстройка модуля распознавания до обработки входного сигнала. Главной задачей здесь является не просто передача информации, а выявление общей «семантической ситуации». Однако, главной проблемой данного подходя является построение хорошей базы знаний, предварительного обучения системы, способность к адекватному анализу окружающей действительности.

 Второй способ распознавания это использование фреймов, где адресат выбирает тему разговора, к которой подключаются та или иная модель диалога со своей грамматикой и лексикой. Распознавание здесь ограничивается поиском ключевых слов и смыслов.

 И еще один не разрешенный вопрос это – анализ акустических сцен. Здесь имеется в виду способность системы распознавать слова в условиях сильных помех и шума. В настоящий момент в АРР ведутся разработки, направленные на подавление шумов. И здесь тоже было бы интересным рассмотреть модели, которые рассматриваются при речевом восприятии.

 

 


Информация о работе Проблемы систем распознавания и понимания речи