Системы распознавания образов (дактилоскопические, речевые, программы-переводчики и др.)

Автор работы: Пользователь скрыл имя, 29 Мая 2015 в 23:07, реферат

Описание работы

Теория распознавания образов — раздел информатики, развивающий теоретические основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов, которые характеризуются конечным набором некоторых свойств и признаков. Такие задачи решаются довольно часто, например, при переходе или проезде улицы по сигналам светофора. Распознавание цвета загоревшейся лампы светофора и знание правил дорожного движения позволяет принять правильное решение о том, можно или нельзя переходить улицу в данный момент.
Создание искусственных систем распознавания образов остаётся сложной теоретической и технической проблемой. Необходимость в таком распознавании возникает в самых разных областях — от военного дела и систем безопасности до оцифровки всевозможных аналоговых сигналов.

Файлы: 1 файл

Реферат1.docx

— 38.20 Кб (Скачать файл)

    1.Системы распознавания образов (дактилоскопические, речевые, программы-переводчики и др.)

    Теория распознавания  образов — раздел информатики, развивающий теоретические основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов, которые характеризуются конечным набором некоторых свойств и признаков. Такие задачи решаются довольно часто, например, при переходе или проезде улицы по сигналам светофора. Распознавание цвета загоревшейся лампы светофора и знание правил дорожного движения позволяет принять правильное решение о том, можно или нельзя переходить улицу в данный момент.

    Создание искусственных систем распознавания образов остаётся сложной теоретической и технической проблемой. Необходимость в таком распознавании возникает в самых разных областях — от военного дела и систем безопасности до оцифровки всевозможных аналоговых сигналов.

   Традиционно задачи распознавания образов включают в круг задач искусственного интеллекта.

    Подход состоящий в формировании оптимальной оценки образа исследуемого объекта путем виртуализации оценок информационных образов, полученных из результатов информационного анализа идентификаторов. Фундаментальную основу подхода составляют математические модели оценок виртуального и информационного образов. Полученные в настоящее время на этой основе дискретные модели применительно к дактилоскопическим идентификаторам позволили создать макет программно-аппаратного комплекса формирования оценки виртуального дактилоскопического образа личности. Результаты экспериментальных исследований на базе данного комплекса обозначили область принципиально новых возможностей идентификации личности на основе распознавания дактилоскопических образов.

    Известные в настоящее время подходы к распознаванию дактилоскопических образов, несмотря на их достаточно высокую эффективность, потенциально не в состоянии обеспечить оптимальную оценку образа с позиций минимизации ошибок, вызванных нестационарностью информационного поля дактилоскопических идентификаторов. Предлагаемый комплекс впервые позволяет осуществлять оценку и последующее распознавание дактилоскопических образов на основе оптимизации информационного анализа идентификаторов при этом

обеспечивается возможность оценки влияния на распознаваемый образ изменений информационного поля окружающей среды.

    Интерфейс программно-аппаратного комплекса включает четыре окна:

     -окно регистрации дактилоскопических идентификаторов, в котором отображаются два варианта изображений формата bmp.пальцев или ладоней индивидуума.

     -окно формирования и оценки информационного дактилоскопического образа.

     -окно формирования и оценки виртуального дактилоскопического образа.

    -окно настроек и управления. В данном окне можно: производить выбор дактилоскопических идентификаторов (в автоматическом или в ручном режиме); устанавливать вид оценки образа, информационный или виртуальный; производить регистрацию результатов идентификации дактилоскопических образов.

     Способность данного программно-аппаратного комплекса формировать информационные и виртуальные дактилоскопические образы исследуемых объектов открывает путь к практически неограниченному увеличению числа возможных к применению для распознавания образов дактилоскопических идентификаторов. В результате обеспечивается возможность адаптивного повышения точности оценки образов и открывается принципиально новая область возможностей решения задач идентификации и аутентификации.

    Компьютеры находят все более широкое применение во всех областях человеческой деятельности. В настоящее время сдерживающим фактором к увеличению количества компьютеров в мире является неприятие их неподготовленным пользователем, его страх перед компьютерами. В определенной степени это неприятие связано с традиционными для вычислительной техники способами ввода информации, в первую очередь, ввода с клавиатуры.

     В настоящее  время во всем мире ведутся  работы по созданию более естественных  для человека средств общения  с компьютером, среди которых  первое место занимает речевой  ввод информации в компьютер. Проблема речевого ввода информации  осложняется рядом факторов: различием  языков, спецификой произношения, шумами, акцентами, ударениями и т.п. Данная  работа посвящена разработке  приемов и алгоритмов распознавания  речи на русском языке.

     В любом языке существует некий набор звуков, который участвует при формировании звукового облика слов. Как правило, звук вне речи не имеет значения, он приобретает его лишь как составная часть слова, помогая отличить одно слово от другого. Элементы этого набора звуков называются фонемами.

     Процесс произнесения  звуков речи имеет несколько  основных стадий.

     Легкими создается  поток воздуха, который проходя  через гортань, ротовую и носовую  полость получает полезную информацию, которая распространяется в пространстве  в виде звуковых волн. Звуки  могут формироваться при участии истинных голосовых связок и без их участия и от этого коренным образом меняется их образ. Звуковые колебания воспринимаются микрофоном, и как результат преобразования имеется аналоговый сигнал, что дает возможность применить аналоговые методы анализа сигнала. Как правило, на этой стадии могут применяться системы фильтров. Однако, если рассматривать распознавание речи в приложении к компьютерным технологиям на уровне программного обеспечения, то необходимо провести следующий этап преобразования информационного образа речи - из аналогового сигнала в непрерывно-дискретный.

     Преобразование  реализуемо с применением различных  видов аналого-цифровых преобразователей. Главным требованием к ним  является достаточность качественных  характеристик преобразования. Такими  качественными характеристиками  являются частота дискретизации  и разрядность представления  каждой дискреты.

     Частота дискретизации  определяет ту предельную частоту  аналогового сигнала, которая может  быть информативна в дискретном  представлении. Из исследований  в технической фонетике, в частности, в телефонии известно, что приемлемый диапазон частот, при котором человек может распознавать речь и определить говорящего является 4. Именно это значение легло в основу частотного уплотнения каналов в телефонии и определении пропускной способности цифровых каналов связи.

     Анализ аналоговых  характеристик речи показывает, что реально частота дискретизации  должна быть не менее 8 - 12 Khz. При дальнейшем понижении частоты начинает теряться информация, которая активно используется при распознавании (особенно это важно при распознавании звуков, содержащих шум). Нет смысла поднимать частоту дискретизации выше 25 Khz,так как при незначительном увеличении полезной информации, начинает увеличиваться количество бесполезной информации - шумов.

     По диапазону  количества разрядов, передающих  дискретный сигнал, достаточно 8 разрядов, но при условии хорошего качества  сигналов и его высокого уровня. Человек способен воспринимать  речь в более худших условиях, чем описанные выше, например, телефонные разговоры. Однако, при восприятии речи человек использует механизмы ассоциативного анализа, не просто разбирая и сравнивая услышанные звуки, но собирая фонемы в словесные образы, подбирая наиболее подходящие не только по звуковому подобию, но и по интонации, эмоциональной окраске, контексту слова, фразы, предложения и всего текста. Поэтому, человек способен распознавать речь даже при большой нехватке несущей информации. Например: человек намного требовательней к качеству звука при прослушивании речи на чужом языке, при слабом его знании, чем при восприятии родной речи.

     Обратимся  к полученной после дискретизации  осциллограмме речи. В общем случае  информация в виде образа речи  может быть представлена последовательностью  участков. На одних прослеживаются  некие периодические процессы  различной амплитуды (см. рисунок), другие представляют из себя различные виды шумов, третьи - участки с сигналом, близким к нулевому значению, четвертые могут быть описаны как скачки.

     Над полученным  образом речи можно производить  работу по распознаванию. Рассмотрим  иерархию построения системы  распознавания речи. В качестве  простого примера рассмотрим  схему распознавания, когда сигнал  делится на два слова (для уверенного  деления в простейших случаях  достаточно полуторносекундной задержки между словами при произношении). Слова, в свою очередь, распознаются как единое целое. При этом используются различные методы сравнения с эталонами, вид которых зависит от методики распознавания: при использовании методов динамического программирования эталоны представляются в том же виде, что и поступающий сигнал (с учетом деления на слова), при применении методов разложения в ряды, эталоны представляют из себя наборы параметров этого ряда.

     Результатом  работы этой схемы является  слово из списка присутствующих  в множестве эталонов или сообщение об ошибке, если полученный образ не соответствует в достаточной мере ни одному эталону.

     К недостаткам  такой системы можно отнести: необходимость создания совокупности  эталонов фактически для каждого  человека (так называемый процесс  обучения системы распознавания), невозможность создания автоматической  системы коррекции эталонов, пропорциональность  времени, затрачиваемого на распознание  слова, количеству эталонов, и необходимость  конечного выбора из нескольких  возможных вариантов.

     Из-за перечисленных  недостатков описанная схема  может применяться только при  необходимости распознавания ограниченного  списка слов одного или нескольких  операторов. Например, в различных  системах управления с небольшим  количеством команд.

     Улучшить качество  работы рассмотренной выше одноуровневой  системы распознавания возможно  за счет увеличения количества  уровней. Пусть рассмотренная нами  система распознавания слова  из совокупностей шаблонов занимает  средний уровень нашей иерархии.

     Добавим к  распознаванию среднего уровня  еще один, верхний, уровень. На этом  уровне предполагаемое слово  анализируется с точки зрения  фразы в целом. В результате, за  счет синтаксических и семантических  свойств языка приобретается  дополнительная информация, повышающая  качество распознавания.

     Однако, идея увеличения количества информации о слове необязательно должна быть связана с верхним уровнем. Рассмотрим более нижний уровень иерархии, где производится фонемный разбор речевого образа, то есть деления выделенных слов на фонемы с последующим их распознаванием. Это позволило производительно использовать распознавание по иерархической схеме: из списка фонем, распознанных с определенной точностью, составляется шаблон, который передается на следующий уровень, где по нему происходит подбор наиболее подходящего слова, передача информации о выборе на более высокий уровень, для дальнейшего анализа, и на нижний, для подстройки системы на конкретного пользователя. Достоинством это схемы является высокая адаптивность, дающая возможность динамической самоподстройки системы на оператора, и многоуровневая система проверок, повышающая точность работы.

    Сравнивая распознавание речевого потока методом распознавания целых слов и распознавание фонем, можно сделать вывод: при небольшом количестве слов, используемых оператором, более высокую надежность и скорость можно ожидать от распознавания целых слов, Но при увеличении словаря скорость резко падает. Предположительно, размер словаря системы распознавания уже в сотню слов делает переход на уровень более низкий, чем распознавание слов в целом актуальным.

     Звуки, участвующие  в формировании речи, имеют две  основные классификации: по артикуляционным  признакам и по акустическим  признакам.

     Классификация  звуков по артикуляционным признакам  является крайне важной при  использовании методов генерации  и распознавания речи с помощью  моделирования носоглотки, но для  решения задач деления на фонемы  более интересно рассмотрение  акустических различий звуков. По  акустическим признакам звуки  подразделяются:

     Тональные  звуки - образуются голосом при  полном отсутствии шумов, что  обеспечивает хорошую слышимость  звука: гласные: а, э, и, о, у, ы.

     Сонарные (звучные) - чье качество определяется характером звучания голоса, который играет главную роль в их образовании, а шум участвует в минимальной степени: согласные: м, м’, н, н’, л, л’, р, р’, j.

     Шумные - их качество определяется характером шума - акустического эффекта от трения воздуха при сближенных или взрыве при сомкнутых органах речи:

-звонкие шумные длительные: в, в’, з, з’, ж;

-звонкие шумные мгновенные: б, б’, д, д’, г, г’;

-глухие шумные длительные: ф, ф’, с, с’, ш, х, х’;

-глухие шумные мгновенные: п, п’, т, т’, к, к’.

    По производимыми звуками акустическому впечатлению выделяют следующие группы звуков:

-свистящие: с, с’, з, з’, ц;

-шипящие: ш, ж, ч, щ;

-твердые: п, в, ш, ж, ц и др.;

мягкие: п’, в’, ч, щ и др.

     Для дальнейшего анализа проведем информационные образы звуков различных групп. Разница образов и звуков различных видов велика, что значительно облегчила бы задачу разделения звуков, если бы не присутствие нескольких затрудняющих работу факторов.

     Во-первых, переход  между различными звуками, как  правило, осуществляется крайне  плавно даже между звуками  различных групп (исключение составляют  некоторые взрывные согласные). Если  же говорить о звуках одной  группы, то становится проблематичным  разделять переходные процессы  от произнесения того или иного  звука, например, в последовательности, воспринимаемой человеком как  “иау”, звук “а” фактически полностью теряет свой обычный образ в переходе от “и” к “у”. Под влиянием “и” и “у” несколько уменьшилась частота в “а”, да и сама форма звука несколько трансформировалась.

Информация о работе Системы распознавания образов (дактилоскопические, речевые, программы-переводчики и др.)