Распознавание образов

Автор работы: Пользователь скрыл имя, 15 Января 2013 в 08:02, реферат

Описание работы

С задачей распознавания образов живые системы, в том числе и человек, сталкиваются постоянно с момента своего появления. В частности, информация, поступающая с органов чувств, обрабатывается мозгом, который в свою очередь сортирует информацию, обеспечивает принятие решения, а далее с помощью электрохимических импульсов передает необходимый сигнал далее, например, органам движения, которые реализуют необходимые действия. Затем происходит изменение окружающей обстановки, и вышеуказанные явления происходят заново. И если разобраться, то каждый этап сопровождается распознаванием.

Содержание работы

Введение 3
1. История распознавания образов 5
2. Определения 7
2.1. Оптическое распознавание символов. Распознавание букв 9
2.2. Распознавание штрих-кодов 12
2.3. Распознавание автомобильных номеров 14
2.4. Распознавание лиц и других биометрических данных 16
2.5. Распознавание речи 17
3. Методы распознавания образов 20
4. Общая характеристика задач распознавания образов и их типы 21
Заключение 22
Литература 24

Файлы: 1 файл

ЭК Распознование образов.docx

— 444.48 Кб (Скачать файл)

Интерес к процедурам, лежащим в  основе процесса узнавания и распознавания  лиц, всегда был значительным, особенно в связи с возрастающими практическими  потребностями: охранные системы, верификация, криминалистическая экспертиза, телеконференции  и т.д. Несмотря на ясность того житейского факта, что человек хорошо идентифицирует лица людей, совсем не очевидно, как  научить ЭВМ проводить эту  процедуру, в том числе как  декодировать и хранить цифровые изображения лиц. Еще менее ясными являются оценки схожести лиц, включая  их комплексную обработку. Можно  выделить несколько направлений  исследований проблемы распознавания  лиц:

    • нейропсихологические модели;
    • нейрофизиологические модели;
    • информационно – процессуальные модели;
    • компьютерные модели распознавания.
    • Проблема распознавания лиц рассматривалась еще на ранних стадиях компьютерного зрения. Ряд компаний на протяжении более 40 лет активно разрабатывают автоматизированные, а сейчас и автоматические системы распознавания человеческих лиц: Smith & Wesson (система ASID – Automated Suspect Identification System); ImageWare (система FaceID); Imagis, Epic Solutions, Spillman, Miros (система Trueface); Vissage Technology (система Vissage Gallery); Visionics (система FaceIt).
    • Технологии распознавания лиц позволяют производить автоматический поиск и распознавание лиц в графических файлах и видеопотоке.
    • Основные характеристики:
    • возможность поиска и распознавания нескольких лиц;
    • устойчивость к изменениям в прическе, наличию/отсутствию усов и бороды, очкам (кроме солнцезащитных), возрастным изменениям (кроме детей), поворотам (до 30 градусов)
    • практически линейная масштабируемость производительности при установке на многопроцессорные, многоядерные системы и компьютерные кластеры;
    • возможность привязки к изображениям ключевых слов (например, «политик», «бизнесмен» и т.д.) и краткого описания для дальнейшей автоматической классификации обрабатываемого контента;
    • возможность многокадрового анализа видеопотока, обеспечивающего повышение точности распознавания;
    • вывод результатов распознавания в виде простого текста, либо XML-документа, включающего информацию о положении и размере найденных лиц, результатах распознавания и временных метках;
    • слабая зависимость скорости работы от размера используемой галереи лиц. Например, при увеличении галереи со 100 до 1000 лиц, скорость работы уменьшается менее чем на 10%;
    • работа с видео в режиме реального времени.

2.5. Распознавание речи

 

Распознавание речи — процесс преобразования речевого сигнала в цифровую информацию (напр., текстовые данные). Обратной задачей является синтез речи.

Первое устройство для распознавания  речи появилось в 1952 году, оно могло  распознавать произнесённые человеком цифры. В 1964 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.

Коммерческие программы по распознаванию  речи появились в начале девяностых годов. Обычно их используют люди, которые  из-за травмы руки не в состоянии  набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Увеличение вычислительных мощностей  мобильных устройств позволило  и для них создать программы  с функцией распознавания речи. Среди  таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

Интеллектуальные речевые решения, позволяющие автоматически синтезировать  и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее  время не веяние моды, а жизненная  необходимость. Снижение нагрузки на операторов контакт-центров и секретарей, сокращение расходов на оплату труда и повышение производительности систем обслуживания — вот только некоторые преимущества, доказывающие целесообразность подобных решений.

Прогресс, однако, не стоит на месте  и в последнее время в телефонных интерактивных приложениях все  чаще стали использоваться системы  автоматического распознавания  и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так  как выбор в нем может быть осуществлен не только с помощью  тонового набора, но и с помощью  голосовых команд. При этом системы  распознавания являются независимыми от дикторов, то есть распознают голос  любого человека.

Следующим шагом технологий распознавания  речи можно считать развитие так  называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

Виды систем.

На сегодня существует два типа систем распознавания речи — работающие «на клиенте» (client-based) и по принципу «клиент-сервер» (client-server). При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice, Vlingo, пр.); ввиду большого количества пользователей сервера система распознавания получает большую базу для обучения. Первый вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) — в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки «на клиенте» в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая «на клиенте» кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.

 

3. Методы распознавания образов

 

В целом, можно выделить три метода распознавания образов: Метод перебора. В этом случае производится сравнение  с базой данных, где для каждого  вида объектов представлены всевозможные модификации отображения. Например, для оптического распознавания  образов можно применить метод  перебора вида объекта под различными углами, масштабами, смещениями, деформациями и т. д. Для букв нужно перебирать шрифт, свойства шрифта и т. д. В случае распознавания звуковых образов, соответственно, происходит сравнение с некоторыми известными шаблонами (например, слово, произнесенное несколькими людьми).

Второй подход - производится более  глубокий анализ характеристик образа. В случае оптического распознавания  это может быть определение различных  геометрических характеристик. Звуковой образец в этом случае подвергается частотному, амплитудному анализу и  т. д.

Следующий метод - использование искусственных  нейронных сетей (ИНС). Этот метод  требует либо большого количества примеров задачи распознавания при обучении, либо специальной структуры нейронной  сети, учитывающей специфику данной задачи. Тем не менее, его отличает более высокая эффективность  и производительность. Подробно нейронные  сети мы рассматривали в "КИ" N 15, 16, 17 за 2005 г.

 

4. Общая характеристика задач распознавания образов и их типы

 

Общая структура системы распознавания  и этапы в процессе ее разработки показаны на рисунке 7:

Рисунок 7: Структура системы распознавания.

 

Задачи распознавания имеют  следующие характерные черты.

Это информационные задачи, состоящие  из двух этапов: - преобразование исходных данных к виду, удобному для распознавания; - собственно распознавание (указание принадлежности объекта определенному  классу).

В этих задачах можно вводить  понятие аналогии или подобия  объектов и формулировать правила, на основании которых объект зачисляется  в один и тот же класс или  в разные классы.

В этих задачах можно оперировать  набором прецедентов-примеров, классификация  которых известна и которые в  виде формализованных описаний могут  быть предъявлены алгоритму распознавания  для настройки на задачу в процессе обучения.

Для этих задач трудно строить формальные теории и применять классические математические методы (часто недоступна информация для точной математической модели или выигрыш от использования  модели и математических методов  несоизмерим с затратами).

Выделяют следующие типы задач  распознавания: - Задача распознавания - отнесение предъявленного объекта  по его описанию к одному из заданных классов (обучение с учителем); - Задача автоматической классификации - разбиение  множества объектов, ситуаций, явлений  по их описаниям на систему непересекающихся классов (таксономия, кластерный анализ, самообучение);

- Задача выбора информативного  набора признаков при распознавании; - Задача приведения исходных  данных к виду, удобному для  распознавания; - Динамическое распознавание  и динамическая классификация  - задачи 1 и 2 для динамических  объектов;

- Задача прогнозирования - суть  предыдущий тип, в котором решение  должно относиться к некоторому  моменту в будущем. 

 

Заключение

 

Распознавание образов (а  часто говорят - объектов, сигналов, ситуаций, явлений или процессов) - самая распространенная задача, которую  человеку приходится решать практически  ежесекундно от первого до последнего дня своего существования. Для этого  он использует огромные ресурсы своего мозга, которые мы оцениваем таким  показателем как число нейронов, равное 1010.

Можно даже не утруждая себя примерами заметить, что похожие  действия наблюдаются в биологии, в живой природе, а иногда даже в неживой. Кроме того, распознавание  постоянно встречается в технике. А если это так, то, очевидно, следует  считать механизм распознавания  всеобъемлющим.

С более общих позиций  можно утверждать, и это вполне очевидно, что в повседневной деятельности человек постоянно сталкивается с задачами, связанными с принятием  решений, обусловленных непрерывно меняющейся окружающей обстановкой. В  этом процессе принимают участие: органы чувств, с помощью которых человек  воспринимает информацию извне; центральная  нервная система, осуществляющая отбор, переработку информации и принятие решений; двигательные органы, реализующие  принятое решение. Но в основе решений  этих задач лежит, в чем легко  убедиться, распознавание образов.

В своей практике люди решают разнообразные задачи по классификации  и распознаванию объектов, явлений  и ситуаций (мгновенно узнают друг друга, с большой скоростью читают печатные и рукописные тексты, безошибочно  водят автомобили в сложном потоке уличного движения, осуществляют отбраковку деталей на конвейере, разгадывают  коды, древнюю египетскую клинопись  и т.д.).

Вычисления в сетях формальных нейронов, во многом напоминают обработку  информации мозгом. В последнее десятилетие  нейрокомпьютинг приобрел чрезвычайную популярность на Западе, где он уже успел превратиться в инженерную дисциплину, тесно связанную с производством коммерческих продуктов. Ежегодно выходят десятки книг, посвященных практическим аспектам нейрокомпьютинга. Интенсивно ведутся работы по созданию новой – аналоговой элементной базы для нейровычислений.

В России же, где в силу общего снижения тонуса научных исследований структура  науки оказалась «замороженной», до сих пор бытует мнение, что  традиционные математические методы в  принципе достаточны для решения  любых задач распознавания образов. Нейрокомпьютинг же воспринимается как излишество и дань кратковременной моде. Однако на фоне многочисленных практических успехов нейротехнологий утверждения, что любая конкретная задача может быть в принципе решена и без них выглядят несколько схоластично. Раз нейрокомпьютинг на деле доказывает свою конкурентоспособность разумнее повнимательнее приглядеться к этому феномену. Не рискуем ли мы со своим скептицизмом просмотреть начало нового этапа компьютерной революции? Не отстанет ли российская компьютерная наука от мировой, на сей раз окончательно, в этой чрезвычайно быстро развивающейся и стратегически важной отрасли?

Перспективы в ближайшем будущем. Основной чертой, отличающей нейрокомпьютеры  от современных компьютеров и  обеспечивающей будущее этого направления, по мнению автора, является способность  решать неформализованные проблемы, для которых в силу тех или  иных причин еще не существует алгоритмов решения. Нейрокомпьютеры предлагают относительно простую технологию порождения алгоритмов путем обучения. В этом их основное преимущество, их «миссия» в компьютерном мире.

Возможность порождать алгоритмы  оказывается особенно полезной для  задач распознавания образов, в  которых зачастую не удается выделить значимые признаки априори. Вот почему нейрокомпьютинг оказался актуален именно сейчас, в период расцвета мультимедиа, когда развитие глобальной сети Internet требует разработки новых технологий, тесно связанных с распознаванием образов. Однако – обо всем по порядку.

Информация о работе Распознавание образов