Распознавание образов

Автор работы: Пользователь скрыл имя, 15 Января 2013 в 08:02, реферат

Описание работы

С задачей распознавания образов живые системы, в том числе и человек, сталкиваются постоянно с момента своего появления. В частности, информация, поступающая с органов чувств, обрабатывается мозгом, который в свою очередь сортирует информацию, обеспечивает принятие решения, а далее с помощью электрохимических импульсов передает необходимый сигнал далее, например, органам движения, которые реализуют необходимые действия. Затем происходит изменение окружающей обстановки, и вышеуказанные явления происходят заново. И если разобраться, то каждый этап сопровождается распознаванием.

Содержание работы

Введение 3
1. История распознавания образов 5
2. Определения 7
2.1. Оптическое распознавание символов. Распознавание букв 9
2.2. Распознавание штрих-кодов 12
2.3. Распознавание автомобильных номеров 14
2.4. Распознавание лиц и других биометрических данных 16
2.5. Распознавание речи 17
3. Методы распознавания образов 20
4. Общая характеристика задач распознавания образов и их типы 21
Заключение 22
Литература 24

Файлы: 1 файл

ЭК Распознование образов.docx

— 444.48 Кб (Скачать файл)

Примеры задач распознавания образов:

    • Распознавание букв;
    • Распознавание штрих-кодов;
    • Распознавание автомобильных номеров;
    • Распознавание лиц и других биометрических данных;
    • Распознавание речи.

 

2.1. Оптическое распознавание символов. Распознавание букв

 

Оптическое распознавание символов – представляет собой механический, либо электронный перевод печатного, машинописного или рукописного  текста в определенную последовательность кодов, которая используется для  представления посредством текстового редактора. Подобная технология распознавания  зачастую используются для того чтобы  переконвертировать книги или определенные документы в электронный вид, а также для публикации текста на веб-страницах, либо для автоматизации систем учета в бизнес-сфере. Главная особенность оптического распознавания текста заключена в том, что используя ее можно не только редактировать текст, но еще и производить поиск определенного слова или ключевой фразы, сохранять его в более компактной форме, а также распечатывать и представлять, не теряя при этом его качества. К тому же, можно производить анализ текста, форматирование, либо с легкостью преобразовать его в речь. Кстати, последний термин носит название «синтез речи».

Рисунок 1: Оптическое распознавание текста.

 

Системы оптического распознавания для работы с определенными шрифтами требуют калибровки. Ранее для программирования требовалось изображение каждого символа, так как программа одновременно могла работать только с одним шрифтом. В последнее время особой популярностью пользуются «интеллектуальные» системы, которые наиболее точно распознают сразу несколько шрифтов. Определенные системы также способны восстанавливать исходное форматирование текста, в том числе и изображения с колонками. В последствии распознанные копии хранятся в специально организованных электронных архивах бумажных книг.

Рисунок 2: Современные технологии оптического распознавания символов.

 

Сегодня точное распознавание  латинских символов в печатном виде может быть реализовано в том  случае, если доступны изображения  высокой четкости. Это позволяет  распознавать символы с точностью  до 99 процентов. Максимально точный результат может быть достигнут посредством корректировки человеком.

Активные исследования относительно проблем с распознаванием печатного  и стандартного рукописного текста, а также нескольких других типов  сегодня продолжают вестись.

Существует он-лайн и офф-лайн методы распознавания символов. Последний связан со статической формой представления текстов, а он-лайн способен учитывать движение во время письма. Так, например, при он-лайн методе можно с легкостью определить, с какой стороны пишется строка.

Рисунок 3: Он-лайн способ распознавания символов.

Так же пользуются популярностью методы распознавания текстов «на лету». Их главная особенность заключена в том, что всегда известен порядок, скорость и направление отдельных участков линий ввода. К тому же, пользователи смогут использовать только определенные формы письма. При этом в программном распознавании эти методы практиковаться не могут, поэтому вопрос распознавания рукописного «печатного» текста все еще актуален.

Рисунок 4: Распознавание рукописного текста.

В последнее время также активно  исследуется проблема распознавания  рукописного текста. Высоких показателей  пока добиться не удалось. Именно поэтому, для решения более масштабных проблем в данной сфере, как правило, используются интеллектуальные системы (искусственные нейронные сети, например).

2.2. Распознавание штрих-кодов

На настоящий момент существует большое количество двухмерных штриховых  кодов (бар-кодов), наиболее популярными  среди которых являются Aztec Code, DataMatrix, PDF-417 и QR Code. У каждого из этих кодов есть свои достоинства и недостатки, что позволяет использовать их в различных условиях. Современные алгоритмы и системы распознавания бар-кодов во многих случаях обрабатывают изображения, находящиеся параллельно плоскости камеры или же расположенные только под одним углом. Сама процедура распознавания в таких случаях значительно упрощается, как и время на получение конечного результата. Однако, поддержка распознавания кодов, не чувствительных к наклону камеры и углу поворота, имеет большое значение для расширения функциональности сканеров кодов, но алгоритмы распознавания должны быть достаточно быстры для использования на мобильных системах.

В отличие от распознавания одномерных кодов, где необходимо прочитать  и декодировать штриховую линию, для двухмерных необходимо чётко  определить не только границы, но и  некоторые синхронизирующие элементы. Т.к. в большинстве случаев двухмерные бар-коды представляют собой квадраты или прямоугольники, то необходимо выделить четыре угловые точки. Используя алгоритмы, описанные в ряде работ, например, можно выделить общий подход к распознаванию двухмерных бар-кодов с произвольным углом наклона и поворота камеры.

    • Общий алгоритм распознавания двухмерного кода.
    • Предварительная обработка изображения.
    • Детектирование ориентировочных элементов (границ и краевых точек кода).
    • Восстановление матрицы кода.
    • Декодирование данных.

Предварительная обработка изображения. На этапе предварительной обработки  осуществляется перевод в монохромное  изображение путём задания уровня пороговой яркости или с помощью  адаптивных методик, технологии которых  реализованы в библиотеках ImagePak, OpenCV. А также выделение граничных точек, которые соприкасаются как с чёрными, так и с белыми пикселями.

Обычно при распознавании кода известно его местоположение, например, пользователь, наводит устройство с  камерой на код. Однако во многих случаях  необходимо первоначально детектировать  двухмерный код на изображении. Основными  подходами к детектированию бинарных объектов, к ним относятся и  двухмерные бар-коды, является анализ перепадов яркости, градиентов яркости  или сегментация изображений, например, сегментация с использованием гистограмм яркости, реализованная в библиотеке ImagePak. По результатам сегментации определяются места, где расположены бинарные образы, которые потом можно обрабатывать по общему алгоритму распознавания двухмерного кода.

Детектирование ориентировочных  элементов (границ и краевых точек  кода). Данный этап значительно отличается для различных кодов. В коде Aztec главные элементы детектирования находятся не по краям, а внутри кода. Учитывая особенности кода, можно находить контур с наибольшим уровнем вложенности (CONTOUR:: ReturnMaxLevel), и из его центра двигаться в стороны по горизонтали и вертикали. Считая количество перепадов яркости, можно добраться до внутренних границ внешнего четырёхугольника мишени. При повороте кода на плоскости будет изменяться только ширина участков одного цвета. Полученные четыре точки X1, X2, X3, X4 должны принадлежать одному контуру (CONTOUR:: ReturnPointInContour). Если одному контуру принадлежит меньше трёх точек, значит найденный ранее центр не соответствует центру Aztec кода.

Рисунок 5: Поиск внутренних точек внешнего четырёхугольника мишени кода Aztec.

 

Поскольку известно, что найденный  контур должен состоять из четырёх  линий и возможно помех, то определяются направляющие линии и угловые  точки A, B, C, D (CONTOUR:: Return4DistantPoints и CONTOUR:: Accuracy4RombPoints). Для полученного четырёхугольника строятся диагонали, а на их продолжениях определяются дальние точки ориентировочных элементов мишени Aztec Code A1, B1, C1, D1.

 

После проверки ориентировочных элементов, найденные точки характеризуют  положение кода в пространстве. Затем  читаются и декодируются 40 бит информации, находящейся между ориентировочными элементами.

Рисунок 6: Направляющие линии и ориентировочные элементы в коде Aztec.

2.3. Распознавание автомобильных номеров

 

Распознавание автомобильных номеров  на настоящий момент является достаточно распространённой технологией, предлагаемой вместе с системами видеонаблюдения. Однако, не смотря на внешнюю простоту задачи, распознавание номеров предполагает решения ряда нетривиальных вопросов, о чем свидетельствует большое  количество подходов и научных публикаций. Если автомобильный номер расположен строго горизонтально, освещён равномерно, имеет чистую поверхность, чётко  различимые символы, которые не «слипаются»  ни друг с другом, ни с рамкой, то распознать такой номер для системы  машинного зрения не составит труда. Но на практике такие условия редко  встречаются: чаще всего освещение  неравномерно, на изображении с камеры имеются различные шумы, а сам  номер может быть расположен под  существенным углом к горизонту  и покрыт пятнами грязи, что затрудняет не только распознавание непосредственно  символов номерного знака, но и определение  местонахождения номера на изображении.

Для решения перечисленных проблем  разработчиками систем автоматического  распознавания номеров применяются  разнообразные методы обработки  и анализа изображений: расчёт статистик  интенсивности, частотная фильтрация, различные методы бинаризации и  т.п. Некоторые системы лучше справляются  с загрязнёнными номерами, некоторые  способны работать в условиях слабой освещённости и т.п. В нашей системе  параллельно применяются разные методы, после чего проводится анализ результатов их работы (вычисление оценки качества распознавания). Для каждого кадра выбирается наилучший результат. Алгоритм распознавания состоит из нескольких этапов.

Этап 1. Детектирование областей с  предполагаемым расположением автомобильного номера. Переданный с видеокамеры  кадр проходит предварительную обработку, после чего осуществляется детектирование областей, где может находиться автомобильный  номер. Среди результатов детектирования могут оказаться области, которые  не имеют отношения к пластине номера, поэтому осуществляется фильтрация кандидатов на распознавание.

Этап 2. Определение типа автомобильного номера и границ символов. При наличии  более чем одного кандидата местоположения автомобильной пластины, каждый кандидат проходит процедуру определения  типа номера и границ символов. Если номер наклонен, то он преобразуется  к нормальному виду. Шаблон содержит в себе информацию о расположении и типе символов. На данном этапе  используется комбинированный подход к бинаризации номера, сопоставляя  различные результаты бинаризации. Небольшие размеры номера, относительно размеров всего изображения, позволяют  осуществить эти операции без  потери производительности. На изображении  кандидата выделяются области, которые  походят на буквы и цифры номера, после чего для данного кандидата  либо выбирается соответствующий шаблон, либо этот кандидат не считается номером. При выделении областей используются два подхода: выделение отдельных  символов и выделение по перепадам  яркости.

Этап 3. Распознавание символов. Для  распознавания текста существует множество  методов: с использованием шаблонов, контурного анализа, векторизации, а  также нейронных сетей. Как правило нейронные сети считаются наиболее предпочтительным вариантом при оптическом распознавании символов, однако специфическая задача распознавания автомобильных номеров решается эффективнее при помощи шаблонного распознавания. Это происходит за счёт слишком большого разброса условий распознавания, поэтому обучение нейронной сети не даёт какого-либо существенного преимущества перед шаблонным методом.

Известно, что на каждом месте в  автомобильном номере может стоять либо буква, либо цифра, поэтому при  распознавании учитываются эталонные  образы только определенных символов. Для каждого символа составлен  набор значимых признаков, которые  позволяют идентифицировать элемент  с высокой достоверностью. Для  каждого символа вычисляет индивидуальное значение достоверности, которое в  дальнейшем используется при формировании общей достоверности распознавания  номера.

Этап 4. Формирование результата. Система  работает с отдельными графическими файлами и видеопотоком, поэтому формирование результирующего номера возможно как при анализе каждого кадра, так и после проезда автомобиля через область наблюдения

2.4. Распознавание лиц и других биометрических данных

 

Распознавание лиц — практическое приложение теории распознавания образов, в задачу которого входит автоматическая локализация лица на фотографии и, в  случае необходимости, идентификация  персоны по лицу. Функцию идентификации  людей на фотографиях уже активно  используют в программном обеспечении  для управления фотоальбомами (Picasa, iPhoto и др.).

Задача идентификации и распознавания  лиц – это одна из первых практических задач, которая стимулировала становление  и развитие теории распознавания  и идентификации объектов. Существует девять категорий объектов, которые  соответствуют гностическим областям и вызывают зрительные образы:

    • объекты, которыми можно манипулировать (чашка, ключи, часы и т.д.);
    • объекты, которыми можно частично манипулировать (автомобили, материалы и т.д.);
    • объекты не манипулируемые (деревья, здания и т.д.);
    • лица;
    • выражения лиц;
    • живые существа (животные, фигура человека);
    • печатные знаки (буквы, символы, знаки);
    • рукописные изображения;
    • характеристики и расположение источников света (луна, солнце).

Информация о работе Распознавание образов