Реализация и исследование системы распознавания трехмерных объектов с использованием видео-датчиков, расположенных под углом

Автор работы: Пользователь скрыл имя, 17 Июня 2013 в 16:36, дипломная работа

Описание работы

Задач, поставленных на дипломную работу несколько:
Подробно рассмотреть и проанализировать существующие системы, занимающиеся распознаванием трехмерных объектов;
Рассмотреть алгоритмы предварительной обработки и выбрать оптимальные из них;
Рассмотреть признаки, применяемые для распознавания трехмерных объектов, а также выбрать оптимальные из них для реализации в ИС;
Сформировать структурно-функциональную схему СТЗ для распознавания объектов;
Реализовать алгоритм вычисления оценок;
Реализовать нахождение значений признаков объектов;
Реализовать построение моделей октодеревьев объектов;

Файлы: 1 файл

PZDiplom.doc

— 7.20 Мб (Скачать файл)

Рисунок 1.5 – Пропускная система VOCORD FaceControl 3D

 

Плюсом данной системы является удобство размещения стереокамер, однако создается сложность в размещении ЭВМ с программным обеспечением, а также возростает вероятность рассинхронизации камер.

Технические характеристики VOCORD NetCam4 представлены в таблице 1.1.

Таблица1.1 - Характеристики VOCORD NetCam4[3]

Параметр

Значение

Разрешение видеокамеры

от 1,4 до 8 Mpx

Оптический формат

2/3”, 1”

Тип электронного затвора

Центральный затвор (Global shutter)

Строчная развертка

Прогрессивная

Частота кадров при максимальном разрешении, кадр/с

от 16 до 150

Разрядность АЦП, бит

от 10 до 16

Типы видеосенсоров

CCD или CMOS (ч/б или цветной)

Динамический диапазон видеосенсора, дБ (по стандарту EMVA-1288)

до 69

Характеристика сигнал/шум  видеосенсора для максимального  сигнала, дБ (по стандарту EMVA-1288)

до 42

Функция автоматической регулировки экспозиции с программно-задаваемым максимальным и минимальным временем экспонирования

от 100 мкс до 100000 мкс  с шагом 1 мкс

Функция подстройки уровня чёрного

есть, автоматическая

Функция эквалайзера  гистограммы видеоданных

есть, автоматическая

Функция автобаланса  белого

есть, автоматическая

Формирование одновременно и независимо не менее 2-х потоков  видеоинформации

RAW, MJPEG (для моделей  серии K — дополнительно H.264)

Функция автоматического  преобразования разрядности представления  видеоданных в RAW-видеопотоке

12 бит -> 10 бит, 12 бит -> 8 бит

Интерфейс управления объективами  с АРД (автоматическая регулировка  диафрагмы), тип

DC-Drive

Интерфейс управления моторизованными  объективами с двигателями постоянного  тока, тип

3-х канальный (трансфокатор, фокусировка, диафрагма) с обратной связью (возможность предустановки)

Интерфейсы управления исполнительными устройствами по портам RS232/RS422/RS485, количество

до 3-х

Интерфейс синхронизации  электронного затвора группы видеокамер, точность синхронизации в мкс

от 1 до 100 в зависимости  от модели

Синхронизация электронного затвора видеокамеры с сетью  электропитания частотой 50 Гц для устранения фликера от источников искусственного освещения

автоматическая, программно-включаемая

Интерфейсы входов тревожных  сигналов (alarm in), количество

2


Камеры VOCORD NetCam не обладают лучшей разрешающей способностью среди современных камер, что затрудняет распознавание лиц. Также отсутствует система автофокусировки, что очень важно в современных камерах и является обязательным их атрибутом, также это влечет за собой отсутствие четкости изображения и накладывает определенные проблемы на распознавание. Огромным минусом является рабочий температурный диапазон, работа камер без сбоев осуществляется в диапазоне от 0 °C до +50 °C. В примерах применения системы допускается эксплуатация камер и вне помещений – турникеты, пропускные пункты. В условиях средней полосы температура на улице зачастую находится ниже отметки в 0 °C, следовательно количество ошибок увеличивается. Также на морозе увеличивается и задержка при снимке, возможна рассинхронизация камер, а следовательно и количество ошибок при распознавании.

      1. Алгоритмическое обеспечение СТЗ

 

3D-камера выдает трехмерное изображение,  или образ, в котором информация  о двумерном изображении —  профиле объекта—сочетается с данными о высоте профилей объекта — анализируемых камерой участков изображения, распределенных с некоторой частотой по всему объему объекта. Во всех камерах, выпускаемых компанией SICK/IVP, используется принцип трехмерной лазерной триангуляции (рисунок 1.6). Это технология получения трехмерного изображения путем подсветки объекта лазером с одной стороны и получения камерой изображения профиля, формируемого этим лазером. Множество таких профилей формируют трехмерное изображение объекта. При этом требуется обязательное движение объекта относительно камеры и лазерного луча.[1]

 

Рисунок 1.6 - Лазерная триангуляция

 

В главной, алгоритмической, части  имеются некоторые недостатки, главным  из которых является съемка объекта  только с одной стороны, что не позволяет увидеть объект с других сторон. Съемка происводится только под одним углом (рисунок 7), поэтому невозможно определить особенности объекта сбоку и, тем более, снизу, что немаловажно.

Рисунок 7 - Поле зрения трехмерной видеокамеры

 

Распознавание объекта основана на методе триангуляции, который на данном этапе является неточными, зачастую неправильным, с огромным количеством ошибок и исключений. Ещё одним недостатком является обязательное непрерывное движения объекта относительно камеры строящей профиль объекта. Если существуют какие-либо перебои с электричеством, или недостатки  оборудования конвейера, то профили могут получаться неточными, смазанными и, в конечном итоге, неправильными, что влияет на результат распознавания. Наличие данных недостатков влечет за собой ограниченность областей применения данной системы, а именно работа с полностью симметричными деталями и объектами.

В системе VOCORD FaceControl 3D используется совершенно другой алгоритм. В зоне контроля устанавливаются 2 пары синхронизированных стереокамер VOCORD NetCam4, разработанных специально для систем биометрической идентификации. Когда в зоне контроля появляется человек, система делает серию синхронных снимков с разных ракурсов.

На основе этих снимков строится 3D-модель лица, отражающая его форму и текстуру. По модели выделяются устойчивые биометрические признаки, по которым идет сравнение и распознавание. 3D-модель лица восстанавливается с очень высокой точностью (расстояние между биометрическими точками - до 0,5 мм), реконструируются даже мелко текстурные поверхности, включая волосы. Система распознает лица «на лету», в режиме реального времени– человеку не надо задерживаться или останавливаться перед ней. Построение модели занимает от 0,5 до 0,7 с. Система сравнивает 3D-модели лиц с эталонными моделями или изображениями, ищет совпадения и уведомляет оператора, если совпадение найдено. VOCORD FaceControl 3D может сравнивать:

А) 3D-модели с 3D-моделями.

Б) 3D-модели с обычными (2D) изображениями.[2]

Недостатки в алгоритмической  части в VOCORD FaceControl 3D тесно связаны с техническим обеспечением этой системы. Невозможность распознавания при сильном повороте головы связаны с малым количеством камер. В системе не распознаются лица с полным или частичными разворотами головы. Для уменьшения числа ошибок возможно дополнить систему ещё двумя камерами. Алгоритм в результате этого усложнится и потребуется дополнительных денежных вливаний, а также увеличения стоимости технического оборудования системы. Алгометрическая часть усложняется наличием различного типа артефактов на получаемых изображений, что с алгометрической точки зрения становится трудным в реализации.

      1. Программное обеспечение СТЗ

 

Камеры IVC-2D и IVC-3D конфигурируются, используя IVC Studio. Разработка программы для системы идентификации объектов в неизвестной среде является огромным недостатком. Для разработки программы в новой среде программирования влечет за собой переквалификацию рабочих-программистов для привыкания к неизвестной среде программирования, а возможно и языку программирования. Этот недостаток влияет на работоспособность программистов на начальном этапе знакомства с системой, потеря времени разработки системы и, следовательно, денежные потери.

Вся продукция компании VOCORD разрабатывается на языке программирования C++, что не является преимуществом и, поэтому не выделяется среди конкурентов. С++ - современный язык программирования многие компании разрабытывают свои продукты именно на этом языке.

      1. Функциональная схема СТЗ для трехмерных объектов

 

3D-камеры на базе компьютера, разработанные компанией SICK/IVP используются в деревообрабатывающей отрасли (для измерения объема бревен, контроля геометрических размеров, контроля качества поверхности), упаковочной и пищевой промышленности (для выполнения операций разделения мяса и рыбы на куски определенного размера, контроля качества фруктов и пирожных), робототехнике (захват деталей из бункера, укладка грузов на поддоны) и в обрабатывающей промышленности (для анализа размеров деталей, измерения объема сыпучего материала).[1]

Из-за разрозненности компонентов технического обеспечения, а также сложности алгоритмов, разработанных компанией SICK/IVP, усложняется функциональная схема работы СТЗ. Сложная система синхронизации процессов является одной из основным проблем работы системы. В данной системе сочетаются высокоскоростные камеры и не полностью продуманные алгоритмы, современные но недоработанные, от этого процессы, происходящие в системе также становятся более сложными и процесс поиска ошибки затрудняется.

Система распознавания лиц VOCORD FaceControl 3D:

      1. Выделяет лица людей в видеопотоке и строит их 3D-модели
      2. Распознает лица, сравнивая построенные 3D-модели с эталонными моделями или обычными фотографиями
      3. Предупреждает оператора о совпадении
      4. Сохраняет в архиве все фотографии и 3D-модели выделенных лиц
      5. Позволяет вести поиск в архиве по базе сохраненных лиц
      6. Позволяет просматривать изображения с камер в реальном времени и транслировать их по сети.

VOCORD FaceControl 3D, так же как система  VOCORD FaceControl, применяется для обеспечения общественной безопасности и контроля и управления доступом. Ее отличие от системы VOCORD FaceControl и традиционных систем распознавания лиц в принципе – это более высокая достоверность распознавания и эффективность там, где традиционные технологии не справляются.[2]

VOCORD FaceControl 3D имеет территориально-распределенную  архитектуру(рисунок 8). В случае территориально-распределенной системы каждый программный модуль устанавливается на отдельный сервер – количество серверов в сети не ограничено.

Рисунок 1.8 – Функциональная схема VOCORD FaceControl 3D

 

Система VOCORD FaceControl 3D является узконаправленной системой распознавания. Все алгоритмы разрабатываются только для распознавания лиц, накладываются огромные ограничения по расположению лица, а также присутствию артефактов на изображениях. В функциональном плане отрицательным фактом является отсутствие распараллеленных процессов, что является недоработкой в алгометрическом и функциональном плане.

1.2 Алгоритмы предварительно обработки изображений

1.2.1 Фильтрация изображения

 

В последние годы в обработке  изображений активно используется медианная фильтрация, относящаяся  к нелинейным методам обработки  изображений.

Характеристика фильтра  существенно зависит от длины  последовательности, используемой для определения медианы, а в двумерном случае и от формы соответствующей апертуры: крестообразной, кольцевой, треугольной, прямоугольной и т. д.

Чаще всего при медианной  фильтрации изображений используется квадратная апертура размером , k=1,2,…, и в каждой точке растра (i,j) яркость пересчитывается по следующему правилу. Окно располагается так, чтобы его центр совпал с точкой (i,j),  а яркости (2k+1)2 элементов изображения, попавших в окно, пронумеруются в возрастающем порядке (убывающем): b1≤b2≤…≤bi. Набор b1…bi может содержать пронумерованные разными индексами равные значения. Медианой набора b1…bi будет его средний элемент.

Например, для распределения яркостей в окне медиана равна 5 и 9 соответственно, так как первый набор: 5, 5, 5, 5, 5, 5, 7, 8, 24 а второй набор: 2, 5, 7, 8, 9, 10, 11, 14, 15.

     

Центральные элементы этих окон 20 и 2 заменяются на медианы 5 и 9, соответственно.

Наиболее интересные свойства медианных фильтров применяются для помех локального типа. Так помехи, размер которых соответствует параметру k фильтра, полностью подавляется.

Результатом работы медиального фильтра  оказываются отличные результаты при  минимальном затрачиваемом времени  на его работу. Отрицательной чертой данного фильтра оказывается сильная размытость изображения, что заметно сказывается на конечных результатах работы алгоритма фильтрации.

В отличие от предыдущей фильтрации сглаживание с помощью фильтра гауссиана оказывается заметно медленнее, но в то же время и более четкое изображение в результате.

Дискретное гауссово ядро сглаживания (апертуру фильтра) можно получить, построив массив размером (2k + 1) x (2k + 1), значение элемента (i, j) которого равно

,

где σ – это среднеквадратическое отклонение гауссиана.

Название ядра объясняется тем, что именно такой вид имеет  плотность вероятности для двумерной  нормальной (или гауссовой) случайной  переменной с заданной ковариантностью. Данное ядро сглаживания образует такое  взвешенное среднее, для которого в центре ядра весовые коэффициенты пикселей намного больше, чем на его границах.

Этот подход можно обосновать качественно: сглаживание подавляет шум, поддерживая  требование, чтобы пиксели были похожи на своих соседей. Уменьшая весовые  коэффициенты для отдалённых пикселей, можно быть уверенным, что для них это требование будет не таким жёстким. Качественный анализ приводит к таким выводам:

Информация о работе Реализация и исследование системы распознавания трехмерных объектов с использованием видео-датчиков, расположенных под углом