Автор работы: Пользователь скрыл имя, 05 Июня 2013 в 10:15, реферат
Проблема загораживания одних объектов другими имеет место, когда рассматривается большое число объектов в реальном рабочем пространстве. Даже если бы система была способна идеально выделить группу объектов из фона, то все ранее рассмотренные двумерные процедуры описания и распознавания дали бы плохой результат для большинства загороженных объектов. Применение трехмерных дескрипторов было бы более успешным, но даже они дали бы неполную информацию. Разработка методов обработки трехмерной зрительной информации в роботизированных и автоматизированных системах в настоящее время задача актуальная, так как такие факторы, как стоимость, скорость, сложность вычислений, трудность реализации алгоритмов делают неприемлемыми многие уже существующие методы.
Движение представляет собой мощное средство, которое используется человеком и животными для выделения интересующих их объектов из фона. В системах технического зрения роботов движение используется при выполнении различных операций на конвейере, при перемещении руки, оснащенной датчиком, более редко при перемещении всей робототехнической системы.
Один из наиболее простых подходов для определения изменений между двумя кадрами изображения (образами) f(x, у, ti) и f(x, у, t,), взятыми соответственно в моменты времени ti и tj, основывается на сравнении соответствующих пикселов этих двух образов. Для этого применяется процедура, заключающаяся в формировании так называемой разности образов.
Предположим, что мы имеем эталонный образ, имеющий только стационарные компоненты. Если сравним этот образ с таким же образом, имеющим движущиеся объекты, то разность двух образов получается в результате вычеркивания стационарных компонент (т. е. оставляются только ненулевые записи, которые соответствуют нестационарным компонентам изображения).
Разность между двумя кадрами изображения, взятыми в моменты времени ti и tj, можно определить следующим образом:
dij(x,y) = (*)
где q—значение порогового уровня. Отметим, что dij(x, у) принимает значение 1 для пространственных координат (х, у) только в том случае, если два образа в точке с этими координатами существенно различаются по интенсивности, что определяется значением порогового уровня q.
При анализе движущегося образа все пикселы изображений разности dij(x, у), имеющие значение 1, рассматриваются как результат движения объекта. Этот подход приметим только в том случае, если два образа зарегистрированы и освещенность имеет относительно постоянную величину в пределах границ, устанавливаемых пороговым уровнем q. На практике записи в dij(x, у), имеющие значение 1, часто появляются в результате действия шума. Обычно на разности двух кадров изображения такие значения выглядят как изолированные точки. Для их устранения применяется простой подход, заключающийся в формировании 4- или 8-связных областей из единиц в dij(x, у), и затем пренебрегают любой областью с числом записей, меньшим заранее заданного. При этом можно не распознать малые и/или медленно движущиеся объекты, но это увеличивает вероятность того, что остающиеся записи в разности двух кадров изображения действительно соответствуют движению.
Как говорилось выше, разность кадров благодаря шуму часто содержит изолированные записи. Несмотря на то что число таких записей может быть сокращено или полностью ликвидировано в результате анализа связности пороговых уровней, этот процесс может также привести к потере изображений малых или медленно движущихся объектов. Ниже излагается подход для решения этой проблемы путем рассмотрения изменения в расположении пикселов на нескольких кадрах, т. е. в процесс вводится «память». Основная идея заключается в пренебрежении теми изменениями, которые возникают случайно в последовательности кадров и, таким образом, могут быть отнесены к случайному шуму.
Рассмотрим последовательность кадров изображения f(x,y,t1), f(x, у, t2), ..., f(x, у, tn) и допустим, что f(x, у, t1) является эталонным образом. Изображение аккумулятивной разности формируется в результате сравнения эталонного образа с каждым образом в данной последовательности. В процедуре построения изображения аккумулятивной разности имеется счетчик, предназначенный для учета расположения пикселов. Его значение увеличивается каждый раз, когда возникает различие в расположении соответствующих пикселов эталонного образа и образа из рассматриваемой последовательности. Таким образом, когда k-й кадр сравнивается с эталонным, запись в данном пикселе аккумулятивней разности означает, во сколько раз интенсивность пиксела k-го кадра отличается от интенсивности пиксела эталонного образа. Различия устанавливаются, например, с помощью уравнения (*).
Приведенные выше рассуждения иллюстрируются рисунке. На рисунке а—д приведены образы прямоугольного объекта (обозначенного нулями), движущегося вправо с постоянной скоростью 1 пиксел/кадр. Эти образы приведены в моменты времени, соответствующие одному перемещению пиксела. На рис. (а) изображен кадр эталонного образа, на рис. (г) со 2-го по 4-й кадры последовательности, а на рис. (д)— 11-й кадр. Рис. (е— и) соответствуют изображениям аккумулятивной разности, которые можно объяснить следующим образом. На рис. (е) левая колонка из 1 обусловлена различием между объектом на рис. (а), и фоном на рис. (б). Правая колонка из 1 вызвана различием между фоном эталонного образа и передним контуром движущегося объекта. Ко времени появления 4-го кадра (рис. г), первый ненулевой столбец изображения аккумулятивной разности указывает на три отсчета, что соответствует трем основным различиям между этим столбцом в эталонном образе и соответствующим столбцом в последующих кадрах. На рис. и показано общее число из 10 (представленных «A» в шестнадцатеричной системе счисления) изменений этого положения. Остальные записи на этом рисунке объясняются аналогично.
Нередко полезно рассматривать три типа изображений аккумулятивной разности: абсолютное, положительное и отрицательное. Последние два получаются из уравнения (*), в котором нет модуля, а вместо f(x, у, ti) подставляется значение эталонного кадра. Предполагая, что числовые значения интенсивности объекта превышают значения фона в случае, когда разность положительна, она сравнивается с положительным значением порогового уровня; если отрицательна, сравнение выполняется с отрицательным значением порогового уровня. Это определение заменяется на противоположное, если интенсивность объекта меньше фона.
Рис. Кадр эталонного образа (а), б—д соответственно 2-, 3-, 4- и 11-й кадры, е—и—изображения аккумулятивной разности для 2-, 3-, 4- и 11-го кадров .
9 |
||||||
10 |
00000000 |
|||||
11 |
00000000 |
|||||
12 |
00000000 |
|||||
a |
13 |
00000000 |
||||
14 |
00000000 |
|||||
15 |
00000000 |
|||||
16 |
||||||
9 |
9 |
|||||
10 |
00000000 |
10 |
1 |
1 |
||
11 |
00000000 |
11 |
1 |
1 |
||
12 |
00000000 |
12 |
1 |
1 |
е | |
б |
13 |
00000000 |
13 |
1 |
1 |
|
14 |
00000000 |
14 |
1 |
1 |
||
15 |
00000000 |
15 |
1 |
1 |
||
16 |
16 |
|||||
9 |
9 |
|||||
10 |
00000000 |
10 |
21 |
21 |
||
11 |
0000000C |
11 |
21 |
21 |
||
в |
12 |
0000000C |
12 |
21 |
21 |
ж |
13 |
0000000C |
13 |
21 |
21 |
||
14 |
00000000 |
14 |
21 |
21 |
||
15 |
00000000 |
15 |
21 |
21 |
||
16 |
16 |
|||||
9 |
9 |
|||||
10 |
00000000 |
10 |
321 |
321 |
||
11 |
00000000 |
11 |
321 |
321 |
||
г |
12 |
00000000 |
12 |
321 |
321 |
з |
13 |
00000000 |
13 |
321 |
321 |
||
14 |
00000000 |
14 |
321 |
321 |
||
15 |
00000000 |
15 |
321 |
321 |
||
16 |
16 |
|||||
9 |
9 |
|||||
10 |
00000000 |
10 |
A9876 |
5438887654321 |
||
11 |
00000000 |
11 |
A9876 |
5438887654321 |
||
12 |
00000000 |
12 |
A9876 |
5438887654321 |
||
д |
13 |
00000000 |
13 |
A9876 |
5438887654321 |
и |
14 |
00000000 |
14 |
A9876 |
5438887654321 |
||
15 |
00000000 |
15 |
A9876 |
543888.7654321 |
||
16 |
16 |
Успех применения методов зависит от эталонного образа, относительно которого проводятся дальнейшие сравнения. Как уже говорилось выше, различие между двумя образами в задаче распознавания движущихся объектов определяется путем исключения стационарных компонент при сохранении элементов, соответствующих шуму и движущимся объектам. Проблема выделения образа из шума решается методом фильтрации или с помощью формирования изображения аккумулятивной разности.
На практике не всегда можно получить эталонный образ, имеющий только стационарные элементы, и это приводит к необходимости построения эталона из набора образов, содержащих один или более движущихся объектов. Это особенно характерно для ситуаций, описывающих сцены со многими быстроменяющимися объектами или в случаях, когда возникают частые изменения сцен. Рассмотрим следующую процедуру генерации эталонного образа. Предположим, что мы рассматриваем первый образ последовательности в качестве эталонного. Когда нестационарная компонента полностью вышла из своего положения в эталонном кадре, соответствующий фон в данном кадре может быть перенесен в положение, первоначально занимаемое объектом в эталонном кадре. Когда все движущиеся объекты полностью покинули свои первоначальные положения, в результате этой операции воссоздается эталонный образ, содержащий только стационарные компоненты. Перемещение объекта можно определить с помощью операции расширения положительного изображения аккумулятивной разности.
В системах технического зрения проблемой описания называется выделение свойств (деталей) объекта с целью распознавания. В идеальном случае дескрипторы не должны зависеть от размеров, расположения и ориентации объекта, но должны содержать достаточное количество информации для надежной идентификации объектов. Описание является основным результатом при конструировании систем технического зрения в том смысле, что дескрипторы должны влиять не только на сложность алгоритмов распознавания, но также и на их работу. рассмотрим три основные категории дескрипторов: дескрипторы границы, дескрипторы области и дескрипторы для описания трехмерных структур.
Цепные коды применяются для представления границы в виде последовательности отрезков прямых линий определенной длины и направления. Обычно в основе этого представления лежит 4- или 8-связная прямоугольная решетка. Длина каждого отрезка определяется разрешением решетки, а направления задаются выбранным кодом. Отметим что для представления всех направлений в 4-направленном цепном коде достаточно 2 бит, а для 8-направленного цепного кода требуется 3 бит. Для порождения цепного кода заданной границы сначала выбирается решетка. Тогда, если площадь ячейки, расположенной внутри границы, больше определенного числа (обычно 50%), ей присваивается значение 1; в противном случае этой ячейке присваивается значение 0. Окончательно мы кодируем границу между двумя областями, используя направления. Результат кодирования в направлении по часовой стрелке с началом в месте, помеченном точкой. Альтернативная процедура состоит в разбиении границы на участки равной длины (каждый участок имеет одно и то же число пикселов) и соединении граничных точек
каждого участка прямой линией, а затем присваивания каждой линии направления, ближайшего к одному из допустимых направлений цепного кода. Важно отметить, что цепной код данной границы зависит от начальной точки. Однако можно нормировать код с помощью простой процедуры. Для создания цепного кода начальная точка на решетке выбирается произвольным образом. Рассматривая цепной код как замкнутую последовательность индексов направлений, мы вновь выбираем начальную точку таким образом, чтобы результирующая последовательность индексов была целым числом, имеющим минимальную величину. Также можно нормировать повороты, если вместо цепного кода рассматривать его первую разность. Первая разность вычисляется в результате отсчитывания (в направлении против часовой стрелки)' числа направлений, разделяющих два соседних элемента кода. Например, первая разность для цепного кода с 4 направлениями 10103322 есть 3133030. Если рассматривать код как замкнутую последовательность, тогда первый элемент разности можно вычислить, используя переход между последним и первым компонентами цепи. В данном примере результатом является 33133030. Нормирование можно осуществить путем разбиения всех границ объекта на одинаковое число равных сегментов и последующей подгонкой длин сегментов кода с целью их соответствия этому разбиению.
Изложенные методы нормирования являются точными только в том случае, когда сами границы инвариантны к повороту и изменению масштаба. Этот случай редко встречается на практике. Например, один и тот же объект, разбитый на элементы в двух различных направлениях, как правило, имеет разную форму границы, причем степень различия пропорциональна разрешающей способности изображения. Этот эффект можно уменьшить, если выбирать длины элементов цепи большими, чем расстояния между пикселами дискретного образа, или же выбирать ориентацию решетки вдоль главных осей кодируемого объекта.
Сигнатурой называется одномерное функциональное представление границы. Известно несколько способов создания сигнатур. Одним из наиболее простых является построение отрезка из центра к границе как функции угла. Очевидно, что такие сигнатуры зависят от периметра области и начальной точки. Нормирование периметра можно осуществить, пронормировав кривую r(q) максимальным значением. Проблему выбора начальной точки можно решить, определив сначала цепной код границы, а затем применив метод, изложенный в предыдущем разделе. Конечно, расстояние, зависящее от угла, не является единственным способом определения сигнатуры. Например, можно провести через границу прямую линию и определить угол между касательной к границе и этой линией как функцию положения вдоль границы. Полученная сигнатура, хотя и отличается от кривой r(q), несет информацию об основных характеристиках формы границы. Например, горизонтальные участки кривой соответствовали бы прямым линиям вдоль границы, поскольку угол касательной здесь постоянен. Один из вариантов этого метода в качестве сигнатуры использует так называемую функцию плотности наклона. Эта функция представляет собой гистограмму значений угла касательной. Поскольку гистограмма является мерой концентрации величин, функция плотности наклона строго соответствует участкам границы с постоянными углами касательной (прямые или почти прямые участки и имеет глубокие провалы для участков, соответствующих быстрому изменению углов (выступы или другие виды изгибов).