Автор работы: Пользователь скрыл имя, 09 Сентября 2013 в 21:53, реферат
Нейронные сети представляют собой математическую модель функционирования биологических нейронных сетей –сетей нервных клеток живого организма. Как и в биологической нейронной сети, основным элементом искусственной нейронной сети является нейрон. Соединенные между собой нейроны образуют слои, количество которых может варьироваться в зависимости от сложности нейронной сети и решаемых ею задач. Способность нейронных сетей к генерализации, то есть к принятию верного решения для входных данных, которые не предъявлялись нейронной сети ранее, большое количество эвристических алгоритмов обучения нейронных сетей и устойчивость к различным флюктуациям входных данных –все это делает нейронные сети самым предпочтительным направлением для решения подобных задач.
На рис. 1 показана схема работы такого алгоритма.
Рис. 1. Схема работы отслеживающего алгоритма “жука”.
Этап 2. Построение на основе
контура объекта скелетной
При нахождении новой точки контура, рассчитывается расстояние между предыдущей найденной точкой и новой. Если оно превышает некоторую границу (по умолчанию в 5 единиц), она запоминается. К концу построения скелетной линии программа имеет массив координат вершин ломаной, которая является скелетной линией объекта.
Этап 3. Сравнение полученной скелетной линии с списком шаблонов.
После построения скелетной линии производится сравнение ее с списком шаблонов известных символов. При нахождении совпадения, программа записывает в строку найденный символ.
На рисунках можно увидеть работу программы.
Рисунок – начало работы программы
Рисунок – Произведено распознавание
Рассмотренные нейросетевые методы обеспечивают быстрое и надёжное распознавание изображений. Однако при применении этих методов к изображениям трёхмерных объектов возникают трудности, связанные с пространственными поворотами и изменением условий освещённости.
а |
б |
в |
Рис. 3. С точки зрения классифицирующей системы (в) больше похоже на (б) чем на (а)
Рис. 4. Изображения одного и того же лица существенно различается при изменении освещения.
Изображения для различных углов поворота объекта существенно различаются, часть информации на изображении теряется, возникает новая, специфическая для данного угла. Например, лицо, повёрнутое на некоторый угол, с точки зрения классифицирующей системы больше похоже на лицо другого человека, повёрнутое на такой же угол, чем на нужное лицо, изображённое в фас (рис. 3). Аналогичная проблема с изменением освещения (рис. 4). Такие ограничение обычно преодолеваются путём предъявления всевозможных вариаций изображения (различные повороты и освещённость) при обучении, но построение такого обучающего набора – трудная задача, и чаще всего такие наборы недоступны. Как показывает мировой опыт, эти проблемы не могут быть полностью решены выбором исходного представления данных. Поэтому к классифицирующим системам предъявляется требование – имея конечный репрезентативный набор вариаций образов некоторых классов, обобщить свой опыт на все остальные классы, не входившие в обучающий набор. Т.е. система должна извлечь характеристики, инвариантные к внутриклассовым изменениям и максимально репрезентативные по отношению к межклассовым изменениям. Такая задача в общем виде для систем распознавания лиц ещё не решена, но существуют методы, которые показывают возможности решения отдельных её аспектов (инвариантность к освещению, синтез повёрнутых в пространстве изображений лиц на основе обучения).
Так же существуют трудности, связанные с внутриклассовыми вариациями. Для лиц это различные эмоции, закрытые/открытые глаза, наличие очков и бород, изменения в причёске. Эти случаи система так же должна уметь обобщать.
В общем случае, при распознавании человек использует информацию от различных источников, и кроме того привлекает огромный запас контекстных знаний, который системам распознавания образов пока недоступен.
Проблемы нейросетевого распознавания
Исходя из вышеописанного опыта нетрудно выявить проблемы, связанные с нейросетевым распознаванием в общем и с применением сверточных нейронных сетей в частности. Одной из таких проблем является сравнительно низкое разрешение подаваемых на вход сети изображений, ведь практические задачи распознавания образов, к которым относятся, например, обнаружение дорог на спутниковых изображениях или выявление патологий на медицинских рентгеновских снимках, оперирует гораздо более высокими разрешениями. Если же подать на вход сети такое изображение с высоким разрешением без какой-либо предобработки, то это на порядок увеличит вычислительную сложность нейронной сети.
Решением данной проблемы
может стать предварительная
сегментация исходного
Суть этого подхода в том, что исходное рентгеновское изображение предварительно декомпозируется путем вейвлет-преобразования, в результате чего извлекаются частотно - временные признаки изображения.
Рис. 2 демонстрирует процесс двухуровневой декомпозиции изображения.
Еще одной проблемой нейросетевого распознавания являются большие временные затраты на обучение нейронных сетей. Как уже было сказано выше, обучение нейронной сети распознаванию рукописных цифр потребовало около 16 часов. Для решения этой проблемы был предложен подход разделения n-классовой задачи распознавания на n подзадач, каждая из которых занималась бы распознаванием пары классов объектов. К примеру, если взять задачу распознавания цифр, то можно ее разделить на 10 подзадач, каждая из которых будет заниматься распознаванием пары цифр: (0, 1), (1, 2), (2, 3) и так до последней пары (9, 0). Таким образом, исходное изображение цифры будет подаваться на вход десяти нейросетевым классификаторам, которые будут определять принадлежность объекта той или иной паре.
Вероятность принадлежности объекта к тому или иному классу в паре классов (i, j) определяется классификатором Cij по формулам:
где P(i|x) – вероятность принадлежности объекта к классу i с учетом возможной принадлежности к неизвестному классу x;
P(j|x) – аналогично для класса j.
Также можно подсчитать вероятности принадлежности объекта к паре классов, для которых не предусмотрен классификатор. Например, существует два классификатора Cij и Cjk , которые обучены распознавать соответствующие пары объектов (i, j) и (j, k), тогда для подсчета вероятности принадлежности объекта к какому-то классу из пары (i, k) можно воспользоваться формулами:
И так далее для всех
возможных сочетаний пар
ЗАКЛЮЧЕНИЕ
Распознавание образов (а часто говорят - объектов, сигналов, ситуаций, явлений или процессов) - самая распространенная задача, которую человеку приходится решать практически ежесекундно от первого до последнего дня своего существования. Для этого он использует огромные ресурсы своего мозга, которые мы оцениваем таким показателем как число нейронов, равное 1010.
Можно даже не утруждая
себя примерами заметить, что похожие
действия наблюдаются в биологии,
в живой природе, а иногда даже
в неживой. Кроме того, распознавание
постоянно встречается в
С более общих позиций можно утверждать, и это вполне очевидно, что в повседневной деятельности человек постоянно сталкивается с задачами, связанными с принятием решений, обусловленных непрерывно меняющейся окружающей обстановкой. В этом процессе принимают участие: органы чувств, с помощью которых человек воспринимает информацию извне; центральная нервная система, осуществляющая отбор, переработку информации и принятие решений; двигательные органы, реализующие принятое решение. Но в основе решений этих задач лежит, в чем легко убедиться, распознавание образов.
В своей практике люди решают разнообразные задачи по классификации и распознаванию объектов, явлений и ситуаций (мгновенно узнают друг друга, с большой скоростью читают печатные и рукописные тексты, безошибочно водят автомобили в сложном потоке уличного движения, осуществляют отбраковку деталей на конвейере, разгадывают коды, древнюю египетскую клинопись и т.д.).
Вычисления в сетях формальных нейронов, во многом напоминают обработку информации мозгом. В последнее десятилетие нейрокомпьютинг приобрел чрезвычайную популярность на Западе, где он уже успел превратиться в инженерную дисциплину, тесно связанную с производством коммерческих продуктов. Ежегодно выходят десятки книг, посвященных практическим аспектам нейрокомпьютинга. Интенсивно ведутся работы по созданию новой – аналоговой элементной базы для нейровычислений.
В России же, где в силу общего снижения
тонуса научных исследований структура
науки оказалась «замороженной»
Перспективы в ближайшем будущем. Основной чертой, отличающей нейрокомпьютеры от современных компьютеров и обеспечивающей будущее этого направления, по мнению автора, является способность решать неформализованные проблемы, для которых в силу тех или иных причин еще не существует алгоритмов решения. Нейрокомпьютеры предлагают относительно простую технологию порождения алгоритмов путем обучения. В этом их основное преимущество, их «миссия» в компьютерном мире.
Возможность порождать алгоритмы оказывается особенно полезной для задач распознавания образов, в которых зачастую не удается выделить значимые признаки априори. Вот почему нейрокомпьютинг оказался актуален именно сейчас, в период расцвета мультимедиа, когда развитие глобальной сети Internet требует разработки новых технологий, тесно связанных с распознаванием образов. Однако – обо всем по порядку.
Одна из основных проблем развития
и применения искусственного интеллекта
остаётся проблема распознавания звуковых
и визуальных образов. Однако интернет
и развитые коммуникационные каналы
уже позволяют создавать
Профессия инженера систем распознавания образов на базе социальных сетей будет востребована уже в ближайшем будущем и до тех пор, пока системы ИИ не будут способны сами пройти тест Тьюринга.
Экстраполируя экспоненциальный рост уровня технологии в течение нескольких десятилетий, футурист Рэймонд Курцвейл предположил, что машины, способные пройти тест Тьюринга, будут изготовлены не ранее 2029 года.
Однако системы ИИ не могут ждать так долго – все остальные технологии уже готовы к тому, чтобы найти своё применение в медицине, биологии, системах безопасности и т.д. Их глазами и ушами станут миллионы людей по всему миру, готовые распознать фотографию террориста, надпись на пузырьке с лекарством или слова о помощи.
Аудитория социальных сетей растёт гиганскими темпами. Согласно результатам исследования ComScore, в мае 2009 года аудитория пользователей одной только Facebook в США насчитывала 70,28 млн человек. И это практически в два раза выше аналогичного показателя за май 2008 года.
Работа инженера будет заключаться в том, чтобы организовать процесс передачи пользователям нераспознанных визуальных или звуковых образов в виде MMS, поп-апов на сайтах, символов CAPTCHA на формах в блогах и др., верификации полученных данных и отправке распознанного слова или образа обратно системе ИИ.
ЛИТЕРАТУРА
Информация о работе Распознавание изображений с помощью нейронных сетей