Автор работы: Пользователь скрыл имя, 23 Декабря 2013 в 16:14, реферат
Одним из основных способов ввода информации в вычислительные системы является сканирование. Именно сканер стал тем устройством, с помощью которого в компьютер попадает огромное количество информации.
С помощью современной аппаратуры сканирования с высоким разрешением исходного документа довольно просто формируется графический файл специального формата. Такой файл после соответствующей обработки может быть преобразован в любой из форматов, которые применяются в информационных технологиях. Это форматы представления текстов и графических видов информации – фотографий, слайдов, рисунков и т.п.
Кроме всего этот этап выполняет дополнительные функции: автоматическое определение угла поворота страницы и его автоматическая коррекция.
Процесс распознавания полностью автоматический, не требует наличия оператора, при этом возможно распараллеливание распознавания в рамках локальной сети.
При необходимости, после распознавания документ передается на верификацию. Если же необходимости в верификации нет, распознанные данные могут экспортироваться во внешние информационные системы и базы данных.
Верификация документа: исправление ошибок заполнения и распознавания, подтверждение результатов распознавания «сомнительных» полей, просмотр полей, не прошедших логический контроль, и принятие решения о дальнейшей судьбе таких документов. На этом этапе оператор производит визуальный контроль результатов распознавания и принимает решение о дальнейшем маршруте документа. Процесс реализован в двухоконном редакторе форм. В одном окне показано изображение бумажного документа, в другом — электронная форма, содержащая распознанные данные.
Процесс верификации
документа идет по следующей схеме.
Оператору предъявляется
Для повышения эффективности работы оператора предусмотрены два режима: проход только по полям, не прошедшим контроль, и режим пропуска незаполненных полей. Кроме этого, если прикреплен словарь, содержащий допустимые значения для поля, то имеется возможность указать в описании поля необходимость предъявления словаря оператору и разрешить оператору вставлять в поле значения из словаря.
После окончания верификации документа оператору предлагается либо отложить его, либо передать на этап экспорта данных.
Возможно распараллеливание процесса верификации в рамках локальной сети. В крупных проектах массового ввода могут быть одновременно задействованы десятки операторов, выполняющих функцию верификации потока документов.
После верификации, данные могут экспортироваться во внешние информационные системы и базы данных.
Точность распознавания
Ключевым параметром систем распознавания, характеризующим их практическую ценность, является точность распознавания, то есть процент правильно распознанных символов.
Optical Character Recognition - системы могут достигать наилучшей точности распознавания — свыше 99,9% для чистых изображений, составленных из обычных шрифтов. На первый взгляд такая точность распознавания кажется идеальной, но уровень ошибок все же удручает, потому что, если имеется приблизительно 1500 символов на странице, то даже при коэффициенте успешного распознавания 99,9 % получается одна или две ошибки на страницу. В таких случаях на помощь приходит метод проверки по словарю. То есть, если какого-то слова нет в словаре системы, то она по специальным правилам пытается найти похожее. Но это все равно не позволяет исправлять 100 % ошибок, что требует человеческого контроля результатов.
Точность распознавания падает за счет ошибок распознавания. Повышению точности распознавания способствует устранение указанных ниже причин ошибок.
Причины ошибок при распознавании
Встречающиеся в реальной жизни тексты обычно далеки от совершенства, и процент ошибок распознавания для "нечистых" текстов часто недопустимо велик. Грязные изображения — здесь наиболее очевидная проблема, потому что даже небольшие пятна могут затенять определяющие части символа или преобразовывать один в другой. Еще одной проблемой является неаккуратное сканирование, связанное с "человеческим фактором", так как оператор, сидящий за сканером, просто не в состоянии разглаживать каждую сканируемую страницу и точно выравнивать ее по краям сканера.
Если документ был ксерокопирован, нередко возникают разрывы и слияния символов. Любой из этих эффектов может заставлять систему ошибаться, потому что некоторые из OCR-систем полагают, что непрерывная область изображения должна быть одиночным символом.
Страница, расположенная с нарушением границ или перекосом, создает немного искаженные символьные изображения, которые могут быть перепутаны OCR.
Более трудоёмкой является задача сканирования цветных изображений. Она обычно заключается в наиболее полном считывании информации с оригинала, т. е. его тонового и цветового диапазона, а также разрешения. При этом желательно по необходимости скорректировать недостатки оригинала с точки зрения последующего использования изображения. Например, компенсировать нежелательный цветовой сдвиг, тоновый дисбаланс или подавить полиграфический растр оригинала.
В настоящее время для решения этих задач многие фирмы производят соответствующее оборудование и разрабатывают математическое обеспечение. Однако именно в наличии большого количества возможностей и способов организовать технологический процесс сканирования и кроется главная опасность. Выбор определённого устройства и программ позволяет удовлетворительно и без перенастроек работать только со сравнительно небольшим диапазоном типов документов.
Применение сканеров имеет широкий диапазон и находится в постоянном развитии. Сканирование интенсивно используются в специализированных информационных технологиях. По сканированию текста наиболее полно наработан опыт в создании электронных библиотек Интернета. По второму направлению – цветной графики, давно работают в области полиграфии
Успешность применения сканеров зависит не только от их собственных качеств, но и от правильного их использования. Каждая из областей применения имеет свой собственный акцент и делает ударение на различные характеристики системы.
Информация о работе Портативное сканирование и распознавание изображений