Обработка текстовой информации

Автор работы: Пользователь скрыл имя, 09 Января 2013 в 13:08, курсовая работа

Описание работы

Революция в автоматизации делопроизводства в офисе в 80-е годы прошлого века стала реально возможна в связи с созданием и широким распространением персональных компьютеров. Персональные компьютеры в первую очередь вытеснили из обращения печатающие машинки, составляющие основу технических средств подготовки печатных документов. Преимущества компьютера, оснащенного специальным текстовым процессором (редактором), перед печатающей машинкой были явными и заключались в том, что обеспечивали значительное повышение удобства, производительности выполнения работ и, самое главное, повышение качества получаемых при

Содержание работы

Введение …………………………………………………………………….………2
1. Текстовые редакторы и текстовые процессоры……………………………3
2.Краткая характеристика текстовых редакторов……………………………5
2.1. Блокнот (программа)…………………………………………………....5
2.2. TextPad …………………………………………………………………….6
2.3. NOTEPAD++…………………………………………………………...…7
3. Краткая характеристики текстовых процессоров…………………………9
3.1. Что выбрать: офисный пакет или отдельный текстовый процессор?..................................................................................................................9
3.2. С какими файлами работают текстовые процессоры……………..9
3.3. OpenOffice.org Pro Writer 3.1………………………………………….11
3.4. «Документы IBM Lotus Symphony»…………………………………11
3.5.AbiWord 2.6.8…………………………………………………………….12
3.6. PolyEdit 5.2……………………………………………………….…..…..13
3.7.. AngelWriter 3.2………………………………………………………….14
3.8. Atlantis Nova 1.0………………………………………………………...15
3.9. WordPad 5.1……………………………………………………….……..16
3.10. Microsoft Office 2007………………………………………………..…17
4. Создание документов в текстовых процессорах………………………….19
4.1. Способы создания документов………………………………………19
5. Ввод и редактирование документа……………………………………...….22
6. Сохранение и печать документов………………………………………….27
7. Форматирование документа………………………………………..……….29
7.1. Форматирование символов……………………………….………….29
7.2. Форматирование абзацев…………………………………………….30
7.3. Нумерованные и маркированные списки……….………………..32
7.4. Стили форматирования……………………………………………...33
7.5.Оглавление документа………………………………………………...34
8. Таблицы………………………………………………………………………...36
9. Гипертекст……………………………………………………………………....38
10. Компьютерные словари и системы машинного перевода текстов……………………………………………………………………………...40
11. Системы оптического распознавания документов.…….………………42
12. Системы распознавания текстов…………………………………………...44
12.1. Обзор и сравнительное тестирование……………………………..44
Заключение………………………………………………………………………..48
Список использованной литературы…………………

Файлы: 1 файл

курсовая.docx

— 2.42 Мб (Скачать файл)

 Документ, в котором используется гипертекст


 

Гиперссылки могут указывать  на закладки, размещенные не только в том же документе, но и в других документах. Примерами систем документов, объединенных гипертекстовыми ссылками в единое целое, являются справочные системы операционных систем и приложений. Активизация гиперссылки вызывает в окно документ со справочной информацией.

 

 Справочная система  операционной системы Windows


 

Технология гипертекста, распространенная на Web-страницы в Интернете, формирует Всемирную паутину, связывающую  миллиарды документов на сотнях миллионов  компьютеров в единое информационное пространство.

 

10. Компьютерные словари и системы машинного перевода текстов

 

Компьютерные  словари. Словари необходимы для перевода текстов с одного языка на другой. Существуют тысячи словарей для перевода между сотнями языков (англо-русский, немецко-французский и т. д.), причем каждый из них может содержать десятки тысяч слов. В бумажном варианте словарь представляет собой толстую книгу объемом в сотни страниц, в которой поиск нужного слова является достаточно долгим и трудоемким процессом.

Компьютерные словари  могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю дополнительные возможности. Во-первых, компьютерные словари могут являться многоязычными - давать пользователю возможность  выбрать языки и направление  перевода (например, англо-русский, испанско-русский  и т. д.).

Во-вторых, компьютерные словари  могут кроме основного словаря  общеупотребительных слов содержать  десятки специализированных словарей по областям знаний (техника, медицина, информатика и др.).

В-третьих, компьютерные словари  обеспечивают быстрый поиск словарных  статей: "быстрый набор", когда  в процессе набора слова возникает  список похожих слов; доступ к часто  используемым словам по закладкам; возможность  ввода словосочетаний и др.

В-четвертых, компьютерные словари  могут являться мультимедийными, т. е. предоставлять пользователю возможность  прослушивания слов в исполнении дикторов, носителей языка.

 

Системы компьютерного  перевода. Процесс глобализации мира приводит к необходимости частого обмена документами между людьми и организациями, находящимися в разных странах мира и говорящими на различных языках.

В этих условиях использование  традиционной технологии перевода "вручную" тормозит развитие межнациональных  контактов. Перевод многостраничной  документации вручную требует длительного  времени и высокой оплаты труда  переводчиков. Перевод полученного  по электронной почте письма или  просматриваемой в браузере Web-страницы необходимо осуществлять срочно, и  нет времени пригласить переводчика.

Системы компьютерного перевода позволяют решить эти проблемы. Они, с одной стороны, способны переводить многостраничные документы с  высокой скоростью (одна страница в  секунду), с другой стороны, переводить Web-страницы "на лету", в режиме реального времени.

Системы компьютерного перевода осуществляют перевод текстов, основываясь  на формальном "знании": синтаксиса языка (правил построения предложений), правил словообразования и использовании  словарей. Программа-переводчик сначала  анализирует текст на одном языке, а затем конструирует этот текст  на другом языке.

Современные системы компьютерного  перевода позволяют достаточно качественно  переводить техническую документацию, деловую переписку и другие специализированные тексты. Однако они не применимы  для перевода художественных произведений, так как не способны адекватно  переводить метафоры, аллегории и  другие элементы художественного творчества человека.

 

11. Системы оптического распознавания документов

 

Системы оптического  распознавания символов. Системы оптического распознавания символов используются при создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат.

Сначала с помощью сканера  необходимо получить изображение страницы текста в графическом формате. Далее  для получения документа в  текстовом формате необходимо провести распознавание текста, т. е. преобразовать  элементы графического изображения  в последовательность текстовых  символов.

Системы оптического распознавания  символов сначала определяют структуру  размещения текста на странице и разбивают  его на отдельные области: колонки, таблицы, изображения и т. д. Далее  выделенные текстовые фрагменты  графического изображения страницы разделяются на изображения отдельных  символов.

Для отсканированных документов типографского качества (достаточно крупный шрифт, отсутствие плохо  напечатанных символов или исправлений) распознавание символов проводится путем их сравнения с растровыми шаблонами.

Растровое изображение каждого  символа последовательно накладывается  на растровые шаблоны символов, хранящиеся в памяти системы оптического  распознавания. Результатом распознавания  является символ, шаблон которого it наибольшей степени совпадает с изображением.

Распознаваемый символ "Б" накладывается на растровые шаблоны  символов (А, Б, В и т. д.)


 

При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется векторный  метод распознавания символов. В  распознаваемом изображении символа  выделяются геометрические примитивы (отрезки, окружности и др.) и сравниваются с векторными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех геометрических примитивов и их расположение больше всего соответствует распознаваемому символу.

 Распознаваемый символ "Б" накладывается на векторные шаблоны символов (А, Б, В и т. д.)


 

Системы оптического распознавания  символов являются "самообучающимися" (для каждого конкретного документа  они создают соответствующий  набор шаблонов символов), и поэтому  скорость и качество распознавания  многостраничного документа постепенно возрастают.

С появлением первого карманного компьютера Newton фирмы Apple в 1990 году начали создаваться системы распознавания  рукописного текста. Такие системы  преобразуют текст, написанный на экране карманного компьютера специальной  ручкой, в текстовый компьютерный документ.

Системы оптического  распознавания форм. При заполнении документов большим количеством людей (например, при сдаче выпускником школы единого государственного экзамена (ЕГЭ)) используются бланки с пустыми полями. Данные вводятся в поля печатными буквами от руки. Затем эти данные распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных.

Сложность состоит в том, что необходимо распознавать символы, написанные от руки, которые довольно сильно различаются у разных людей. Кроме того, такие системы должны уметь определять, к какому полю относится распознаваемый текст.

 

12. Системы распознавания текстов.

12.1. Обзор и сравнительное тестирование

 

Одна из областей, в которых  отставание Linux от Windows считается значительным и трудно преодолимым, является оптическое распознавание текста. Так как  необходимость распознать текст  время от времени появляется практически  у каждого пользователя компьютера, потребность в программном обеспечении  такого рода надо признать актуальной проблемой. В связи с этим было проведено сравнительное тестирование имеющихся систем оптического распознавания  текста (OCR), доступных в Linux. Для полноты  картины рассматривались как  локально устанавливаемые программы, так и онлайновые сервисы.

ABBYY FineReader for Linux.

Не секрет, что уже в  течение многих лет единоличным  лидером на рынке оптического  распознавания является российская компания ABBYY со своим продуктом Fine Reader. В настоящее время компания предлагает пакет ABBYY FineReader Engine 8.0 CLI for Linux, включающий утилиту командой строки для распознавания и SDK для встраивания  движка распознавания в различные  корпоративные системы документооборота и т.д. Полная версия программы стоит 149 евро, при этом количество распознаваемых страниц ограничено величиной 12000 в  год. Есть и более дорогие версии, в которых это количество значительно  больше. Более подробную информацию можно получить на странице проекта. При такой стоимости покупать программу для домашнего использования  возможно и не стоит, однако даже для  небольшой компании она выглядит вполне приемлемо. Триальная версия позволяет распознать 100 страниц.

ABBYY Fine Reader Online

Для полноты картины необходимо рассмотреть еще один продукт  от ABBYY - онлайновый сервис ABBYY Fine Reader Online. Ранее он позволял после несложной  регистрации распознавать бесплатно  до 10 страниц в день, теперь же бесплатно  можно распознать только три страницы сразу после регистрации, после  чего необходимо платить. Минимальный  пакет стоит 3$ за 20 страниц. Сервис поддерживает большое количество языков и форматов файлов.

Cuneiform.

На второе место по известности  среди систем OCR можно смело поставить  программу cuniform. Первоначально программа CuneiForm была разработана компанией Cognitive Technologies как коммерческий продукт. CuneiForm поставлялся с некоторыми моделями сканеров. Однако после нескольких лет перерыва разработки, 12 декабря 2007 года анонсировано открытие исходных текстов программы, которое состоялось 2 апреля 2008 года.

По умолчанию в Ubuntu 10.10 доступна достаточно старая версия 0.7. Однако после добавления соответствующего PPA можно стать обладателем версии 1.0. Для Cuneiform написаны два графических  интерфейса - YAGF и Cuneiform-Qt.

GOCR

GOCR - это свободная кроссплатформенная  система оптического распознавания  текстов, работающая из командной  строки. Программа пока находится  в ранней стадии разработки, поэтому  имеет ряд серьезных недостатков  (например, распознает только одноколоночный  текст). Кроме того, изучение man-страницы  показало, что опций, позволяющих  задать язык распознавания, программа  не имеет, что подтвердилось  экспериментом - русский текст  gocr пытается распознать как английский.

Ocrad

Ocrad - это система оптического  распознавания, разрабатываемая  в рамках проекта GNU. Программа  использует метод выделения характерных  признаков (feature extraction). Она читает  побитовое изображение в формате  pgm/pbm и генерирует текст в байтовом (8-битном) формате. Ocrad содержит анализатор  макета, способный отделять столбцы  или блоки текста, часто встречающиеся  в печатных страницах. К сожалению,  поддержка русского языка также отсутствует напрочь.

Tesseract

Tesseract - свободная программа  для распознавания текстов, разрабатывавшаяся  Hewlett-Packard с середины 1980-х по середину 1990-х. Затем ее разработка была  заморожена на 10 лет. В августе  2006 г Google купил её и открыл  исходные тексты под лицензией  Apache 2.0 для продолжения разработки. В настоящий момент программа  уже работает с UTF-8, поддержка  языков (включая русский с версии 3.0) осуществляется с помощью дополнительных  модулей.

Так как в репозиториях Ubuntu присутствует 2-я версия программы, а русский язык поддерживается только с релиза 3.0.0.

SILVERCODERS OCR Server

Данная программа представляет собой мощную коммерческую серверную  систему распознавания, предназначенную  для предприятий и поддерживающую 189 языков, среди них и русский. Она разработана специально для  интегрирования в корпоративные  системы документооборота. Триальной  версии для свободного скачивания нет.

Free OCR

Free OCR - бесплатный онлайн-сервис  для оптического распознавания  текста, использующий движок tesseract. Размер загружаемого изображения ограничен 2 Мб. Поддерживаются форматы JPG, GIF, TIFF BMP и PDF (только первая страница, в скором времени обещают поддержку первых 10 страниц). Также, существует лимит на 10 изображений в час.

Сервис распознает множество  языков - русский, украинский, английский, немецкий, французский, турецкий, большинство  восточноевропейских языков.

img2txt

img2txt - многоязычный онлайн-сервис  для оптического распознавания  текста. Поддерживаются форматы  JPG, PNG, TIFF с размером файла до 2 Мб. В будущем обещают поддержку  PDF и DJVU. На Википедии сервис  обозначен как коммерческий и  проприетарный, однако на самом  сайте никакой информации об  типе лицензии и используемом  движке нет. Мои три тестовые  страницы распознались без проблем.  Никакой оплаты или хотя бы  регистрации не просили.

OnlineOCR

OnlineOCR - еще один онлайн-сервис, теперь уже коммерческий (28 языков, включая русский). Поддерживает ввод  в форматах TIFF (multi-page), JPEG/JPG, BMP, PCX, PNG, GIF, PDF (multi-page), файлы до 20 мб; вывод  в PDF, MS Word, MS Excel, HTML, RTF, TXT. Минимальный  пакет, который можно купить, составляет 10 страниц за 5 рублей. Зарегистрированный  пользователь имеет свой кабинет,  в котором хранятся загруженные  файлы и результаты распознавания.  К сожалению, возможность бесплатной  работы с сервисом настолько  ограничена, что попытка оплатить 10 страниц с помощью СМС также заканчивается неудачно.

 

Результаты сравнительного тестирования систем оптического распознавания

Информация о работе Обработка текстовой информации