Классификация и кодирование информации: система классификации

Автор работы: Пользователь скрыл имя, 12 Февраля 2013 в 15:59, реферат

Описание работы

Скачать архив (17.16 Кб) Сколько стоит заказать работу?

Файлы: 1 файл

Классификация и кодирование информации.doc

Классификация и кодирование информации: система классификации (классификатор, реквизит). Методы классификации. Кодирование информации. Формулы Шеннона, Хартли.

Целевая функция информации (ее прагматический аспект) характеризуется способностью влиять на процессы управления, на соответствующее целям управления поведением людей. В этом, по существу, и состоит полезность или ценность информации. Информация охватывает все сферы, все отрасли общественной жизни, прочно входит в жизнь каждого человека, воздействует на его образ мышления и поведение. Она обслуживает общение людей, социальных групп, классов, наций и государств, помогает людям овладеть научным мировоззрением, разбираться в многообразных явлениях и процессах общественной жизни, повышать уровень своей культуры и образованности, усваивать и соблюдать законы и нравственные принципы. Огромную, ничем незаменимую роль выполнят информация в управленческой деятельности. По существу, без информации не может быть и речи о любом виде управления, о целенаправленной деятельности взаимосвязанных объектов и систем.

В настоящее время разнообразная по своему значению информация, зафиксированная на специальных носителях, стала национальным богатством нового типа - информационным ресурсом государства.
В информационных системах выполняются классификация и кодирование информации с целью однозначной идентификации классификационных группировок и сжатия информации.

Классификация – это разделение множества объектов на подмножества по их сходству или различию в соответствии с принятыми методами. Классификация фиксирует закономерные связи между классами объектов. Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств. Таким образом, совокупность правил распределения объектов множества на подмножества называется системой классификации.

Свойство или характеристика объекта классификации, которое позволяет установить его сходство или различие с другими объектами классификации, называется признаком классификации. Например, признак "роль предприятия-партнера в отношении деятельности объекта автоматизации" позволяет разделить все предприятия на две группы (на два подмножества): "поставщики" и "потребители". Множество или подмножество, объединяющее часть объектов классификации по одному или нескольким признакам, носит название классификационной группировки.

Классификатор — это документ, с помощью которого осуществляется формализованное описание информации в ИС, содержащей наименования объектов, наименования классификационных группировок и их кодовые обозначения.

По сфере действия выделяют следующие виды классификаторов: международные, общегосударственные (общесистемные), отраслевые и локальные классификаторы.

Международные классификаторы входят в состав Системы международных экономических стандартов (СМЭС) и обязательны для передачи информации между организациями разных стран мирового сообщества.

Общегосударственные (общесистемные) классификаторы, обязательны для организации процессов передачи и обработки информации между экономическими системами государственного уровня внутри страны.

Отраслевые классификаторы используют для выполнения процедур обработки информации и передачи ее между организациями внутри отрасли.

Локальные классификаторы используют в пределах отдельных предприятий.

Каждая система классификации характеризуется следующими свойствами:

гибкостью системы;
емкостью системы;
степенью заполненности системы.

Кодирование текстовой информации.

В традиционных кодировках для кодирования одного символа используется 8 бит. Легко подсчитать по формуле 2.3, что такой 8-разрядный код позволяет закодировать 256 различных символов.

Присвоение символу определенного числового кода - это вопрос соглашения. В качестве международного стандарта принята кодовая таблица ASCII (American Standard Code for Information Interchange), кодирующая первую половину символов с числовыми кодами от 0 до 127 (коды от 0 до 32 отведены не символам, а функциональным клавишам). Данную таблицу можно найти в любом учебном пособии по информатике.

Национальные стандарты кодировочных таблиц включают международную часть кодовой таблицы без изменений, а во второй половине содержат коды национальных алфавитов, символы псевдографики и некоторые математические знаки. К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows, MS-DOS, Macintosh и ISO), что вызывает дополнительные трудности при работе с русскоязычными документами.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 ("Код обмена информацией, 8-битный"). Эта кодировка применялась еще в 70-ые годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251 ("CP" означает "Code Page", "кодовая страница").

От начала 90-ых годов, времени господства операционной системы MS DOS, остается кодировка CP866. Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac. Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

В конце 90-ых годов появился новый международный стандарт Unicode, который отводит под один символ не один байт, а два, и поэтому с его помощью можно закодировать не 256, а 65536 различных символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Пример. Представьте в форме шестнадцатеричного кода слово "ЭВМ" во всех пяти кодировках. Воспользуйтесь таблицами CP866, Mac и ISO и компьютерным калькулятором для перевода чисел из десятичной в шестнадцатеричную систему счисления.

Последовательности десятичных кодов слова "ЭВМ" в различных кодировках составляем на основе кодировочных таблиц:
КОИ8-Р: 252 247 237

CP1251: 221 194 204

CP866: 157 130 140

Mac: 157 130 140

ISO: 205 178 188

Переводим с помощью калькулятора последовательности кодов из десятичной системы в шестнадцатеричную:

КОИ8-Р: FC F7 ED

CP1251: DD C2 CC

CP866: 9D 82 8C

Mac: 9D 82 8C

ISO: CD B2 BC

Кодирование графической информации.

Графические изображения, хранящиеся в аналоговой (непрерывной) форме на бумаге, фото- и кинопленке, могут быть преобразованы в цифровой компьютерный формат путем пространственной дискретизации. Это реализуется путем сканирования, результатом которого является растровое изображение. Растровое изображение состоит из отдельных точек (пикселей - англ. pixel образовано от словосочетания picture element, что означает элемент изображения), каждая из которых может иметь свой цвет.

Качество растрового изображения определяется его разрешением (количеством точек по вертикали и по горизонтали) и используемой палитрой цветов (16, 256, 65536 цветов и более).

Из данной формулы можно определить какое количество бит информации необходимо выделить для хранения цвета точки (глубину цвета I) для каждой палитры цветов (N - количество отображаемых цветов).

N=2^I

Пример. Определить объем видеопамяти компьютера, который необходим для реализации графического режима монитора с разрешающей способностью 1024*768 точек и палитрой из 65536 цветов (High Color).

Глубина цвета составляет: I = log₂65 536 = 16 бит

Количество точек изображения равно: 1024*768 = 786 432

Требуемый объем видеопамяти равен:

16 бит *786 432 = 12 582 912 бит = 1,2 Мбайта

Важнейшими характеристиками монитора являются размеры его экрана, которые задаются величиной его диагонали в дюймах (15", 17", 21" и т.д.) и размером точки экрана (0,25 мм или 0,28 мм), а разрешающая способность экрана монитора задается количеством точек по вертикали и горизонтали (640 на 480, 800 на 600 и т.д.). Следовательно, для каждого монитора существует физически максимально возможная разрешающая способность экрана.

Кодирование звуковой информации.

В аналоговой форме звук представляет собой волну с непрерывно меняющейся амплитудой и частотой. При преобразовании звука в цифровую дискретную форму производится временная дискретизация, при которой в определенные моменты времени амплитуда звуковой волны измеряется и квантуется, т.е. ей присваивается определенное значение из некоторого фиксированного набора. Данный метод называется еще импульсно-кодовой модуляцией PCM (Pulse Code Modulation).

Преобразование непрерывной звуковой волны в последовательность звуковых импульсов различной амплитуды производится с помощью аналого-цифрового преобразователя размещенного на звуковой плате. Современные 16-битные звуковые карты обеспечивают возможность кодирования 65536 различных уровней громкости или 16-битную глубину кодирования звука. Качество кодирования звука зависит и от частоты дискретизации - количества измерений уровня сигнала в единицу времени. Эта величина может принимать значения от 8 до 48 кГц.

Пример. Оцените информационный объем высококачественного стереоаудиофайла длительностью звучания 1 секунда, если "глубина" дискретизации 16 бит, а частота 24 кГц.

Информационный объем звукового файла длительностью в 1 секунду равен: 16 бит *24 000 = 384000 бит 47 Кбайт

Соответственно, чтобы узнать информационный объем файла, длительностью 1 минуту, нужно умножить полученное число на 60.

Формула Шеннона.

Количество информации как мера уменьшения неопределенности знаний. Информацию, которую получает человек, можно считать мерой уменьшения неопределенности знаний. Если некоторое сообщение приводит к уменьшению неопределенности наших знаний, то можно говорить, что такое сообщение содержит информацию.

Сообщения обычно содержат информацию о каких-либо событиях. Количество информации для событий с различными вероятностями определяется по формуле, которую предложил К.Шеннон в 1948 году:

где I - количество информации, N - количество возможных событий, p_i

вероятности отдельных событий.

Если события равновероятны, то количество информации определяется по формуле:

или из показательного уравнения: N = 2^I.

Единицы измерения количества информации. За единицу количества информации принят 1 бит - количество информации, содержащееся в сообщении, уменьшающем неопределенность знаний в два раза.

Принята следующая система единиц измерения количества информации:

1 байт = 8 бит

1 Кбайт = 2¹⁰ байт

1 Мбайт = 2¹⁰ Кбайт = 2²⁰ байт

1 Гбайт = 2¹⁰ Мбайт = 2²⁰ Кбайт = 2³⁰ байт

Пример. После экзамена по информатике, который сдавали ваши друзья, объявляются оценки ("2", "3", "4" или "5"). Какое количество информации будет нести сообщение об оценке учащегося A, который выучил лишь половину билетов, и сообщение об оценке учащегося B, который выучил все билеты.

Опыт показывает, что для учащегося A все четыре оценки (события) равновероятны и тогда количество информации, которое несет сообщение об оценке можно вычислить по формуле 2.2:

I = log₂4 = 2 бит

На основании опыта можно также предположить, что для учащегося B наиболее вероятной оценкой является "5" (p₁ = 1/2), вероятность оценки "4" в два раза меньше (p₂ = 1/4), а вероятности оценок "2" и "3" еще в два раза меньше (p₃ = p₄ = 1/8). Так как события неравновероятны, воспользуемся для подсчета количества информации в сообщении формулой 2.1:

I = -(1/2·log₂1/2 + 1/4·log₂1/4 + 1/8·log₂1/8 + 1/8·log₂1/8) бит = 1,75 бит

Вычисления показали, что при равновероятных событиях мы получаем большее количество информации, чем при неравновероятных событиях.

Формула Р. Хартли. Пусть имеется N состояний системы S или N опытов с различными, равновозможными, последовательными состояниями системы. Если каждое состояние системы закодировать, например, двоичными кодами определенной длины d, то эту длину необходимо выбрать так, чтобы число всех различных комбинаций было бы не меньше, чем N. Наименьшее число, при котором это возможно, называется мерой разнообразия множества состояний системы и задается формулой Р. Хартли: H=klog_аN, где k - коэффициент пропорциональности (масштабирования, в зависимости от выбранной единицы измерения меры), а - основание системы меры.

Если измерение ведется в экспоненциальной системе, то k=1, H=lnN (нат); если измерение было произведено в двоичной системе, то k=1/ln2, H=log₂N (бит); если измерение было произведено в десятичной системе, то k=1/ln10, H=lgN (дит).

Пример. Чтобы узнать положение точки в системе из двух клеток т.е. получить некоторую информацию, необходимо задать 1 вопрос ("Левая или правая клетка?"). Узнав положение точки, мы увеличиваем суммарную информацию о системе на 1 бит (I=log₂ 2). Для системы из четырех клеток необходимо задать 2 аналогичных вопроса, а информация равна 2 битам (I=log₂4). Если же система имеет n различных состояний, то максимальное количество информации будет определяться по формуле: I=log₂n.

Информация о работе Классификация и кодирование информации: система классификации