Кодирование информации

Автор работы: Пользователь скрыл имя, 08 Февраля 2013 в 08:55, доклад

Описание работы

Первоначально в ЭВМ использовался лишь латинский алфавит - 26 букв (символов).
Для кодирования двоичным кодом 26 символов (прошлый урок) потребуется выделять 5 бит на каждый символ (5 битное кодирование).

Но в тексте встречаются не только строчные, но и прописные буквы (символы), а также десятичные цифры. Значит количество кодируемых символов будет больше:

Kсимв = 26 + 26 + 10 = 62 [символа]

Файлы: 1 файл

Кодирование текстовой информации.doc

— 34.50 Кб (Скачать файл)

Кодирование текстовой информации. Определение объема текстового файла.

Первоначально в ЭВМ использовался  лишь латинский алфавит - 26 букв (символов).  
Для кодирования двоичным кодом 26 символов (прошлый урок) потребуется выделять 5 бит на каждый символ (5 битное кодирование).  
 
Но в тексте встречаются не только строчные, но и прописные буквы (символы), а также десятичные цифры. Значит количество кодируемых символов будет больше:  
 
Kсимв = 26 + 26 + 10 = 62 [символа]  
 
Для кодирования двоичным кодом 62 символов потребуется 6 бит на символ (6 битное кодирование).  
 
Поэтому в первых англоязычных компьютерах байт - машинный слог - включал шесть битов.  
 
С точки зрения ЭВМ текст также включает знаки препинания, спецсимволы типа "=", "(", "&", пробел и т.п., символы псевдографики и коды управления принтерами, сигнальными лампочками и прочим оборудованием.  
 
Для кодирования всего этого количества символов требуется 7 битное кодирование.  
 
С учетом кодирования символов национальных языков, например русского, необходимо как минимум 8 битное кодирование.  
 
Таким образом возникло понятие БАЙТ, как набор БИТ, минимально необходимый для кодирования одного машинного символа.  
 
При 8-битном кодировании мощность алфавина (число символов в алфавите) равна 256.  
 
Кодирование заключается в том, что каждому символу ставится в соответствие уникальный двоичный код. Соответствие символа коду отображено в кодовой таблице.  
 
При нажатии клавиши на клавиатуре (устройство ввода или кодирования информации) формируется двоичный код в соответствии с которым по кодовой таблице на экране монитора отображается начертание символа.  
 
В настоящее время существуют пять различных кодовых таблиц для русских букв (Windows, MS-DOS, КОИ-8, Mac, ISO) поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой. Для разных типов ЭВМ используются различные таблицы кодировки. С распространением персональных компьютеров типа IBM PC международным стандартом стала таблица кодировки под названием ASCII (American Standart Code for Information Interchange) – американский стандартный код для информационного обмена в которой:  
- Первые 33 кода (с 0 по 33) соответствуют не символам, а операциям (ввод пробела, перевод строки и т.д.);  
- Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания;  
- Коды с 128 по 255 являются национальными, т.е. в разных национальных кодировках одному и тому же коду соответствуют различные символы.  
 
В современных компьютерах используют 16 битное кодировании что позволяет закодировать 65536 символов.  
 
Чтобы найти информационный объем текста Vтф нужно умножить количество символов Kсимв на объем одного символа (число бит на символ) V :

Vтф = Kсимв * V

Двоичное  кодирование текстовой информации

Информация, выраженная с  помощью естественных и формальных языков в письменной форме, обычно называется текстовой информацией. Начиная  с конца 60-х годов прошлого века, компьютеры все больше стали использоваться для обработки текстовой информации.

Кодирование и  декодирование текстовой информации.

Традиционно для кодирования одного символа используется количество информации, равное 1 байту, то есть I = 1 байт = 8 битов.

Для кодирования одного символа  требуется 1 байт информации.

Если рассматривать символы  как возможные события, то по формуле N=2 можно вычислить, какое количество различных символов можно закодировать:

N = 2= 2= 256.

Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и строчные буквы русского и латинского алфавита, цифры, знаки, графические символы и пр.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертаниям, а компьютер - по их кодам.

При вводе в компьютер текстовой  информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу с символом, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает один байт.

В процессе вывода символа на экран  компьютера производится обратный процесс - декодирование, то есть преобразование кода символа в его изображение.

Кодировки русского алфавита.

Важно, что присвоение символу конкретного кода - это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 33 кода (с 0 по 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и так далее).

Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

Коды с 128 по 255 являются национальными, то есть в национальных кодировках одному и тому же коду соответствуют  различные символы. К сожалению, в настоящее время существуют пять различных кодовых таблиц для русских букв (КОИ8, СР1251, СР866, Mac, ISO), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.

В настоящее время широкое распространение  получил новый международный  стандарт Unicode, который отводит на каждый символ не один байт, а два, поэтому с его помощью можно закодировать не 256 символов, а N = 216 = = 65536 различных символов. Такого количества символов достаточно, чтобы закодировать не только русский и латинский алфавиты,  цифры, знаки  и математические символы, но и греческий, арабский, иврит и другие алфавиты.


Информация о работе Кодирование информации