Автор работы: Пользователь скрыл имя, 08 Февраля 2013 в 08:55, доклад
Первоначально в ЭВМ использовался лишь латинский алфавит - 26 букв (символов).
Для кодирования двоичным кодом 26 символов (прошлый урок) потребуется выделять 5 бит на каждый символ (5 битное кодирование).
Но в тексте встречаются не только строчные, но и прописные буквы (символы), а также десятичные цифры. Значит количество кодируемых символов будет больше:
Kсимв = 26 + 26 + 10 = 62 [символа]
Кодирование текстовой информации. Определение объема текстового файла.
Первоначально в ЭВМ использовался
лишь латинский алфавит - 26 букв (символов).
Для кодирования двоичным кодом 26 символов
(прошлый урок) потребуется выделять 5
бит на каждый символ (5 битное кодирование).
Но в тексте встречаются не только строчные,
но и прописные буквы (символы), а также
десятичные цифры. Значит количество кодируемых
символов будет больше:
Kсимв = 26 + 26 + 10 = 62 [символа]
Для кодирования двоичным кодом 62 символов
потребуется 6 бит на символ (6 битное кодирование).
Поэтому в первых англоязычных компьютерах
байт - машинный слог - включал шесть битов.
С точки зрения ЭВМ текст также включает
знаки препинания, спецсимволы типа "=",
"(", "&", пробел и т.п., символы
псевдографики и коды управления принтерами,
сигнальными лампочками и прочим оборудованием.
Для кодирования всего этого количества
символов требуется 7 битное кодирование.
С учетом кодирования символов национальных
языков, например русского, необходимо
как минимум 8 битное кодирование.
Таким образом возникло понятие БАЙТ,
как набор БИТ, минимально необходимый
для кодирования одного машинного символа.
При 8-битном кодировании мощность алфавина
(число символов в алфавите) равна 256.
Кодирование заключается в том, что каждому
символу ставится в соответствие уникальный
двоичный код. Соответствие символа коду
отображено в кодовой таблице.
При нажатии клавиши на клавиатуре (устройство
ввода или кодирования информации) формируется
двоичный код в соответствии с которым
по кодовой таблице на экране монитора
отображается начертание символа.
В настоящее время существуют пять различных
кодовых таблиц для русских букв (Windows,
MS-DOS, КОИ-8, Mac, ISO) поэтому тексты, созданные
в одной кодировке, не будут правильно
отображаться в другой. Для разных типов
ЭВМ используются различные таблицы кодировки.
С распространением персональных компьютеров
типа IBM PC международным стандартом стала
таблица кодировки под названием ASCII (American
Standart Code for Information Interchange) – американский
стандартный код для информационного
обмена в которой:
- Первые 33 кода (с 0 по 33) соответствуют
не символам, а операциям (ввод пробела,
перевод строки и т.д.);
- Коды с 33 по 127 являются интернациональными
и соответствуют символам латинского
алфавита, цифрам, знакам арифметических
операций и знакам препинания;
- Коды с 128 по 255 являются национальными,
т.е. в разных национальных кодировках
одному и тому же коду соответствуют различные
символы.
В современных компьютерах используют
16 битное кодировании что позволяет закодировать
65536 символов.
Чтобы найти информационный объем текста
Vтф нужно умножить количество символов
Kсимв на объем одного символа (число
бит на символ) V 1с:
Vтф = Kсимв * V1с
Информация, выраженная с помощью естественных и формальных языков в письменной форме, обычно называется текстовой информацией. Начиная с конца 60-х годов прошлого века, компьютеры все больше стали использоваться для обработки текстовой информации.
Кодирование и
декодирование текстовой
Традиционно для кодирования одного символа используется количество информации, равное 1 байту, то есть I = 1 байт = 8 битов.
Для кодирования одного символа требуется 1 байт информации.
Если рассматривать символы как возможные события, то по формуле N=2 I можно вычислить, какое количество различных символов можно закодировать:
N = 2I = 28 = 256.
Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и строчные буквы русского и латинского алфавита, цифры, знаки, графические символы и пр.
Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертаниям, а компьютер - по их кодам.
При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу с символом, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает один байт.
В процессе вывода символа на экран компьютера производится обратный процесс - декодирование, то есть преобразование кода символа в его изображение.
Кодировки русского алфавита.
Важно, что присвоение символу конкретного кода - это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 33 кода (с 0 по 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и так далее).
Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.
Коды с 128 по 255 являются национальными, то есть в национальных кодировках одному и тому же коду соответствуют различные символы. К сожалению, в настоящее время существуют пять различных кодовых таблиц для русских букв (КОИ8, СР1251, СР866, Mac, ISO), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.
В настоящее время широкое