Автор работы: Пользователь скрыл имя, 08 Февраля 2014 в 18:13, лекция
1. Меры информации синтаксического уровня
2. Меры информации семантического уровня
3. Меры информации прагматического уровня
Информатика. Тема 2
Для измерения информации на синтаксическом уровне вводятся два параметра: объем информации (данных) – объемный подход и количество информации – статистический поход.
Проблемы синтаксического
Данными называют факты, сведения, представленные в формализованном виде (закодированные), занесенные на носители информации и допускающие обработку с помощью средств вычислительной техники.
При реализации информационных процессов
информация передается в виде сообщения,
представляющего собой
Если считать что появление различных символов равновероятно, то можно рассчитать, какое количество информации несет каждый символ сообщения, передаваемого или хранимого при помощи технических устройств.
Информационная емкость символа (I), т.е. количество информации, которое несет один знак, зависит от количества символов в алфавите (N):
I = log2 N
Мощность алфавита (N) – это количество различных символов, которые можно получить с помощью кодовой цепочки, состоящей из I битов (бит может принимать значения 0 или 1).
N=2I
Количество информации, которое содержит сообщение (V), закодированное с помощью знаковой системы, равно произведению количества информации, которое несет один знак (I), на количество знаков в сообщении (n).
V=I×n
В компьютерных системах для кодирования информации используется двоичный код, который состоит из 2-х символов 0 и 1. В современной вычислительной технике для любого вида информации, представленной в электронном виде, приняты универсальные единицы измерения – бит и байт.
Бит – единица информации в компьютере, представляющая собой, двоичный разряд, который может принимать значение 0 или 1.
Байт - восемь последовательных битов. Более крупными единицами информации являются:
1Килобайт (Кбайт) = 210 байт =1024 байта;
1 Мегабайт (Мбайт) =220 байт =1024 Кбайта = 1 048 576 байт;
1 Гигабайт (Гбайт) =230 байта =1024 Мбайта = 1 073 741 824 байт
1 Терабайт (Тбайт) =240 байта =1024 Гбайта = 1 099 511 627 776 байт
1 Петабайт (Пбайт) =250 байта =1024 Тбайта = 1 125 899 906 842 624 байт
Пример 1. В текстовом файле хранится текст объемом в 400 страниц. Каждая страница содержит 3200 символов. Каков будет размер файла, если используется кодировка КОИ-8 (8 бит на 1 символ).
Страница содержит 3200 байт информации, т.к. каждый символ представлен 1 байтом (8 бит), то 400 страниц содержит 400×3200=1280000 байт, или 1280000 байт=1280000/1024 =1250 Кбайт.
Количественно выраженная неопределенность состояния системы получила название энтропия. Чем больше информации получает наблюдатель, тем больше снимается неопределенность, и энтропия системы уменьшается. Если энтропия, равна нулю, то о системе имеется полная информация, и наблюдателю она представляется целиком упорядоченной.
До получения информации наблюдатель
имеет некоторые
Тогда количество информации I:
I(X)=H(X)-H'(X).
Количество информации измеряется уменьшением (изменением) неопределенности состояния системы.
Американский инженер Р.Хартли (1928) процесс получения информации рассматривал как выбор одного сообщения из конечного заранее заданного множества, состоящего из n равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определил как двоичный логарифм n.
I = log2 n. (2)
За основание логарифма
Пример 2. Некто задумал целое число в пределах от 1 до 4. Опыт состоит в угадывании этого числа. На вопросы Некто может отвечать лишь «Да» и «Нет». Какое количество информации должны получить, чтобы узнать задуманное число? Как построить процесс угадывания?
Количество исходов угадывания n=4, причем, все они равновероятны, можно применить формулу 2: I = log2 4=2 бита.
x>2? Да. x>3? Да. x=4 Нет. x=3
Нет. x>1? Да. x = 2 Нет. x= 1.
Правильная стратегия
Информация по формуле (1) равна убыли энтропии. В частном случае, если изначально равновероятных исходов было n1, а в результате передачи информации I неопределенность уменьшилась, и число исходов стало n2 (очевидно, n1≤ n2), то можно получить:
I=log2n1–log2n2=log2 n1/ n2. (3)
Пример 3. В университет можно добраться на автобусе, троллейбусе, трамвае и маршрутном такси равновероятными способами. Какое количество информации получено, если по радио сообщили, что в городе забастовка водителей трамваев?
n1=4; n2 =3; то по формуле (3), получим: I=log24 – log23 = log2 4/3= log2 1,33 » 0,42 бита.
В отличие от объемного подхода, в статистическом подходе биты могут принимать дробные значения.
Информация – это содержание сообщения, понижающего неопределенность некоторого опыта с неоднозначным исходом; убыль связанной с ним энтропии является количественной мерой информации. Максимальное количество информации, которое можно извлечь из опыта численно равно энтропии.
Неопределенность, вносимая каждым из n равновероятных исходов, равна: H = log2 n. Пусть p – вероятность любого из отдельных равновероятных исходов опыта тогда энтропия, связанная с каждым исходом составит H=-p log2 p. Американский ученый Клод Шенон обобщил понятие меры неопределенности выбора энтропии H, на случай когда энтропия зависит не только от числа состояний, но и от вероятностей этих состояний.
Если система X обладает дискретными состояниями, их количество равно n, а вероятности нахождения в каждом из состояний p(A1), p(A2) ,…, p(An), то энтропия система H(X) равна:
Энтропия является мерой неопределенности опыта, в котором появляются случайные события, и равна средней неопределенности всех возможных его исходов.
Пример 4. Имеются ящик, в котором 12 шаров. 3 белых, 3 черных и 6 красных. Опыт состоит в вытаскивании одного шара из ящика. Найти энтропию извлечения?
n=3, A1 – вытащили белый шар; A2 – вытащили черный шар; A3 – вытащили красный шар;
A1 и A2 – события равновероятны p(А1)= p (А2 )=3/12=1/4=0,25;
p ( А3 )=6/12=1/2.
I=–0,25 log2 0,25–0,25 log2 0,25–0,5 log2 0,5 = 1,5 бит.
Свойства энтропии
Пример 5. Какое количество информации требуется для отгадывания двухзначного числа. Каково минимальное число вопросов при отгадывании двухзначного числа?
Опыт a – отгадывание первой цифры: n1=9, события равновероятны p1 =1/9.
Опыт b – отгадывание второй цифры: n2=10, события равновероятны p2 =1/10.
a и b – независимые опыты.
I= Ia+ Ib = log2 9+ log2 10 = log2 90 =6,5 бит – 7 вопросов
Пример 6. Имеется 3 тела с одинаковыми внешними размерами, но с разными массами. Необходимо определить энтропию, связанную с нахождением наиболее тяжелого из них, если сравнивать веса тел можно только попарно.
Опыт a – сравнивание веса двух тел, имеет два исхода: А1 – первое тяжелее, А2 – второе тяжелее; события равновероятны p(А1)= p(А2)=0,5.
H (a)= log2 2 = 1 бит.
Опыт b – сравнивание весов тела, выбранного в опыте a, и третьего – имеет четыре исхода: 1) В1 – первое тяжелее третьего; 2) В2 – первое легче третьего (события проверяются при условии наступления события А1); 3) В3 – второе тяжелее третьего; 4) В2 – второе легче третьего (события проверяются при условии наступления события А2). HA1 (b) = log2 2 = 1 бит. HA2 (b) = log2 2 = 1 бит.
Ha (b)=p(А1) HA1 (b) + p(А2) HA2 (b) = 0,5 ×1+0,5×1 = 1 бит.
Энтропия сложного опыта: H(aÙb)=H (a)+Ha (b)= 1+1 = 2 бита.
На семантическом уровне рассматривается смысловое содержание информации и ее соотношение с ранее имевшейся информацией. Для измерения смыслового содержания информации используется тезаурусная мера получателя.
Тезаурус – совокупность сведений, которыми располагает пользователь или система.
Количество смысловой
Относительной мерой количества семантической информации может служить коэффициент содержательности С, который определяется как отношение количества семантической информации к ее объему.
Пример 7. Чему равен коэффициент содержательности информации, если из 100 страниц учебника студенту непонятно 22 страницы, а на 13 страницах находится информация, которая ему была уже известна?
I = 100 страниц, общий объем учебника. Ic = 100-22-13=65страниц семантической информации, которая для студента является новой и понятной, т.е. он может ее понять (интерпретировать).
Коэффициент содержательности информации учебника для этого студента составит: С=65/100=0,65.
В рамках науковедения, в качестве показателя семантической ценности информации, содержащейся в анализируемом документе, принимается количество ссылок на него в других документах.
Данная мера определяет полезность (ценность) информации для достижения пользователем поставленной цели. Одним из первых отечественных ученых к этой проблеме обратился А.А. Харкевич, который предложил принять за меру ценности информации количество информации, необходимое для достижения поставленной цели. Используя формулу (2), можно получить количественную меру прагматической информации:
po – вероятность достижения цели до получения информации;
p1 – вероятность достижения цели после получения информации.
Возможны 3 случая: