Измерение информации

Автор работы: Пользователь скрыл имя, 08 Февраля 2014 в 18:13, лекция

Описание работы

1. Меры информации синтаксического уровня
2. Меры информации семантического уровня
3. Меры информации прагматического уровня

Файлы: 1 файл

Тема 2_Измерение информации.doc

— 436.50 Кб (Скачать файл)

Информатика. Тема 2

Тема 2. Измерение  информации

1. Меры информации синтаксического уровня

Для измерения информации на синтаксическом уровне вводятся два параметра: объем  информации (данных) – объемный подход и количество информации – статистический поход.

Объемный подход

Проблемы синтаксического уровня связаны со способом представления  информации (в виде знаков и символов), вне зависимости от ее смысловых  и потребительских качеств. На данном уровне рассматриваются формы представления информации для ее передачи и хранения.  Информацию, рассмотренную только относительно синтаксического аспекта, называют данными.

Данными называют  факты, сведения, представленные в формализованном виде (закодированные), занесенные на носители информации и допускающие обработку с помощью средств вычислительной техники.

При реализации информационных процессов  информация передается в виде сообщения, представляющего собой совокупность символов некоторого алфавита. При этом каждый новый символ в сообщении увеличивает количество информации, представленной последовательностью символов данного алфавита.

Если считать что появление различных символов равновероятно, то можно рассчитать, какое количество информации несет каждый символ сообщения, передаваемого или хранимого при помощи технических устройств.

Информационная емкость символа (I), т.е. количество информации, которое несет один знак, зависит от количества символов в алфавите (N):

I = log2 N

Мощность  алфавита (N) – это количество различных символов, которые можно получить с помощью кодовой цепочки, состоящей из I битов (бит может принимать значения 0 или 1).

N=2I

Количество информации, которое содержит сообщение (V), закодированное с помощью знаковой системы, равно произведению количества информации, которое несет один знак (I), на количество знаков в сообщении (n).

V=I×n

В компьютерных системах для кодирования информации используется двоичный код, который состоит из 2-х символов 0 и 1. В современной вычислительной технике для любого вида информации, представленной в электронном виде, приняты универсальные единицы измерения  – бит и байт.

Бит – единица информации в компьютере, представляющая собой, двоичный разряд, который может принимать значение 0 или 1.

Байт - восемь последовательных битов. Более крупными единицами информации являются:

1Килобайт (Кбайт) = 210 байт =1024 байта;

1 Мегабайт (Мбайт) =220 байт =1024 Кбайта = 1 048 576 байт;

1 Гигабайт (Гбайт) =230 байта =1024 Мбайта = 1 073 741 824 байт

1 Терабайт (Тбайт) =240 байта =1024 Гбайта  = 1 099 511 627 776 байт

1 Петабайт (Пбайт) =250 байта =1024 Тбайта = 1 125 899 906 842 624 байт

Пример 1. В текстовом файле хранится текст объемом в 400 страниц. Каждая страница содержит 3200 символов. Каков будет размер файла, если используется кодировка КОИ-8 (8 бит на 1 символ).

Решение.

Страница содержит 3200 байт информации, т.к. каждый символ представлен 1 байтом (8 бит), то 400 страниц содержит 400×3200=1280000 байт, или 1280000 байт=1280000/1024 =1250 Кбайт.

 Статистический подход

Количественно выраженная неопределенность состояния системы получила название энтропия. Чем больше информации получает наблюдатель, тем больше снимается неопределенность, и энтропия системы уменьшается. Если энтропия, равна нулю, то о системе имеется полная  информация, и наблюдателю она представляется целиком упорядоченной.

До получения информации наблюдатель  имеет некоторые предварительные  сведения о системе Х. Оставшаяся неосведомленность является мерой неопределенности состояния системы или априорная энтропия системы H(X). После получения некоторого сообщения наблюдатель приобрел дополнительную информацию I(X), уменьшившую его начальную неосведомленность так, что  апостериорная энтропия системы стала H'(X).

Тогда количество информации I:

I(X)=H(X)-H'(X).                      (1)

Количество информации измеряется уменьшением (изменением) неопределенности состояния системы.

Американский инженер Р.Хартли (1928) процесс получения информации рассматривал как выбор одного сообщения  из конечного заранее заданного  множества, состоящего из n равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определил как двоичный логарифм n.

I = log2 n.                             (2)

За основание логарифма принято  брать 2, так как в этом случае за единицу измерения принимается неопределенность, содержащаяся в опыте, имеющем лишь два равновероятных исхода, которые можно обозначить ИСТИНА и ЛОЖЬ и использовать для анализа таких событий аппарат математической логики. Количество информации численно равно числу вопросов с равновероятными бинарными вариантами ответов, которые необходимо задать, чтобы полностью снять неопределенность задачи.

Пример 2. Некто задумал целое число в пределах от 1 до 4. Опыт состоит в угадывании этого числа. На вопросы Некто может отвечать лишь «Да» и «Нет». Какое количество информации должны получить, чтобы узнать задуманное число? Как построить процесс угадывания?

Решение.

Количество исходов угадывания n=4, причем, все они равновероятны, можно применить формулу 2:  I =  log2 4=2 бита.

x>2? Да. x>3?          Да.   x=4           Нет. x=3

        Нет. x>1?          Да. x = 2          Нет. x= 1.

Правильная стратегия угадывания состоит в том, что вопросы  нужно задавать так, чтобы количество возможных вариантов каждый раз уменьшалось вдвое. Тогда количество возможных событий в каждом из полученных подмножеств будет одинаково и их отгадывание равновероятно. В этом случае на каждом шаге ответ будет нести максимальное количество информации (1 бит).

Информация по формуле (1) равна  убыли энтропии. В частном случае, если изначально равновероятных исходов было n1, а в результате передачи информации I неопределенность уменьшилась, и число исходов стало n2 (очевидно, n1≤ n2), то можно получить:

I=log2n1–log2n2=log2 n1/ n2.   (3)

Пример 3. В университет можно добраться на автобусе, троллейбусе, трамвае и маршрутном такси равновероятными способами. Какое количество информации получено, если по радио сообщили, что в городе забастовка водителей трамваев?

Решение.

n1=4; n2 =3; то по формуле (3), получим: I=log24 – log23 = log2 4/3= log2 1,33 » 0,42 бита.

В отличие от объемного подхода, в статистическом подходе биты могут  принимать дробные значения.

Информация – это содержание сообщения, понижающего неопределенность некоторого опыта с неоднозначным исходом; убыль связанной с ним энтропии является количественной мерой информации. Максимальное количество информации, которое можно извлечь из опыта численно равно энтропии.

Неопределенность, вносимая каждым из n равновероятных исходов, равна: H = log2 n. Пусть p – вероятность любого из отдельных равновероятных исходов опыта тогда   энтропия, связанная с каждым исходом составит  H=-p log2 p. Американский ученый Клод Шенон обобщил понятие меры неопределенности выбора энтропии H, на случай когда энтропия зависит не только от числа состояний, но и от вероятностей этих состояний.

Если система X обладает дискретными состояниями, их количество равно n, а вероятности нахождения в каждом из состояний p(A1), p(A2) ,…, p(An), то энтропия система H(X) равна:

           (4)

Энтропия является мерой неопределенности опыта, в котором появляются случайные события, и равна средней неопределенности всех возможных его исходов.

Пример 4. Имеются  ящик, в  котором 12 шаров. 3 белых, 3 черных и 6 красных. Опыт состоит в вытаскивании одного шара из ящика. Найти энтропию извлечения?

Решение.

n=3, A1 – вытащили белый шар; A2 – вытащили черный шар; A3 – вытащили красный шар;

A1 и    A2 – события равновероятны p(А1)= p (А2 )=3/12=1/4=0,25; 

p ( А3 )=6/12=1/2.

I=–0,25 log2 0,25–0,25 log2 0,25–0,5 log2 0,5 = 1,5 бит.

Свойства энтропии

  1. H=0 в двух случаях:
    1. Какая-либо из P(Aj)=1, следовательно, все остальные P(Ai)=0 (i ¹ j), т.е. реализуется ситуация, когда один из исходов является достоверным и общий итог опыта перестает быть случайным;
    2. Все P(Ai)=0, т.е. никакие из рассматриваемых исходов опыта невозможны.
  2. Для двух независимых опытов a и b: H(aÙb)=H(a)+H(b).
  3. Для двух зависимых опытов a и b: H(aÙb)=H(a)+Ha(b), где    если в опыте a реализовалось событие Ai, то среднюю условную энтропию опыта b при условии выполнения опыта a можно найти по формуле:

 

Пример 5. Какое количество информации требуется для отгадывания двухзначного числа. Каково минимальное число вопросов при отгадывании двухзначного числа? 

Решение.

Опыт a – отгадывание первой цифры: n1=9, события равновероятны p1 =1/9.

Опыт b – отгадывание второй цифры: n2=10, события равновероятны p2 =1/10.

a  и b – независимые опыты.

I= Ia+ Ib = log2 9+ log2 10 = log2 90 =6,5 бит – 7 вопросов

Пример 6.  Имеется 3 тела с одинаковыми внешними размерами, но с разными массами. Необходимо определить энтропию, связанную с нахождением наиболее тяжелого из них, если сравнивать веса тел можно только попарно. 

Решение.

Опыт a – сравнивание веса двух тел, имеет два исхода: А1 – первое тяжелее, А2 – второе тяжелее; события равновероятны p(А1)= p(А2)=0,5.

H (a)= log2 2 = 1 бит.

Опыт b – сравнивание весов тела, выбранного в опыте a, и третьего – имеет четыре исхода: 1) В1 – первое тяжелее третьего; 2) В2 – первое легче третьего (события проверяются при условии наступления события А1); 3) В3 – второе тяжелее третьего; 4) В2 – второе легче третьего (события проверяются при условии наступления события А2).  HA1 (b) = log2 2 = 1 бит. HA2 (b) = log2 2 = 1 бит.

Ha (b)=p(А1) HA1 (b) + p(А2) HA2 (b) = 0,5 ×1+0,5×1 = 1 бит.

Энтропия сложного опыта: H(aÙb)=H (a)+Ha (b)= 1+1 = 2 бита.

2. Меры  информации семантического уровня

На семантическом уровне рассматривается смысловое содержание информации и ее соотношение с ранее имевшейся информацией. Для измерения смыслового содержания информации используется тезаурусная мера получателя.

Тезаурус – совокупность сведений, которыми располагает пользователь или система.

Количество смысловой информации Ic, содержащееся в некотором сообщении, можно оценить степенью изменения тезауруса получателя, произошедшего под воздействием данного сообщения. Количество смысловой информации нелинейно зависит от состояния индивидуального тезауруса получателя, и хотя смысловое содержание сообщения постоянно, пользователи, имеющие отличающиеся тезаурусы, будут получать неодинаковое количество информации. При тезаурусе близком к нулю, количество воспринятой информации равно нулю – информация непонятна получателю. При высоком тезаурусе (пользователь информации абсолютно все знает о предмете), семантическое количество информации также равно нулю, т.к. сообщение не дает ему ничего нового. Оптимальное значение тезауруса – это значение, при котором количество воспринимаемой информации, извлекаемое из сообщения,  становится максимальным для получателя (вся информация является понятной получателю, и ранее неизвестной).

Относительной мерой количества семантической  информации может служить коэффициент содержательности С, который определяется как отношение количества семантической информации к ее объему.

Пример 7.  Чему равен коэффициент содержательности информации, если из 100 страниц учебника студенту непонятно 22 страницы, а на 13 страницах находится информация, которая ему была уже известна? 

Решение.

 I = 100 страниц, общий объем учебника. Ic = 100-22-13=65страниц семантической информации, которая для студента является новой и понятной, т.е. он может ее понять (интерпретировать).

Коэффициент содержательности информации учебника для этого студента составит: С=65/100=0,65.

В рамках науковедения, в качестве показателя семантической ценности информации, содержащейся в анализируемом документе, принимается количество ссылок на него в других документах.

3. Меры  информации прагматического уровня

Данная мера определяет полезность (ценность) информации для достижения пользователем поставленной цели. Одним из первых отечественных ученых к этой проблеме обратился А.А. Харкевич, который предложил принять за меру ценности информации количество информации, необходимое для достижения поставленной цели. Используя формулу (2), можно получить количественную меру прагматической информации:


po – вероятность достижения цели до получения информации;

p1 – вероятность достижения цели после получения информации.

 

Возможны 3 случая:

        1. p1> p0, Iп>0 – количество информации положительно – полезная информация.
        2. p1=p0, Iп=0 – нулевое количество информации – бесполезная информация.

Информация о работе Измерение информации