1.3. КОЛИЧЕСТВО ИНФОРМАЦИИ. МЕТОДЫ ОЦЕНКИ

Для того чтобы оценить и измерить количество информации в соответствии с вышеизложенными аспектами, применяются раз­личные подходы. Среди них выделяются статистический, семан­тический, прагматический и структурный. Исторически наиболь­шее развитие получил статистический подход.

Статистический подход изучается в разделе кибернетики, называемом теорией информации. Его основоположником счи­тается К. Шеннон, опубликовавший в 1948 г. свою математичес­кую теорию связи. Большой вклад в теорию информации до него внесли ученые Найквист и Хартли. В 1924 и 1928 гг. они опубли­ковали работы по теории телеграфии и передаче информации. Признаны во всем мире исследования по теории информации российских ученых А.Н. Колмогорова, А.Я. Хинчина, В.А. Ко- тельникова, А. А. Харкевича и др.

К. Шенноном [37] было введено понятие количество информа­ции как меры неопределенности состояния системы, снимаемой при получении информации. Количественно выраженная неопределен­ность состояния получила название энтропии по аналогии с подоб­ным понятием в статистической механике. При получении инфор­мации уменьшается неопределенность, т. е. энтропия, системы. Оче­видно, что чем больше информации получает наблюдатель, тем больше снимается неопределенность, и энтропия системы уменьша­ется. При энтропии, равной нулю, о системе имеется полная инфор­мация, и наблюдателю она представляется целиком упорядоченной. Таким образом, получение информации связано с изменением сте­пени неосведомленности получателя о состоянии этой системы.

До получения информации ее получатель мог иметь некоторые предварительные (априорные) сведения о системе X. Оставшаяся нео­сведомленность и является для него мерой неопределенности состоя­ния (энтропией) системы. Обозначим априорную энтропию системы Xчерез Н(Х). После получения некоторого сообщения наблюдатель приобрел дополнительную информацию уменьшившую его на­чальную неосведомленность так, что апостериорная (после получе­ния информации) неопределенность состояния системы стала Тогда количество информации / может быть определено как

Другими словами, количество информации измеряется умень­шением (изменением) неопределенности состояния системы.

Если апостериорная энтропия системы обратится в нуль, то первоначально неполное знание заменится полным знанием и количество информации, полученной в этом случае наблюдате­лем, будет таково: т.е. энтропия системы может рассматриваться как мера недоста­ющей информации.

Если система X обладает дискретными состояниями (т.е. пе­реходит из состояния в состояние скачком), их количество равно N а вероятность нахождения системы в каждом из состояний Р\ N

Ръ Рз, ■■■> Р.^ (причем = 1 и Р, < 1), то согласно теореме Шен- ¥

Р% Ръ, -••,/)А(причем = 1 и Р, < 1), то согласно теореме Шен­нона энтропия системы ЩХ) равна:

щл-) = -л'02>,1оё„/;,

г=1

Здесь коэффициент А^о и основание логарифма а определяют систему единиц измерения количества информации. Логарифми­ческая мера информации была предложена Хартли для представ­ления технических параметров систем связи как более удобная и более близкая к восприятию человеком, привыкшим к линейным сравнениям с принятыми эталонами. Например, каждый чувству­ет, что две однотипные дискеты должны обладать вдвое большей емкостью, чем одна, а два идентичных канала связи должны иметь удвоенную пропускную способность [37].

Знак «минус» перед коэффициентом Ко поставлен для того, чтобы значение энтропии было положительным, так как Р1 < 1 и логарифм в этом случае отрицательный.

Если все состояния системы равновероятны, т.е. Р^ = —, ее энтропия рассчитывается по формуле

Энтропия Н обладает рядом свойств; укажем два из них:

1) Н = О только тогда, когда все вероятности кроме од­ной, равны нулю, а эта единственная вероятность равна единице. Таким образом, Н = О только в случае полной определенности состояния системы;

2) при заданном числе состояний системы N величина Н мак­симальна и равна      Ы, когда все Р1 равны.

Определим единицы измерения количества информации с по­мощью выражения для энтропии системы с равновероятными состояниями.

Пусть система имеет два равновероятных состояния, т.е. N - 2. Будем считать, что снятие неопределенности о состоянии такой системы дает одну единицу информации, так как при полном сня­тии неопределенности энтропия количественно равна информа­ции Н = I. Тогда

Очевидно, что правая часть равенства будет тождественно равна единице информации, если принять Ко = 1 и основание ло­гарифма а = 2. В общем случае при N равновероятных состояний количество информации будет такова:

Эта формула получила название формулы Хартли и показы­вает, что количество информации, необходимое для снятия нео­пределенности о системе с равновероятными состояниями, зави­сит лишь от количества этих состояний.

Информация о состояниях системы передается получателю в виде сообщений, которые могут быть представлены в различной синтаксической форме, например в виде кодовых комбинаций, использующих т различных символов и п разрядов, в каждом из которых может находиться любой из символов. Если код не из­быточен, то каждая кодовая комбинация отображает одно из состояний системы. Количество кодовых комбинаций будет

Подставив это выражение в формулу для /, получим:

Если код двоичный, т.е. используется лишь два символа (0 и 1), то т - 2 и / = п.

В этом случае количество информации в сообщении составит п двоичных единиц. Эти единицы называют битами (от англ. Binary digit (bit) — двоичная цифра).

При использовании в качестве основания логарифма числа 10 единицы измерения информации могут быть десятичными, или

дитами. Так как log2^ = log^N/logjo2 = 3,32logjq^, то десятич­ная единица составляет примерно 3,33 бита.

Иногда удобно применять натуральное основание логариф­ма е. В этом случае получающиеся единицы информации называ­ются натуральными или натами. Переход от основания а к осно­ванию b требует лишь умножения на log ^ a.

Введенная количественная статистическая мера информации широко используется в теории информации для оценки собствен­ной, взаимной, условной и других видов информации. Рассмот­рим в качестве примера собственную информацию. Под собствен­ной информацией будем понимать информацию, содержащуюся в данном конкретном сообщении. А конкретное сообщение, как указывалось, дает получателю информацию о возможности су­ществования конкретного состояния системы. Тогда количество собственной информации, содержащееся в сообщении Xj, опре­деляется как

Собственная информация обладает следующими свойствами:

1)   собственная информация неотрицательна;

2)    чем меньше вероятность возникновения сообщения, тем больше информации оно содержит. Именно поэтому неожидан­ные сообщения так воздействуют на психику человека, что со­держащееся в них большое количество информации создает ин­формационный психологический удар, иногда приводящий к тра­гическим последствиям;

3)   если сообщение имеет вероятность возникновения, равную единице, то информация, содержащаяся в нем, равна нулю, так как заранее известно, что может прийти только это сообщение, а значит, ничего нового потребитель информации не получает;

2-1909

4) собственной информации присуще свойство аддитивнос­ти, т.е. количество собственной информации нескольких незави­симых сообщений равно сумме собственной информации сооб­щений. Например, для собственной информации двух сообще­ний и может быть записано:

Следует еще раз отметить, что статистический подход к коли­чественной оценке информации был рассмотрен для дискретных систем, случайным образом переходящих из состояния в состоя­ние, и, следовательно, сообщение об этих состояниях также воз­никает случайным образом. Кроме                                                       статистический метод определения количества информации практически не учитывает семантического и прагматического аспектов информации.

Семантический подход определения количества информации является наиболее трудно формализуемым и до сих пор оконча­тельно не определившимся.

Наибольшее признание для измерения смыслового содер­жания информации получила  мера, предложенная Ю.И. Шнейдером. Идеи тезаурусного метода были сформулиро­ваны еще основоположником кибернетики Н. Винером. Для по­нимания и использования информации ее получатель должен об­ладать определенным запасом знаний.

Если индивидуальный тезаурус потребителя отражает его знания о данном предмете, то количество смысловой информа­ции /с, содержащееся в некотором сообщении, можно оценить степенью изменения этого тезауруса, произошедшего под воздей­ствием данного сообщения. Очевидно, что количество информа­ции нелинейно зависит от состояния индивидуального тезау­руса пользователя, и хотя смысловое содержание сообщения постоянно, пользователи, имеющие различные тезаурусы, будут получать неодинаковое количество информации. В самом деле, если индивидуальный тезаурус получателя информации близок к нулю (^п ~ 0), то в этом случае и количество воспринятой инфор­мации равно нулю: /с = 0.

Иными словами, получатель не понимает принятого сообще­ния и, как следствие, для него количество воспринятой информа­ции равно нулю. Такая ситуация эквивалентна прослушиванию сообщения на неизвестном иностранном языке. Несомненно, со­

общение не лишено смысла, однако оно непонятно, а значит, не имеет информативности.

Количество семантической информации /с В сообщении так­же будет равно нулю, если пользователь информации абсолютно все знает о предмете, т.е. его тезаурус £п и сообщение не дают ему ничего нового.

Интуитивно мы чувствуем, что между этими полярными зна­чениями тезауруса пользователя существует некоторое оптималь­ное значение ^п0пт> ПРИ котором количество информации /с, извлекаемое из сообщения, становится для получателя максималь­ным. Эта функция зависимости количества информации Iq от состояния индивидуального тезауруса пользователя приведе­на на рис. 1.4.

Тезаурусный метод подтверждает тезис о том, что информа­ция обладает свойством относительности и имеет, таким образом, относительную, субъективную ценность. Для того чтобы объек­тивно оценивать научную информацию, появилось понятие обще­человеческого тезауруса, степень изменения которого и определя­ла бы значительность получаемых человечеством новых знаний.

S = const

Рис. 1.4. Кривая функции Ic-f(Sn)

Прагматический подход определяет количество информации как меры, способствующей достижению поставленной цели. Од­ной из первых работ, реализующей этот подход, явилась статья А.А. Харкевича. В ней он предлагал принять за меру ценности

информации количество информации, необходимое для достиже­ния поставленной цели. Этот подход базируется на статистичес­кой теории Шеннона и рассматривает количество информации как приращение вероятности достижения цели. Так, если принять вероятность достижения цели до получения информации равной Ро, а после ее получения Р\, прагматическое количество инфор­мации определяется как

Если основание логарифма сделать равным двум, то /п будет измеряться в битах, как и при статистическом подходе.

При оценке количества информации в семантическом и праг­матическом аспектах необходимо учитывать и временную зави­симость информации. Дело в том, что информация, особенно в системах управления экономическими объектами, имеет свойство стареть, т.е. ее ценность со временем падает, и важно использо­вать ее в момент наибольшей ценности.

Структурный подход связан с проблемами хранения, реорга­низации и извлечения информации и по мере увеличения объе­мов накапливаемой в компьютерах информации приобретает все большее значение.

При структурном подходе абстрагируются от субъективности, относительной ценности информации и рассматривают логические и физические структуры организации информации. С изобретени­ем компьютеров появилась возможность хранить на машинных носителях громадные объемы информации. Но для ее эффективно­го использования необходимо определить такие структуры органи­зации информации, чтобы существовала возможность быстрого поиска, извлечения, записи, модификации информационной базы.

При машинном хранении структурной единицей информации является один байт, содержащий восемь бит (двоичных единиц ин­формации). Менее определенной, но также переводимой в байты яв­ляется неделимая единица экономической информации — реквизит.

Реквизиты объединяются в показатели, показатели — в запи­си, записи — в массивы, из массивов создаются комплексы масси­вов, а из комплексов — информационные базы. Структурная тео­рия позволяет на логическом уровне определить оптимальную структуру информационной базы, которая затем с помощью

ределенных средств реализуется на физическом уровне — уровне технических устройств хранения информации. От выбранной структуры хранения зависит такой важный параметр, как время доступа к данным, т.е. структура влияет на время записи и счи­тывания информации, а значит, и на время создания и реоргани­зации информационной базы.

Информационная база совместно с системой управления ба­зой данных (СУБД) формирует автоматизированный банк данных.

Значение структурной теории информации растет при пере­ходе от банков данных к банкам знаний, в которых информация подвергается еще более высокой степени структуризации.

После преобразования информации в машинную форму ее ана­литический и прагматический аспекты как бы уходят в тень, и даль­нейшая обработка информации происходит по "машинным зако­нам", одинаковым для информации любого смыслового содержания. Информация в машинном виде, т. е. в форме электри­ческих, магнитных и тому подобных сигналов и состояний, носит название данных. Для того чтобы понять их смысловое содержание, необходимо данные снова преобразовать в информацию (рис. 1.5).

Рис. 1.5. Схема преобразования «информация — данные»


Преобразования "информация — данные" производятся в устройствах ввода-вывода ЭВМ.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47  Наверх ↑