Энтропия. Теория информации
Категория реферата: Рефераты по физике
Теги реферата: урок изложение, конспект урока 3
Добавил(а) на сайт: Iustin.
Предыдущая страница реферата | 2 3 4 5 6 7 8 9 10 11 12 | Следующая страница реферата
N - число возможных (ожидаемых) сообщений.
Для учета различной степени неожиданности (вероятности) сообщений
К.Шеннон предложил использовать заимствованную из статистической физики
вероятностную функцию энтропии, приведенную к виду (1.13)
В случае равной вероятности появления любой из N букв алфавита
выполняется условие:
|Pа = Pб = Pв = … = Pя = 1/N |(2.2) |
В результате подстановки (2.2) в (2.1) и с учетом того, что:
- log1/N = + log N
получаем :
|H = – (|1|log|1|)=log N |(2.3) |
| |N| |N| | |
Сопоставляя (2.1) и (2.3), приходим к выводу, что количество информации, вычисляемое по формуле Хартли, соответствует устранению неопределенности Н при получении сообщения об одной из букв алфавита, при условии равной вероятности появления любой из букв (условие 2.2).
При равных вероятностях появления всех букв алфавита текст становится
наиболее хаотичным. Подсчитанная по формуле (2.3) величина информационной
энтропии достигает максимальной величины :
|Hmax = log N |(2.4) |
За единицу количества информации принята величина информации, содержащейся в сообщении об одном из двух равновероятных событий.
До получения сообщения выполняются условия :
|P1 = P2 = |1 |= |1 | |(2.5) |
| |N | |2 | | |
При подстановке (2.5) в (1.13) получаем :
|H = (Ѕ log2 Ѕ + Ѕ log2 Ѕ) = + log2 2 = 1 bit | |
Наименование «бит» (“bit”) происходит от сокращения английских слов
«двоичная единица» (binary unit).
В реальных текстах появлению разных букв соответствуют разные
вероятности. Так, например, для русских текстов вероятность появления буквы
"О" в 30 раз превышает вероятность появления буквы «Щ» или «Э» (Ро= 0,09;
Рщ= Рэ= 0,003).
При подстановке в формулу (1.13) реальных значений вероятностей букв русского текста величина реальной информационной энтропии Нr уменьшается по сравнению с максимальной энтропией, определяемой выражением (2.4).
Разность между величиной максимальной энтропии Нmax и реальной
энтропии Нr соответствует количеству избыточной (предсказуемой ) информации
In.
Таким образом:
|In = Hmax – Hr |(2.6) |
Учет реальных значений вероятностей букв при передаче письменных текстов позволяет уменьшить избыточность сообщений, передаваемых по каналам связи. Так, например, для избавления от избыточности используется способ кодирования букв алфавита, при котором часто повторяющимся в тексте буквам
(т.е. буквам, имеющим наибольшую вероятность, такую, например, как Ра =
=0,062; Рв = 0,038 ; Ре = 0,072 ; Рл = 0,035 ; Ро = 0,09 и др.)
соответствуют или меньшая трата энергии за счет уменьшения величины
(амплитуды) сигналов или, увеличенная скорость передачи за счет сокращения
числа знаков двоичного кода, соответствующего обозначению указанных букв.
Помимо учета реальных вероятностей букв, для уменьшения избыточности сообщений следует учитывать также вероятности их сочетаний (например, высокую вероятность появления буквы Я после переданного сочетания ТЬС , малую вероятность появления согласной буквы после передачи следующих друг за другом трех согласных букв и т.п.).
Таблица 1
|Способ формирования |№№|"Фразы", полученные на |Статистические |
|«фраз» |пп|основе статистических |характеристики фраз |
| | |свойств русского языка | |
| | | |Нr (бит) |( Is (бит ) |
|При равной |1 |СУХРРОБЬТ |5,0 |0,0 |
|вероятности всех | |ЯИХВЩИЮАЙЖТЛ-ФВНЗАГФОЕВШТТЦ| | |
|букв | |РПХГРКУ -ЧЖОРЯПЧЬКЙХРЫС | | |
|При учете реальных | | | | |
|вероятностей : | | | | |
|отдельных букв 3-х -|2 |ЕЫНТ ЦИЯЬА СЕРВ ОДНГ |4,3 |0,7 |
|буквенных сочетаний | |ЬУЕМЛОЙК ЭБЯ ЕНВТША ПОКАК | | |
| | |ПОТ ДУРНОСКАКА НАКОНЕПНО | | |
| | |SHE СТВО - | | |
| |3 |ЛОВИЛ СЕ ТВОЙ ОБНИЛ Ь |3,5 |1.5 |
|4-х - буквенных |4 |ВЕСЕЛ ВРАТЬСЯ НЕ СУХОМ И |2,9 |2,1 |
|сочетаний | |НЕПО И КОРКО | | |
|8-ми - буквенных | | |1,8 |3.2 |
|сочетаний | | | | |
|Выборка из реального|5 |ПРИСВОИВ ДВОИЧНЫЕ НОМЕРА |1,0 |4,0 |
|текста | |БУКВАМ АЛФАВИТА, МОЖНО | | |
| | |ПВРЕВРАТИТЬ ЛЮБОЙ ТЕКСТ В | | |
| | |ЧЕРЕДОВАНИЕ ЕДИНИЦ И НУЛЕЙ | | |
|При РА = 1; | |АААА. . |0,0 |5,0 |
|РБ-Рв-.-.-Ря = О | | | | |
В результате взаимной корреляции букв в употребляемых в текстах
буквенных сочетаний происходит дополнительное уменьшение определяемой
выражением (1.13) реальной энтропии Нr по сравнению с определяемой
выражением (2.4) максимальной энтропии Нmax. Подстановка значения Нr, вычисленного с учетом взаимной корреляции букв, в выражение (2.6) дает
дополнительное увеличение численного значения избыточной информации In
(таблица 1). Указанные свойства письменных текстов наглядно иллюстрируются
таблицей искусственных текстов, полученных путем случайных выборок из
реальных текстов отдельных букв или их сочетаний. Вместе с тем, указанная
таблица показывает, что вместе с увеличением избыточности увеличивается и
упорядо ченность (детерминация) текста, достигая в пределе «жесткой
детерминации», при которой текст вырождается в повторение одинаковых букв.
Такая взаимосвязь между избыточностью и упорядоченностью текста
обусловлена тем, что избыточность текста обусловлена действием
грамматических и фонетических правил. Именно этими правилами обусловлена
присущая тексту структурность, следовательно, вычисляемое согласно (2.6)
количество избыточной информации In является одновременно и количеством
информации, сохраняемой в упорядоченой структуре текста или любых других
структурированных систем :
|( IS = Hmax – Hr |(2.7) |
Для уяснения смысла равенства In = ( IS, вытекающего из сопоставления выражений (2.6) и (2.7), рассмотрим следующий пример.
Некто получил сообщение, что из яйца вылупился птенец. Для подтверждения того, что это именно птенец, а не малек, сообщается, что у него не плавники, а крылья, не жабры, а легкие и т.п. Разумеется, все это не будет избыточной информацией In для всякого, кто знает, чем отличается птенец от малька.
Но та же самая информация о крыльях, легких, клюве и т.п., заложенная
в генетический код, регулирует процесс онтогенеза, в результате которого в
яйце формируется организм птенца, а не малька. Таким образом, информация
In, избыточная для осведомленного получателя, оказывается необходимой
структурной информацией ( IS, когда речь идет об информационном управлении
процессами формирования тех или иных упорядоченных структур. Вследствие
этого и выполняется условие :
|In = ( IS = Hmax – Hr |(2.8) |
Рекомендуем скачать другие рефераты по теме: реферат сила, культурология как наука.
Предыдущая страница реферата | 2 3 4 5 6 7 8 9 10 11 12 | Следующая страница реферата