Wstęp do teorii informacji: Wykład 1
Transcript of Wstęp do teorii informacji: Wykład 1
Wstęp do teorii informacji: Wykład 1
Marek CzachorKatedra Fizyki Teoretycznej i Metod Matematycznych
Politechnika Gdańska, Narutowicza 11/12, 80–952 Gdańsk, Poland
I. WSTĘP
Są to notatki do semestralnego wykładu z teorii infor-macji, prowadzonego dla studentów IV roku informatykistosowanej WFTiMS. Jesli chodzi o literaturę, to podsta-wowym źródłem jest tu świetna książka [1], wzbogacona owybrane prace oryginalne. W szczególności sięgam miej-scami do artykułów Alfreda Renyi’ego [2]. Za szczególnieinteresującą uważam przedrukowaną w [2] rzadko cyto-waną i słabo znaną pracę [3], gdzie chyba po raz pierwszypojawiło sie pojęcie α-entropii. Notatki te pisane są nabieżąco pod kątem wykładu. Będę je sukcesywnie uaktu-alniał na stronie domowej i wdzięczny będę za wskazy-wanie błędów.
II. MIARA INFORMACJI WEDŁUGHARTLEYA
Pierwsza miara ilości informacji została wprowadzonaw 1928 r. w pracy [4]. Motywacja jest nastepująca. Roz-patrzmy zbiór N -elementowy X = {x1, . . . , xN}. Żebyjednoznacznie określić o który element nam chodzi — wy-starczy podać numer elementu. Jednakże jeżeli desyduje-my się na układ binarny, to wystarczy nam log2N bitów.Oczywiscie nie musimy pracować w systemie binarnym.W systemie dziesiętnym wystarczy nam log10N jedno-stek, itd. W dalszej części wykładu będę zawsze używałbitów, więc symbol „log” oznaczać będzie log2. Tak więcdefiniujemy miarę Hartleya
IHartley(X) = logN. (1)
A. Podstawowa cecha miary Hartleya —addytywność
Rozpatrzmy nastepujące zbiory: zbiór NM -elementowy
X = {x11, . . . , x1M︸ ︷︷ ︸
X1
, . . . , xN1, . . . , xNM︸ ︷︷ ︸
XN
} (2)
oraz zbiór N -elementowy (jest to zbiór, którego elemen-tami są również zbiory)
X = {X1, . . . , XN}. (3)
Wtedy
IHartley(X) = logNM = logN + logM= IHartley(X) + IHartley(X1)...= IHartley(X) + IHartley(XN ).
Tak więc ilość informacji potrzebna do wskazania kon-kretnego elementu xjn ∈ X może być traktowana jako su-ma informacji IHartley(Xj) potrzebnej do zlokalizowaniaelementu xjn, jeżeli wiemy, iż znajduje się on w Xj, orazinformacji potrzbnej do wskazania o który zbiór Xj ∈ Xnam chodzi, czyli IHartley(X). Ceche tę nazywamy addy-tywnością Hartleyowskiej miary informacji.
III. INFORMACJA POTRZEBNA DOCHARAKTERYZACJI ZDARZENIA a
WYSTEPUJĄCEGO ZPRAWDOPODOBIEŃSTWEM p(a)
Definicja Hartleya jawnie wykorzystywała fakt, iż każ-dy ze zbiorówXj miał tyle samo elementów. Rozpatrzmyteraz przypadek ogólniejszy, gdy mamy do czynienia zezbiorem
X = {x11, . . . , x1M1︸ ︷︷ ︸
X1
, . . . , xN1, . . . , xNMN︸ ︷︷ ︸
XN
},
N∑
k=1
Mk = M, (4)
gdzie liczba elementów j-tego zbioru Xj wynosi Mj . Za-łóżmy, podobnie jak to było u Hartleya, iż wszystkie ele-menty xjn ∈ X są równie prawdopodobne. Wtedy
IHartley(X) = logM, (5)
IHartley(Xj) = logMj. (6)
Zakładając addytywność znajdujemy, iż brakująca infor-macja potrzebna do wskazania zbioru Xj wynosi
Ibrak(Xj) = IHartley(X)− IHartley(Xj)= logM − logMj = log(M/Mj)
= − logMj
M1 + · · ·+MN
= − log pj = log1pj, (7)
gdzie
pj = p(Xj) =Mj
M1 + · · ·+MN=MjM
(8)
2
jest prawdopodobieństwem trafienia w zbiór Xj .Oczywiście, jeżeli wszystkie zbiory Xj są równie praw-dopodobne, czyli pj = 1/N , j = 1 . . .N , to
Ibrak(Xj) = log11/N= logN = IHartley(X). (9)
Przyjmiemy więc następującą definicję
Definicja 1.1: Ilością informacji potrzebną do scharak-teryzowania zdarzenia a, którego prawdopodobieństwowynosi p(a), nazywamy liczbę
I(a) = log1p(a). (10)
Uwagi:
(a) Jednostką informacji jest bit.(b) Do charakteryzacji zdarzenia pewnego potrzebaI(p = 1) = 0 bitów informacji.(c) Załóżmy, iż rozpatrujemy dwa zdarzenia: „a” oraz„nieprawda, że a”, które są równie prawdopodobne,p(a) = 1/2. Wtedy do scharakteryzowania zdarzenia awystarcza 1 bit
I(1/2) = log 2 = 1. (11)
Jest to sytuacja, gdy na pytanie a wystarczy odpowie-dzieć „tak” lub „nie” — wiecej informacji nie trzeba.(d) Do charakteryzacji bardzo mało prawdopodobnegozdarzenia trzeba bardzo dużo informacji, gdyż
limp→0I(p) = +∞. (12)
(e) I(p) jest ciągła i różniczkowalna na przedziale le-wostronnie otwartym i prawostronnie domkniętym ]0, 1].(f) Ilość informacji potrzebna do charakteryzacjidwóch zdarzeń niezależnych jest sumą informacji po-trzebnych do charakteryzacji każdego z tych zdarzeń zosobna. Rzeczywiście, rozpatrzmy dwa niezależne zdarze-nia a, b, zachodzące — odpowiednio — z prawdopodo-bieństwami p oraz q. Zdarzenie polegające na koniunkcji„a i b” zachodzi z prawdopodobieństwem pq. Więc
I(pq) = − log(pq) = − log(p)− log(q) = I(p) + I(q).(13)
(g) Co ciekawe, zachodzi takie „odwrotne”
Twierdzenie 1.1: Niech I(p) jest różniczkowalna na]0, 1], oraz
I(1/2) = 1, (14)I(pq) = I(p) + I(q). (15)
Wtedy I(p) = − log p.Dowód : Z addytywności wynika, iż dla dowolnego 0 ¬ε ¬ 1
I(p(1− ε)
)= I(p) + I(1− ε), (16)
skąd
I(p− εp)− I(p)ε
=I(1− ε)ε. (17)
Z drugiej strony
limε→0
I(p− εp)− I(p)ε
= −pI ′(p). (18)
Ponieważ z założenia I(p) jest ciągła w p = 1, więcpochodna I ′(p) musi być skończona w p = 1, I ′(1) =C 6= ±∞. Stąd oraz z (17)–(18) wynika przy okazji, żeI(1) = 0. Całkując równanie
−pI ′(p) = C (19)
znajdujemy
I(p)− I(1) = I(p) = −C∫ p
1
dp
p
= −C ln p. (20)
Z założenia
I(1/2) = −C ln(1/2) = C ln 2 = 1. (21)
Wykorzystując wzór na zmianę podstawy logarytmu,logb x = logb a loga x, znajdujemy
I(p) = −C ln p = −1ln 2ln p
= −1ln 2ln 2 log p = − log p, (22)
co należało pokazać.�
IV. ENTROPIA SHANNONA
Definicja 1.2: Średnią ilość informacji związaną z roz-kładem prawdopodobieństwa p(a) zmiennej losowej A(przyjmującej wartości a), czyli liczbę
H(A) =∑
a
p(a)I(a)
=∑
a
p(a) log1p(a)= −∑
a
p(a) log p(a) (23)
nazywamy entropią Shannona. �Entropia Shannona została wprowadzona w pracy [5].
Przykłady:
(a) Rozpatrzmy zmienną losową A przyjmujacą warto-ści ze zbioru
X = {a1, . . . , a32}.
Do jednoznacznego wskazania konkretnego elementuaj ∈ X wystarcza 5 bitów. Załóżmy, iż wartości aj sąrównie prawdopodobne:
p(a1) = · · · = p(a32) = 1/32. (24)
Średnia ilość informacji, czyli entropia Shannona, wynosi
H(A) = −32∑
j=1
p(aj) log p(aj) = −32∑
j=1
132log132
= log 32 = 5 bitów.
3
(b) Rozpatrzmy wyścig z udziałem 8 koni, o imionachnależących do zbioru
X = {K1, . . . ,K8}.
Załóżmy, iż odpowiednie prawdopodobieństwa zwycię-stwa w wyścigu wynoszą
{p(K1), . . . , p(K8)} = { 12 ,14, 18, 116, 164, 164, 164, 164}.
Entropia Shannona
H(K) = − 12log 12− 14log 14− 18log 18− 116log 116
−4 164log 164= 2bity.
Jeżeli zawody są wielokrotnie powtarzane i chcemy prze-syłać komuś informacje o wynikach, to na dłuższą metęopłaca się bardziej prawdopodobne wyniki kodować przypomocy krótszych ciągów znaków, za cenę wydłużeniaopisu zdarzeń mniej prawdopodobnych. H(K) = 2 su-geruje, iż istnieje taki system, iż średnia liczba bitów najedną wiadomość wyniesie 2 a nie log 8 = 3. Kod, któ-ry dokładnie odtwarza średnią ilość bitów = 2 powinienmieć następujące ilości bitów na konkretnego konia:
K1 ↔ 1 bit,
K2 ↔ 2 bity,K3 ↔ 3 bity,K4 ↔ 4 bity,
K5 ↔ 6 bitów,K6 ↔ 6 bitów,K7 ↔ 6 bitów,
K8 ↔ 6 bitów.
Średnia długość tekstu wynosi teraz nie 3 bity, ale
12· 1 + 1
4· 2 + 1
8· 3 + 1
16· 4 + 4 1
64· 6 = 2 bity. (25)
Przykładem takiego kodu jest
K1 ↔ 0K2 ↔ 10,
K3 ↔ 110,K4 ↔ 1110,
K5 ↔ 111100,K6 ↔ 111101,K7 ↔ 111110,
K8 ↔ 111111.
W dalszej części wykładu dowiemy się, jakie są związkipomiędzy entropią Shannona a optymalnym kodowanieminformacji. Tutaj dodajmy tylko, iż istotnym elementemkodowania jest jednoznaczność podziału tekstu na słowai dlatego powyższy kod zaczyna się od słów 0, 10, a nienp. 0, 1.
[1] T. M. Cover, J. A. Thomas, Elements of Information The-ory (Wiley, New York, 1991).
[2] A. Renyi, Selected papers of Alfred Renyi (Akademiai Kia-dó, Budapest, 1976).
[3] A. Renyi, „Some fundamental questions of informationtheory”, MTA III. Oszt. Kozl. 10, 251–282 (1960).
[4] R. V. Hartley, „Transmission of information”, Bell SystemTechnical Journal 7, 535–563 (1928).
[5] C. E. Shannon, „A mathematical theory of communica-tion”, Bell System Technical Journal 27, 379–423, 623–653(1948).