Wstęp do teorii informacji: Wykład 1

Wstęp do teorii informacji: Wykład 1

Marek CzachorKatedra Fizyki Teoretycznej i Metod Matematycznych

Politechnika Gdańska, Narutowicza 11/12, 80–952 Gdańsk, Poland

I. WSTĘP

Są to notatki do semestralnego wykładu z teorii infor-macji, prowadzonego dla studentów IV roku informatykistosowanej WFTiMS. Jesli chodzi o literaturę, to podsta-wowym źródłem jest tu świetna książka [1], wzbogacona owybrane prace oryginalne. W szczególności sięgam miej-scami do artykułów Alfreda Renyi’ego [2]. Za szczególnieinteresującą uważam przedrukowaną w [2] rzadko cyto-waną i słabo znaną pracę [3], gdzie chyba po raz pierwszypojawiło sie pojęcie α-entropii. Notatki te pisane są nabieżąco pod kątem wykładu. Będę je sukcesywnie uaktu-alniał na stronie domowej i wdzięczny będę za wskazy-wanie błędów.

II. MIARA INFORMACJI WEDŁUGHARTLEYA

Pierwsza miara ilości informacji została wprowadzonaw 1928 r. w pracy [4]. Motywacja jest nastepująca. Roz-patrzmy zbiór N -elementowy X = {x1, . . . , xN}. Żebyjednoznacznie określić o który element nam chodzi — wy-starczy podać numer elementu. Jednakże jeżeli desyduje-my się na układ binarny, to wystarczy nam log2N bitów.Oczywiscie nie musimy pracować w systemie binarnym.W systemie dziesiętnym wystarczy nam log10N jedno-stek, itd. W dalszej części wykładu będę zawsze używałbitów, więc symbol „log” oznaczać będzie log2. Tak więcdefiniujemy miarę Hartleya

IHartley(X) = logN. (1)

A. Podstawowa cecha miary Hartleya —addytywność

Rozpatrzmy nastepujące zbiory: zbiór NM -elementowy

X = {x11, . . . , x1M︸︷︷︸

X1

, . . . , xN1, . . . , xNM︸︷︷︸

XN

} (2)

oraz zbiór N -elementowy (jest to zbiór, którego elemen-tami są również zbiory)

X = {X1, . . . , XN}. (3)

Wtedy

IHartley(X) = logNM = logN + logM= IHartley(X) + IHartley(X1)...= IHartley(X) + IHartley(XN ).

Tak więc ilość informacji potrzebna do wskazania kon-kretnego elementu xjn ∈ X może być traktowana jako su-ma informacji IHartley(Xj) potrzebnej do zlokalizowaniaelementu xjn, jeżeli wiemy, iż znajduje się on w Xj, orazinformacji potrzbnej do wskazania o który zbiór Xj ∈ Xnam chodzi, czyli IHartley(X). Ceche tę nazywamy addy-tywnością Hartleyowskiej miary informacji.

III. INFORMACJA POTRZEBNA DOCHARAKTERYZACJI ZDARZENIA a

WYSTEPUJĄCEGO ZPRAWDOPODOBIEŃSTWEM p(a)

Definicja Hartleya jawnie wykorzystywała fakt, iż każ-dy ze zbiorówXj miał tyle samo elementów. Rozpatrzmyteraz przypadek ogólniejszy, gdy mamy do czynienia zezbiorem

X = {x11, . . . , x1M1︸︷︷︸

X1

, . . . , xN1, . . . , xNMN︸︷︷︸

XN

},

N∑

k=1

Mk = M, (4)

gdzie liczba elementów j-tego zbioru Xj wynosi Mj . Za-łóżmy, podobnie jak to było u Hartleya, iż wszystkie ele-menty xjn ∈ X są równie prawdopodobne. Wtedy

IHartley(X) = logM, (5)

IHartley(Xj) = logMj. (6)

Zakładając addytywność znajdujemy, iż brakująca infor-macja potrzebna do wskazania zbioru Xj wynosi

Ibrak(Xj) = IHartley(X)− IHartley(Xj)= logM − logMj = log(M/Mj)

= − logMj

M1 + · · ·+MN

= − log pj = log1pj, (7)

gdzie

pj = p(Xj) =Mj

M1 + · · ·+MN=MjM

(8)

2

jest prawdopodobieństwem trafienia w zbiór Xj .Oczywiście, jeżeli wszystkie zbiory Xj są równie praw-dopodobne, czyli pj = 1/N , j = 1 . . .N , to

Ibrak(Xj) = log11/N= logN = IHartley(X). (9)

Przyjmiemy więc następującą definicję

Definicja 1.1: Ilością informacji potrzebną do scharak-teryzowania zdarzenia a, którego prawdopodobieństwowynosi p(a), nazywamy liczbę

I(a) = log1p(a). (10)

Uwagi:

(a) Jednostką informacji jest bit.(b) Do charakteryzacji zdarzenia pewnego potrzebaI(p = 1) = 0 bitów informacji.(c) Załóżmy, iż rozpatrujemy dwa zdarzenia: „a” oraz„nieprawda, że a”, które są równie prawdopodobne,p(a) = 1/2. Wtedy do scharakteryzowania zdarzenia awystarcza 1 bit

I(1/2) = log 2 = 1. (11)

Jest to sytuacja, gdy na pytanie a wystarczy odpowie-dzieć „tak” lub „nie” — wiecej informacji nie trzeba.(d) Do charakteryzacji bardzo mało prawdopodobnegozdarzenia trzeba bardzo dużo informacji, gdyż

limp→0I(p) = +∞. (12)

(e) I(p) jest ciągła i różniczkowalna na przedziale le-wostronnie otwartym i prawostronnie domkniętym ]0, 1].(f) Ilość informacji potrzebna do charakteryzacjidwóch zdarzeń niezależnych jest sumą informacji po-trzebnych do charakteryzacji każdego z tych zdarzeń zosobna. Rzeczywiście, rozpatrzmy dwa niezależne zdarze-nia a, b, zachodzące — odpowiednio — z prawdopodo-bieństwami p oraz q. Zdarzenie polegające na koniunkcji„a i b” zachodzi z prawdopodobieństwem pq. Więc

I(pq) = − log(pq) = − log(p)− log(q) = I(p) + I(q).(13)

(g) Co ciekawe, zachodzi takie „odwrotne”

Twierdzenie 1.1: Niech I(p) jest różniczkowalna na]0, 1], oraz

I(1/2) = 1, (14)I(pq) = I(p) + I(q). (15)

Wtedy I(p) = − log p.Dowód : Z addytywności wynika, iż dla dowolnego 0 ¬ε ¬ 1

I(p(1− ε)

)= I(p) + I(1− ε), (16)

skąd

I(p− εp)− I(p)ε

=I(1− ε)ε. (17)

Z drugiej strony

limε→0

I(p− εp)− I(p)ε

= −pI ′(p). (18)

Ponieważ z założenia I(p) jest ciągła w p = 1, więcpochodna I ′(p) musi być skończona w p = 1, I ′(1) =C 6= ±∞. Stąd oraz z (17)–(18) wynika przy okazji, żeI(1) = 0. Całkując równanie

−pI ′(p) = C (19)

znajdujemy

I(p)− I(1) = I(p) = −C∫ p

1

dp

p

= −C ln p. (20)

Z założenia

I(1/2) = −C ln(1/2) = C ln 2 = 1. (21)

Wykorzystując wzór na zmianę podstawy logarytmu,logb x = logb a loga x, znajdujemy

I(p) = −C ln p = −1ln 2ln p

= −1ln 2ln 2 log p = − log p, (22)

co należało pokazać.�

IV. ENTROPIA SHANNONA

Definicja 1.2: Średnią ilość informacji związaną z roz-kładem prawdopodobieństwa p(a) zmiennej losowej A(przyjmującej wartości a), czyli liczbę

H(A) =∑

a

p(a)I(a)

=∑

a

p(a) log1p(a)= −∑

a

p(a) log p(a) (23)

nazywamy entropią Shannona. �Entropia Shannona została wprowadzona w pracy [5].

Przykłady:

(a) Rozpatrzmy zmienną losową A przyjmujacą warto-ści ze zbioru

X = {a1, . . . , a32}.

Do jednoznacznego wskazania konkretnego elementuaj ∈ X wystarcza 5 bitów. Załóżmy, iż wartości aj sąrównie prawdopodobne:

p(a1) = · · · = p(a32) = 1/32. (24)

Średnia ilość informacji, czyli entropia Shannona, wynosi

H(A) = −32∑

j=1

p(aj) log p(aj) = −32∑

j=1

132log132

= log 32 = 5 bitów.

3

(b) Rozpatrzmy wyścig z udziałem 8 koni, o imionachnależących do zbioru

X = {K1, . . . ,K8}.

Załóżmy, iż odpowiednie prawdopodobieństwa zwycię-stwa w wyścigu wynoszą

{p(K1), . . . , p(K8)} = { 12 ,14, 18, 116, 164, 164, 164, 164}.

Entropia Shannona

H(K) = − 12log 12− 14log 14− 18log 18− 116log 116

−4 164log 164= 2bity.

Jeżeli zawody są wielokrotnie powtarzane i chcemy prze-syłać komuś informacje o wynikach, to na dłuższą metęopłaca się bardziej prawdopodobne wyniki kodować przypomocy krótszych ciągów znaków, za cenę wydłużeniaopisu zdarzeń mniej prawdopodobnych. H(K) = 2 su-geruje, iż istnieje taki system, iż średnia liczba bitów najedną wiadomość wyniesie 2 a nie log 8 = 3. Kod, któ-ry dokładnie odtwarza średnią ilość bitów = 2 powinienmieć następujące ilości bitów na konkretnego konia:

K1 ↔ 1 bit,

K2 ↔ 2 bity,K3 ↔ 3 bity,K4 ↔ 4 bity,

K5 ↔ 6 bitów,K6 ↔ 6 bitów,K7 ↔ 6 bitów,

K8 ↔ 6 bitów.

Średnia długość tekstu wynosi teraz nie 3 bity, ale

12· 1 + 1

4· 2 + 1

8· 3 + 1

16· 4 + 4 1

64· 6 = 2 bity. (25)

Przykładem takiego kodu jest

K1 ↔ 0K2 ↔ 10,

K3 ↔ 110,K4 ↔ 1110,

K5 ↔ 111100,K6 ↔ 111101,K7 ↔ 111110,

K8 ↔ 111111.

W dalszej części wykładu dowiemy się, jakie są związkipomiędzy entropią Shannona a optymalnym kodowanieminformacji. Tutaj dodajmy tylko, iż istotnym elementemkodowania jest jednoznaczność podziału tekstu na słowai dlatego powyższy kod zaczyna się od słów 0, 10, a nienp. 0, 1.

[1] T. M. Cover, J. A. Thomas, Elements of Information The-ory (Wiley, New York, 1991).

[2] A. Renyi, Selected papers of Alfred Renyi (Akademiai Kia-dó, Budapest, 1976).

[3] A. Renyi, „Some fundamental questions of informationtheory”, MTA III. Oszt. Kozl. 10, 251–282 (1960).

[4] R. V. Hartley, „Transmission of information”, Bell SystemTechnical Journal 7, 535–563 (1928).

[5] C. E. Shannon, „A mathematical theory of communica-tion”, Bell System Technical Journal 27, 379–423, 623–653(1948).

Wstęp do teorii informacji: Wykład 1

Documents

Transcript of Wstęp do teorii informacji: Wykład 1