Wstęp do teorii informacji: Wykład 1

3
Wstęp do teorii informacji: Wykład 1 Marek Czachor Katedra Fizyki Teoretycznej i Metod Matematycznych Politechnika Gdańska, Narutowicza 11/12, 80–952 Gdańsk, Poland I. WSTĘP Są to notatki do semestralnego wykładu z teorii infor- macji, prowadzonego dla studentów IV roku informatyki stosowanej WFTiMS. Jesli chodzi o literaturę, to podsta- wowym źródłem jest tu świetna książka [1], wzbogacona o wybrane prace oryginalne. W szczególności sięgam miej- scami do artykułów Alfreda R´ enyi’ego [2]. Za szczególnie interesującą uważam przedrukowaną w [2] rzadko cyto- waną i słabo znaną pracę [3], gdzie chyba po raz pierwszy pojawiło sie pojęcie α-entropii. Notatki te pisane są na bieżąco pod kątem wykładu. Będę je sukcesywnie uaktu- alniał na stronie domowej i wdzięczny będę za wskazy- wanie błędów. II. MIARA INFORMACJI WEDŁUG HARTLEYA Pierwsza miara ilości informacji została wprowadzona w 1928 r. w pracy [4]. Motywacja jest nastepująca. Roz- patrzmy zbiór N -elementowy X = {x 1 ,...,x N }. Żeby jednoznacznie określić o który element nam chodzi — wy- starczy podać numer elementu. Jednakże jeżeli desyduje- my się na układ binarny, to wystarczy nam log 2 N bitów. Oczywiscie nie musimy pracować w systemie binarnym. W systemie dziesiętnym wystarczy nam log 10 N jedno- stek, itd. W dalszej części wykładu będę zawsze używał bitów, więc symbol „log” oznaczać będzie log 2 . Tak więc definiujemy miarę Hartleya I Hartley (X ) = log N. (1) A. Podstawowa cecha miary Hartleya — addytywność Rozpatrzmy nastepujące zbiory: zbiór NM - elementowy X = {x 11 ,...,x 1M X1 ,...,x N1 ,...,x NM XN } (2) oraz zbiór N -elementowy (jest to zbiór, którego elemen- tami są również zbiory) ¯ X = {X 1 ,...,X N }. (3) Wtedy I Hartley (X ) = log NM = log N + log M = I Hartley ( ¯ X )+ I Hartley (X 1 ) . . . = I Hartley ( ¯ X )+ I Hartley (X N ). Tak więc ilość informacji potrzebna do wskazania kon- kretnego elementu x jn X może być traktowana jako su- ma informacji I Hartley (X j ) potrzebnej do zlokalizowania elementu x jn , jeżeli wiemy, iż znajduje się on w X j , oraz informacji potrzbnej do wskazania o który zbiór X j ¯ X nam chodzi, czyli I Hartley ( ¯ X). Ceche tę nazywamy addy- tywnością Hartleyowskiej miary informacji. III. INFORMACJA POTRZEBNA DO CHARAKTERYZACJI ZDARZENIA a WYSTEPUJĄCEGO Z PRAWDOPODOBIEŃSTWEM p(a) Definicja Hartleya jawnie wykorzystywała fakt, iż każ- dy ze zbiorów X j miał tyle samo elementów. Rozpatrzmy teraz przypadek ogólniejszy, gdy mamy do czynienia ze zbiorem X = {x 11 ,...,x 1M1 X1 ,...,x N1 ,...,x NMN XN }, N k=1 M k = M, (4) gdzie liczba elementów j -tego zbioru X j wynosi M j . Za- łóżmy, podobnie jak to było u Hartleya, iż wszystkie ele- menty x jn X są równie prawdopodobne. Wtedy I Hartley (X ) = log M, (5) I Hartley (X j ) = log M j . (6) Zakładając addytywność znajdujemy, iż brakująca infor- macja potrzebna do wskazania zbioru X j wynosi I brak (X j )= I Hartley (X ) I Hartley (X j ) = log M log M j = log(M/M j ) = log M j M 1 + ··· + M N = log p j = log 1 p j , (7) gdzie p j = p(X j )= M j M 1 + ··· + M N = M j M (8)

Transcript of Wstęp do teorii informacji: Wykład 1

Page 1: Wstęp do teorii informacji: Wykład 1

Wstęp do teorii informacji: Wykład 1

Marek CzachorKatedra Fizyki Teoretycznej i Metod Matematycznych

Politechnika Gdańska, Narutowicza 11/12, 80–952 Gdańsk, Poland

I. WSTĘP

Są to notatki do semestralnego wykładu z teorii infor-macji, prowadzonego dla studentów IV roku informatykistosowanej WFTiMS. Jesli chodzi o literaturę, to podsta-wowym źródłem jest tu świetna książka [1], wzbogacona owybrane prace oryginalne. W szczególności sięgam miej-scami do artykułów Alfreda Renyi’ego [2]. Za szczególnieinteresującą uważam przedrukowaną w [2] rzadko cyto-waną i słabo znaną pracę [3], gdzie chyba po raz pierwszypojawiło sie pojęcie α-entropii. Notatki te pisane są nabieżąco pod kątem wykładu. Będę je sukcesywnie uaktu-alniał na stronie domowej i wdzięczny będę za wskazy-wanie błędów.

II. MIARA INFORMACJI WEDŁUGHARTLEYA

Pierwsza miara ilości informacji została wprowadzonaw 1928 r. w pracy [4]. Motywacja jest nastepująca. Roz-patrzmy zbiór N -elementowy X = {x1, . . . , xN}. Żebyjednoznacznie określić o który element nam chodzi — wy-starczy podać numer elementu. Jednakże jeżeli desyduje-my się na układ binarny, to wystarczy nam log2N bitów.Oczywiscie nie musimy pracować w systemie binarnym.W systemie dziesiętnym wystarczy nam log10N jedno-stek, itd. W dalszej części wykładu będę zawsze używałbitów, więc symbol „log” oznaczać będzie log2. Tak więcdefiniujemy miarę Hartleya

IHartley(X) = logN. (1)

A. Podstawowa cecha miary Hartleya —addytywność

Rozpatrzmy nastepujące zbiory: zbiór NM -elementowy

X = {x11, . . . , x1M︸ ︷︷ ︸

X1

, . . . , xN1, . . . , xNM︸ ︷︷ ︸

XN

} (2)

oraz zbiór N -elementowy (jest to zbiór, którego elemen-tami są również zbiory)

X = {X1, . . . , XN}. (3)

Wtedy

IHartley(X) = logNM = logN + logM= IHartley(X) + IHartley(X1)...= IHartley(X) + IHartley(XN ).

Tak więc ilość informacji potrzebna do wskazania kon-kretnego elementu xjn ∈ X może być traktowana jako su-ma informacji IHartley(Xj) potrzebnej do zlokalizowaniaelementu xjn, jeżeli wiemy, iż znajduje się on w Xj, orazinformacji potrzbnej do wskazania o który zbiór Xj ∈ Xnam chodzi, czyli IHartley(X). Ceche tę nazywamy addy-tywnością Hartleyowskiej miary informacji.

III. INFORMACJA POTRZEBNA DOCHARAKTERYZACJI ZDARZENIA a

WYSTEPUJĄCEGO ZPRAWDOPODOBIEŃSTWEM p(a)

Definicja Hartleya jawnie wykorzystywała fakt, iż każ-dy ze zbiorówXj miał tyle samo elementów. Rozpatrzmyteraz przypadek ogólniejszy, gdy mamy do czynienia zezbiorem

X = {x11, . . . , x1M1︸ ︷︷ ︸

X1

, . . . , xN1, . . . , xNMN︸ ︷︷ ︸

XN

},

N∑

k=1

Mk = M, (4)

gdzie liczba elementów j-tego zbioru Xj wynosi Mj . Za-łóżmy, podobnie jak to było u Hartleya, iż wszystkie ele-menty xjn ∈ X są równie prawdopodobne. Wtedy

IHartley(X) = logM, (5)

IHartley(Xj) = logMj. (6)

Zakładając addytywność znajdujemy, iż brakująca infor-macja potrzebna do wskazania zbioru Xj wynosi

Ibrak(Xj) = IHartley(X)− IHartley(Xj)= logM − logMj = log(M/Mj)

= − logMj

M1 + · · ·+MN

= − log pj = log1pj, (7)

gdzie

pj = p(Xj) =Mj

M1 + · · ·+MN=MjM

(8)

Page 2: Wstęp do teorii informacji: Wykład 1

2

jest prawdopodobieństwem trafienia w zbiór Xj .Oczywiście, jeżeli wszystkie zbiory Xj są równie praw-dopodobne, czyli pj = 1/N , j = 1 . . .N , to

Ibrak(Xj) = log11/N= logN = IHartley(X). (9)

Przyjmiemy więc następującą definicję

Definicja 1.1: Ilością informacji potrzebną do scharak-teryzowania zdarzenia a, którego prawdopodobieństwowynosi p(a), nazywamy liczbę

I(a) = log1p(a). (10)

Uwagi:

(a) Jednostką informacji jest bit.(b) Do charakteryzacji zdarzenia pewnego potrzebaI(p = 1) = 0 bitów informacji.(c) Załóżmy, iż rozpatrujemy dwa zdarzenia: „a” oraz„nieprawda, że a”, które są równie prawdopodobne,p(a) = 1/2. Wtedy do scharakteryzowania zdarzenia awystarcza 1 bit

I(1/2) = log 2 = 1. (11)

Jest to sytuacja, gdy na pytanie a wystarczy odpowie-dzieć „tak” lub „nie” — wiecej informacji nie trzeba.(d) Do charakteryzacji bardzo mało prawdopodobnegozdarzenia trzeba bardzo dużo informacji, gdyż

limp→0I(p) = +∞. (12)

(e) I(p) jest ciągła i różniczkowalna na przedziale le-wostronnie otwartym i prawostronnie domkniętym ]0, 1].(f) Ilość informacji potrzebna do charakteryzacjidwóch zdarzeń niezależnych jest sumą informacji po-trzebnych do charakteryzacji każdego z tych zdarzeń zosobna. Rzeczywiście, rozpatrzmy dwa niezależne zdarze-nia a, b, zachodzące — odpowiednio — z prawdopodo-bieństwami p oraz q. Zdarzenie polegające na koniunkcji„a i b” zachodzi z prawdopodobieństwem pq. Więc

I(pq) = − log(pq) = − log(p)− log(q) = I(p) + I(q).(13)

(g) Co ciekawe, zachodzi takie „odwrotne”

Twierdzenie 1.1: Niech I(p) jest różniczkowalna na]0, 1], oraz

I(1/2) = 1, (14)I(pq) = I(p) + I(q). (15)

Wtedy I(p) = − log p.Dowód : Z addytywności wynika, iż dla dowolnego 0 ¬ε ¬ 1

I(p(1− ε)

)= I(p) + I(1− ε), (16)

skąd

I(p− εp)− I(p)ε

=I(1− ε)ε. (17)

Z drugiej strony

limε→0

I(p− εp)− I(p)ε

= −pI ′(p). (18)

Ponieważ z założenia I(p) jest ciągła w p = 1, więcpochodna I ′(p) musi być skończona w p = 1, I ′(1) =C 6= ±∞. Stąd oraz z (17)–(18) wynika przy okazji, żeI(1) = 0. Całkując równanie

−pI ′(p) = C (19)

znajdujemy

I(p)− I(1) = I(p) = −C∫ p

1

dp

p

= −C ln p. (20)

Z założenia

I(1/2) = −C ln(1/2) = C ln 2 = 1. (21)

Wykorzystując wzór na zmianę podstawy logarytmu,logb x = logb a loga x, znajdujemy

I(p) = −C ln p = −1ln 2ln p

= −1ln 2ln 2 log p = − log p, (22)

co należało pokazać.�

IV. ENTROPIA SHANNONA

Definicja 1.2: Średnią ilość informacji związaną z roz-kładem prawdopodobieństwa p(a) zmiennej losowej A(przyjmującej wartości a), czyli liczbę

H(A) =∑

a

p(a)I(a)

=∑

a

p(a) log1p(a)= −∑

a

p(a) log p(a) (23)

nazywamy entropią Shannona. �Entropia Shannona została wprowadzona w pracy [5].

Przykłady:

(a) Rozpatrzmy zmienną losową A przyjmujacą warto-ści ze zbioru

X = {a1, . . . , a32}.

Do jednoznacznego wskazania konkretnego elementuaj ∈ X wystarcza 5 bitów. Załóżmy, iż wartości aj sąrównie prawdopodobne:

p(a1) = · · · = p(a32) = 1/32. (24)

Średnia ilość informacji, czyli entropia Shannona, wynosi

H(A) = −32∑

j=1

p(aj) log p(aj) = −32∑

j=1

132log132

= log 32 = 5 bitów.

Page 3: Wstęp do teorii informacji: Wykład 1

3

(b) Rozpatrzmy wyścig z udziałem 8 koni, o imionachnależących do zbioru

X = {K1, . . . ,K8}.

Załóżmy, iż odpowiednie prawdopodobieństwa zwycię-stwa w wyścigu wynoszą

{p(K1), . . . , p(K8)} = { 12 ,14, 18, 116, 164, 164, 164, 164}.

Entropia Shannona

H(K) = − 12log 12− 14log 14− 18log 18− 116log 116

−4 164log 164= 2bity.

Jeżeli zawody są wielokrotnie powtarzane i chcemy prze-syłać komuś informacje o wynikach, to na dłuższą metęopłaca się bardziej prawdopodobne wyniki kodować przypomocy krótszych ciągów znaków, za cenę wydłużeniaopisu zdarzeń mniej prawdopodobnych. H(K) = 2 su-geruje, iż istnieje taki system, iż średnia liczba bitów najedną wiadomość wyniesie 2 a nie log 8 = 3. Kod, któ-ry dokładnie odtwarza średnią ilość bitów = 2 powinienmieć następujące ilości bitów na konkretnego konia:

K1 ↔ 1 bit,

K2 ↔ 2 bity,K3 ↔ 3 bity,K4 ↔ 4 bity,

K5 ↔ 6 bitów,K6 ↔ 6 bitów,K7 ↔ 6 bitów,

K8 ↔ 6 bitów.

Średnia długość tekstu wynosi teraz nie 3 bity, ale

12· 1 + 1

4· 2 + 1

8· 3 + 1

16· 4 + 4 1

64· 6 = 2 bity. (25)

Przykładem takiego kodu jest

K1 ↔ 0K2 ↔ 10,

K3 ↔ 110,K4 ↔ 1110,

K5 ↔ 111100,K6 ↔ 111101,K7 ↔ 111110,

K8 ↔ 111111.

W dalszej części wykładu dowiemy się, jakie są związkipomiędzy entropią Shannona a optymalnym kodowanieminformacji. Tutaj dodajmy tylko, iż istotnym elementemkodowania jest jednoznaczność podziału tekstu na słowai dlatego powyższy kod zaczyna się od słów 0, 10, a nienp. 0, 1.

[1] T. M. Cover, J. A. Thomas, Elements of Information The-ory (Wiley, New York, 1991).

[2] A. Renyi, Selected papers of Alfred Renyi (Akademiai Kia-dó, Budapest, 1976).

[3] A. Renyi, „Some fundamental questions of informationtheory”, MTA III. Oszt. Kozl. 10, 251–282 (1960).

[4] R. V. Hartley, „Transmission of information”, Bell SystemTechnical Journal 7, 535–563 (1928).

[5] C. E. Shannon, „A mathematical theory of communica-tion”, Bell System Technical Journal 27, 379–423, 623–653(1948).