Wstęp do teorii informacji: Wykład 2

3
Wstęp do teorii informacji: Wykład 2 I. MAKSIMUM ENTROPII = MINIMUM INFORMACJI Rozpatrzmy funkcję H (p)= p log p (1 p) log(1 p) (1) reprezentujacą entropię zwiazaną ze zmienną binarną (typu „tak–nie”), gdzie prawdopodobieństwo zdarzenia „tak” wynosi p. Jak widać na Rys. 1 entropia ta osią- ga maksimum jeżeli odpowiedzi „tak” i „nie” są równie prawdopodobne. Odpowiada to sytuacji, gdy jedyną in- formacją przez nas posiadaną jest fakt, iż zmienna loso- wa przyjmuje dwie wartości (już mniej informacji udzielić się tu nie da). Tak więc maksimum entropii odpowiada tu minimum informacji. Problem ten jest matematycznie równoważny znalezieniu ekstremum funkcji dwóch zmien- nych H (p 1 ,p 2 )= p 1 log p 1 p 2 log p 2 (2) przy dodatkowym ograniczeniu (więzie) p 1 + p 2 = 1. Funkcja H (p 1 ,p 2 ) pokazana jest na rysunkach 2 i 3. Funk- cję H (p) uzyskamy, gdy wykres trójwymiarowy przekro- imy wzdłuż płaszczyzny pionowej przechodzacej przez prostą p 2 =1 p 1 . Na dalszych rysunkach widać wyraź- nie, iż mówiąc o maksimum entropii nie mamy na myśli po prostu maksimum funkcji H (p 1 ,p 2 ) dwóch zmiennych, lecz zawsze jest to ekstremum warunkowe gdzie warun- kiem jest co najmniej unormowanie prawdopodobieńst do 1, ale mogą też występować jakies dodatkowe ogranicze- nia. II. EKSTREMA WARUNKOWE: METODA MNOŻNIKÓW LAGRANGE’A Zagadnienie rozważane w części poprzedniej trzeba te- raz uogólnić na entropie zwiazane ze zmiennymi losowymi 0.2 0.4 0.6 0.8 1 p 0.2 0.4 0.6 0.8 1 Hp Rysunek 1: Funkcja H(p). 0.2 0.4 0.6 0.8 1 p 1 0.2 0.4 0.6 0.8 1 p 2 0 0.25 0.5 0.75 1 0.2 0.4 0.6 0.8 p 1 Rysunek 2: Funkcja H(p1,p2). Fukcja H(p) powstaje po przecięciu tej powierzchni płaszczyzną pionową przechodzą- cą przez przekątną p2 =1 - p1. 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Rysunek 3: Wykres poziomicowy funkcji H(p1,p2). Widać, iż maksimum tego wykresu nie przypada wcale w punkcie (p1,p2) = (1/2, 1/2). Wynika to z faktu, iż więz p1 + p2 =1 wyznacza płaszczyznę, która nie przechodzi przez najwyższy punkt powierzchni będącej wykresem H(p1,p2). o dowolnej liczbie wartości i rozkładach prawdopodobień- stwa {p 1 ,...,p N }. Zawsze będziemy mieli do czynienia z więzem g 1 (p 1 ,...,p N )= N a=1 p a 1=0. (3)

Transcript of Wstęp do teorii informacji: Wykład 2

Wstęp do teorii informacji: Wykład 2

I. MAKSIMUM ENTROPII = MINIMUMINFORMACJI

Rozpatrzmy funkcję

H(p) = −p log p− (1− p) log(1− p) (1)

reprezentujacą entropię zwiazaną ze zmienną binarną(typu „tak–nie”), gdzie prawdopodobieństwo zdarzenia„tak” wynosi p. Jak widać na Rys. 1 entropia ta osią-ga maksimum jeżeli odpowiedzi „tak” i „nie” są równieprawdopodobne. Odpowiada to sytuacji, gdy jedyną in-formacją przez nas posiadaną jest fakt, iż zmienna loso-wa przyjmuje dwie wartości (już mniej informacji udzielićsię tu nie da). Tak więc maksimum entropii odpowiadatu minimum informacji. Problem ten jest matematycznierównoważny znalezieniu ekstremum funkcji dwóch zmien-nych

H(p1, p2) = −p1 log p1 − p2 log p2 (2)

przy dodatkowym ograniczeniu (więzie) p1 + p2 = 1.FunkcjaH(p1, p2) pokazana jest na rysunkach 2 i 3. Funk-cję H(p) uzyskamy, gdy wykres trójwymiarowy przekro-imy wzdłuż płaszczyzny pionowej przechodzacej przezprostą p2 = 1− p1. Na dalszych rysunkach widać wyraź-nie, iż mówiąc o maksimum entropii nie mamy na myślipo prostu maksimum funkcjiH(p1, p2) dwóch zmiennych,lecz zawsze jest to ekstremum warunkowe gdzie warun-kiem jest co najmniej unormowanie prawdopodobieńst do1, ale mogą też występować jakies dodatkowe ogranicze-nia.

II. EKSTREMA WARUNKOWE: METODAMNOŻNIKÓW LAGRANGE’A

Zagadnienie rozważane w części poprzedniej trzeba te-raz uogólnić na entropie zwiazane ze zmiennymi losowymi

0.2 0.4 0.6 0.8 1p

0.2

0.4

0.6

0.8

1

HHpL

Rysunek 1: Funkcja H(p).

0.20.4

0.60.8

1

p10.2

0.4

0.6

0.8

1

p2

00.250.5

0.751

0.20.4

0.60.8p1

Rysunek 2: Funkcja H(p1, p2). Fukcja H(p) powstaje poprzecięciu tej powierzchni płaszczyzną pionową przechodzą-cą przez przekątną p2 = 1− p1.

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

Rysunek 3: Wykres poziomicowy funkcji H(p1, p2). Widać,iż maksimum tego wykresu nie przypada wcale w punkcie(p1, p2) = (1/2, 1/2). Wynika to z faktu, iż więz p1 + p2 = 1wyznacza płaszczyznę, która nie przechodzi przez najwyższypunkt powierzchni będącej wykresem H(p1, p2).

o dowolnej liczbie wartości i rozkładach prawdopodobień-stwa {p1, . . . , pN}. Zawsze będziemy mieli do czynienia zwięzem

g1(p1, . . . , pN) =N∑

a=1

pa − 1 = 0. (3)

2

0.2 0.4 0.6 0.8 1p

0.2

0.4

0.6

0.8

1

Rysunek 4: Dla porównania, wykres funkcji h(p) = H(p, p)pojawiającej się po przecięciu powierzchni z Rys. 2 płaszczy-zną przechodzącą przez prostą p2 = p1.

Innym typowym więzem jest

g2(p1, . . . , pN ) =N∑

a=1

xapa − x = 0. (4)

Rozpatrzmy teraz funkcję f(p1, . . . , pN ) i znajdźmy jejekstremum pod warunkiem, że spełnione są więzy

g1(p1, . . . , pN ) = · · · = gK(p1, . . . , pN ) = 0. (5)

Metoda mnożników Lagrange’a (por. np.http://www.slimy.com/ steuard/teaching/tutorials/Lagrange.html) polega na znalezieniu ekstremum (jużbez więzów) funkcji N+K zmiennych, ktorą definiujemynastępująco:

F (p1, . . . , pN , λ1, . . . , λK) = f(p1, . . . , pN) (6)

+

K∑

j=1

λjgj(p1, . . . , pN).

Warunkiem koniecznym na istnienie ekstremum jest wtym wypadku znikanie (N +K)-wymiarowego gradientu

~∇F =( ∂F

∂p1, . . . ,

∂F

∂pN,∂F

∂λ1, . . . ,

∂F

∂λK

)

= 0. (7)

Przykład 2.1: Niech

f(p1, . . . , pN ) = −

N∑

a=1

pa log pa = H(A), (8)

g1(p1, . . . , pN ) =N∑

a=1

pa − 1. (9)

Szukamy ekstremum funkcji f przy warunku g1 = 0:

F (p1, . . . , pN , λ1) = −

N∑

a=1

pa log pa + λ1

(

N∑

a=1

pa − 1)

,

∂F (p1, . . . , pN , λ1)

∂λ1=

N∑

a=1

pa − 1 = 0,

∂F (p1, . . . , pN , λ1)

∂pa= −(

log pa + pa1

pa ln 2

)

+ λ1

= − log pa −1

ln 2+ λ1 = 0,

Z tego ostatniego warunku znajdujemy

p1 = p2 = · · · = pN = 2−

1

ln 2+λ1 . (10)

Warunek unormowania g1 = 0 implikuje więc pa = 1/N ,dla a = 1, . . . , N . Pozwala to nam przy okazji wyliczyćmnożnik Lagrange’a

log1

N+1

ln 2= λ1. (11)

W tym wypadku sam mnożnik nie jest nam do niczegopotrzebny, ale czasami warto go znać. �

Powyższy przykład pokazuje jasno iż ekstremum en-tropii pojawia się dla zdarzeń równie prawdopodobnych,chyba że mamy jakąś dodatkową informację na tematrozważanych zmiennych losowych, tak jak to jest w przy-kładzie następnym.

Przykład 2.2: Niech

f(p1, . . . , pN ) = −N∑

a=1

pa log pa = H(A), (12)

g1(p1, . . . , pN ) =

N∑

a=1

pa − 1, (13)

g2(p1, . . . , pN ) =

N∑

a=1

xapa − x. (14)

Tutaj dodatkowa informacja jest następująca: rozkładprawdopodobieństwa jest taki, że warość średnia zmien-nej losowej X , o wartościach {x1, . . . , xN}, wynosi∑N

a=1 xapa = x. Przykład ten jest bardzo charaktery-styczny dla fizyki statystycznej, gdzie rolę zmiennej lo-sowej X zazwyczaj pełni energia, a mnożnik Lagran-ge’s okazuje się być związany z temperaturą. FunkcjaF nazywana jest w termodynamice energią swobodną, arozkład prawdopodobieństwa maksymalizujący entropięprzy ustalonej średniej energii nazywamy stanem równo-wagi termodynamicznej.

3

F (p1, . . . , pN , λ1, λ2) = −

N∑

a=1

pa log pa + λ1

(

N∑

a=1

pa − 1)

+ λ2

(

N∑

a=1

xapa − x)

,

∂F (p1, . . . , pN , λ1, λ2)

∂λ1=

N∑

a=1

pa − 1 = 0,

∂F (p1, . . . , pN , λ1, λ2)

∂λ2=

N∑

a=1

xapa − x = 0,

∂F (p1, . . . , pN , λ1, λ2)

∂pa= − log pa −

1

ln 2+ λ1 + λ2xa = 0,

pa = 2−

1

ln 2+λ1+λ2xa = 2−

1

ln 2+λ12λ2xa , (15)

N∑

a=1

pa = 2−

1

ln 2+λ1

N∑

a=1

2λ2xa = 1, (16)

2−1

ln 2+λ1 =

1∑N

a=1 2λ2xa

(17)

W efekcie

pa =2λ2xa

∑N

j=1 2λ2xj

(18)

Pozostaje nam wyliczyć mnoznik λ2 na podstawie dru-giego równania więzu,

x =

a xa2λ2xa

∑N

j=1 2λ2xj

(19)

czyli znaleźć zależność odwrotną λ2 = λ2(x), po czymwstawić ją do

pa =2λ2(x)xa

∑N

j=1 2λ2(x)xj

= pa(x) (20)

co w konkretnych przypadkach może nie być banalne. �

Uwagi: (a) W fizyce zazwyczaj stosuje się logarytmy na-turalne, co daje charakterystyczną postać

pa =eλ2(x)xa

∑N

j=1 eλ2(x)xj

= pa(x). (21)

W termodynamice mnożnik Lagrange’s przyjmuje wtedypostać λ2 = −1/(kT ), gdzie k to stała Bolzmanna, a Ttemperatura mierzona w kelwinach.(b) Często spotykaną zmienną losowąX jest po prostuxa = a, czyli xa jest liczba naturalną. Wtedy mianownikwystepujący w pa można wysumować korzystając z wła-sności szeregu geometrycznego.(c) Prawdopodobieństwo pa = 1/N pojawiajace sie wpierwszym przykładzie jest również postaci, (20)–(21),jeżeli przyjąć x1 = · · · = xN = 1.(d) W wielu zagadnieniach wystepują rozkłady praw-dopodobieństwa, które nie mają postaci (20)–(21). Na-turalnie pojawia się pytanie, czy nie odpowiadają one„stanom równowagi” w jakimś szerszym sensie. Zagad-nieniom tym będzie poświęcony wykład następny.