Wstęp do teorii informacji: Wykład 2
Transcript of Wstęp do teorii informacji: Wykład 2
Wstęp do teorii informacji: Wykład 2
I. MAKSIMUM ENTROPII = MINIMUMINFORMACJI
Rozpatrzmy funkcję
H(p) = −p log p− (1− p) log(1− p) (1)
reprezentujacą entropię zwiazaną ze zmienną binarną(typu „tak–nie”), gdzie prawdopodobieństwo zdarzenia„tak” wynosi p. Jak widać na Rys. 1 entropia ta osią-ga maksimum jeżeli odpowiedzi „tak” i „nie” są równieprawdopodobne. Odpowiada to sytuacji, gdy jedyną in-formacją przez nas posiadaną jest fakt, iż zmienna loso-wa przyjmuje dwie wartości (już mniej informacji udzielićsię tu nie da). Tak więc maksimum entropii odpowiadatu minimum informacji. Problem ten jest matematycznierównoważny znalezieniu ekstremum funkcji dwóch zmien-nych
H(p1, p2) = −p1 log p1 − p2 log p2 (2)
przy dodatkowym ograniczeniu (więzie) p1 + p2 = 1.FunkcjaH(p1, p2) pokazana jest na rysunkach 2 i 3. Funk-cję H(p) uzyskamy, gdy wykres trójwymiarowy przekro-imy wzdłuż płaszczyzny pionowej przechodzacej przezprostą p2 = 1− p1. Na dalszych rysunkach widać wyraź-nie, iż mówiąc o maksimum entropii nie mamy na myślipo prostu maksimum funkcjiH(p1, p2) dwóch zmiennych,lecz zawsze jest to ekstremum warunkowe gdzie warun-kiem jest co najmniej unormowanie prawdopodobieńst do1, ale mogą też występować jakies dodatkowe ogranicze-nia.
II. EKSTREMA WARUNKOWE: METODAMNOŻNIKÓW LAGRANGE’A
Zagadnienie rozważane w części poprzedniej trzeba te-raz uogólnić na entropie zwiazane ze zmiennymi losowymi
0.2 0.4 0.6 0.8 1p
0.2
0.4
0.6
0.8
1
HHpL
Rysunek 1: Funkcja H(p).
0.20.4
0.60.8
1
p10.2
0.4
0.6
0.8
1
p2
00.250.5
0.751
0.20.4
0.60.8p1
Rysunek 2: Funkcja H(p1, p2). Fukcja H(p) powstaje poprzecięciu tej powierzchni płaszczyzną pionową przechodzą-cą przez przekątną p2 = 1− p1.
0 0.2 0.4 0.6 0.8 10
0.2
0.4
0.6
0.8
1
Rysunek 3: Wykres poziomicowy funkcji H(p1, p2). Widać,iż maksimum tego wykresu nie przypada wcale w punkcie(p1, p2) = (1/2, 1/2). Wynika to z faktu, iż więz p1 + p2 = 1wyznacza płaszczyznę, która nie przechodzi przez najwyższypunkt powierzchni będącej wykresem H(p1, p2).
o dowolnej liczbie wartości i rozkładach prawdopodobień-stwa {p1, . . . , pN}. Zawsze będziemy mieli do czynienia zwięzem
g1(p1, . . . , pN) =N∑
a=1
pa − 1 = 0. (3)
2
0.2 0.4 0.6 0.8 1p
0.2
0.4
0.6
0.8
1
Rysunek 4: Dla porównania, wykres funkcji h(p) = H(p, p)pojawiającej się po przecięciu powierzchni z Rys. 2 płaszczy-zną przechodzącą przez prostą p2 = p1.
Innym typowym więzem jest
g2(p1, . . . , pN ) =N∑
a=1
xapa − x = 0. (4)
Rozpatrzmy teraz funkcję f(p1, . . . , pN ) i znajdźmy jejekstremum pod warunkiem, że spełnione są więzy
g1(p1, . . . , pN ) = · · · = gK(p1, . . . , pN ) = 0. (5)
Metoda mnożników Lagrange’a (por. np.http://www.slimy.com/ steuard/teaching/tutorials/Lagrange.html) polega na znalezieniu ekstremum (jużbez więzów) funkcji N+K zmiennych, ktorą definiujemynastępująco:
F (p1, . . . , pN , λ1, . . . , λK) = f(p1, . . . , pN) (6)
+
K∑
j=1
λjgj(p1, . . . , pN).
Warunkiem koniecznym na istnienie ekstremum jest wtym wypadku znikanie (N +K)-wymiarowego gradientu
~∇F =( ∂F
∂p1, . . . ,
∂F
∂pN,∂F
∂λ1, . . . ,
∂F
∂λK
)
= 0. (7)
Przykład 2.1: Niech
f(p1, . . . , pN ) = −
N∑
a=1
pa log pa = H(A), (8)
g1(p1, . . . , pN ) =N∑
a=1
pa − 1. (9)
Szukamy ekstremum funkcji f przy warunku g1 = 0:
F (p1, . . . , pN , λ1) = −
N∑
a=1
pa log pa + λ1
(
N∑
a=1
pa − 1)
,
∂F (p1, . . . , pN , λ1)
∂λ1=
N∑
a=1
pa − 1 = 0,
∂F (p1, . . . , pN , λ1)
∂pa= −(
log pa + pa1
pa ln 2
)
+ λ1
= − log pa −1
ln 2+ λ1 = 0,
Z tego ostatniego warunku znajdujemy
p1 = p2 = · · · = pN = 2−
1
ln 2+λ1 . (10)
Warunek unormowania g1 = 0 implikuje więc pa = 1/N ,dla a = 1, . . . , N . Pozwala to nam przy okazji wyliczyćmnożnik Lagrange’a
log1
N+1
ln 2= λ1. (11)
W tym wypadku sam mnożnik nie jest nam do niczegopotrzebny, ale czasami warto go znać. �
Powyższy przykład pokazuje jasno iż ekstremum en-tropii pojawia się dla zdarzeń równie prawdopodobnych,chyba że mamy jakąś dodatkową informację na tematrozważanych zmiennych losowych, tak jak to jest w przy-kładzie następnym.
Przykład 2.2: Niech
f(p1, . . . , pN ) = −N∑
a=1
pa log pa = H(A), (12)
g1(p1, . . . , pN ) =
N∑
a=1
pa − 1, (13)
g2(p1, . . . , pN ) =
N∑
a=1
xapa − x. (14)
Tutaj dodatkowa informacja jest następująca: rozkładprawdopodobieństwa jest taki, że warość średnia zmien-nej losowej X , o wartościach {x1, . . . , xN}, wynosi∑N
a=1 xapa = x. Przykład ten jest bardzo charaktery-styczny dla fizyki statystycznej, gdzie rolę zmiennej lo-sowej X zazwyczaj pełni energia, a mnożnik Lagran-ge’s okazuje się być związany z temperaturą. FunkcjaF nazywana jest w termodynamice energią swobodną, arozkład prawdopodobieństwa maksymalizujący entropięprzy ustalonej średniej energii nazywamy stanem równo-wagi termodynamicznej.
3
F (p1, . . . , pN , λ1, λ2) = −
N∑
a=1
pa log pa + λ1
(
N∑
a=1
pa − 1)
+ λ2
(
N∑
a=1
xapa − x)
,
∂F (p1, . . . , pN , λ1, λ2)
∂λ1=
N∑
a=1
pa − 1 = 0,
∂F (p1, . . . , pN , λ1, λ2)
∂λ2=
N∑
a=1
xapa − x = 0,
∂F (p1, . . . , pN , λ1, λ2)
∂pa= − log pa −
1
ln 2+ λ1 + λ2xa = 0,
pa = 2−
1
ln 2+λ1+λ2xa = 2−
1
ln 2+λ12λ2xa , (15)
N∑
a=1
pa = 2−
1
ln 2+λ1
N∑
a=1
2λ2xa = 1, (16)
2−1
ln 2+λ1 =
1∑N
a=1 2λ2xa
(17)
W efekcie
pa =2λ2xa
∑N
j=1 2λ2xj
(18)
Pozostaje nam wyliczyć mnoznik λ2 na podstawie dru-giego równania więzu,
x =
∑
a xa2λ2xa
∑N
j=1 2λ2xj
(19)
czyli znaleźć zależność odwrotną λ2 = λ2(x), po czymwstawić ją do
pa =2λ2(x)xa
∑N
j=1 2λ2(x)xj
= pa(x) (20)
co w konkretnych przypadkach może nie być banalne. �
Uwagi: (a) W fizyce zazwyczaj stosuje się logarytmy na-turalne, co daje charakterystyczną postać
pa =eλ2(x)xa
∑N
j=1 eλ2(x)xj
= pa(x). (21)
W termodynamice mnożnik Lagrange’s przyjmuje wtedypostać λ2 = −1/(kT ), gdzie k to stała Bolzmanna, a Ttemperatura mierzona w kelwinach.(b) Często spotykaną zmienną losowąX jest po prostuxa = a, czyli xa jest liczba naturalną. Wtedy mianownikwystepujący w pa można wysumować korzystając z wła-sności szeregu geometrycznego.(c) Prawdopodobieństwo pa = 1/N pojawiajace sie wpierwszym przykładzie jest również postaci, (20)–(21),jeżeli przyjąć x1 = · · · = xN = 1.(d) W wielu zagadnieniach wystepują rozkłady praw-dopodobieństwa, które nie mają postaci (20)–(21). Na-turalnie pojawia się pytanie, czy nie odpowiadają one„stanom równowagi” w jakimś szerszym sensie. Zagad-nieniom tym będzie poświęcony wykład następny.