Download - O statystycznym modelowaniu jezyka z elementami teorii informacjildebowsk/docs/seminaria/psych_uw_2018.pdf · Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna

O statystycznym modelowaniu językaz elementami teorii informacji

Łukasz Dę[email protected]

iInstytut Podstaw InformatykiPolskiej Akademii Nauk

Seminarium „Teoria informacji”Wydział Psychologii UW, Warszawa, 17.01.2018

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Moje zainteresowania

1 Statystyczne modelowanie języka:Problem teoretyczny:Jakie przypisać prawdopodobieństwo dowolnym wypowiedziomw danym języku naturalnym (angielskim, polskim, ...)?Zastosowania praktyczne:— automatyczne rozpoznawanie mowy, klawiatury telefonówkomórkowych, maszynowe tłumaczenie, sztuczna inteligencja.

2 Teoria informacji:Problem teoretyczny:Jak określić ilość informacji w zmiennej losowej bądź wustalonym napisie? −→ entropia, informacja wzajemna,

złożoność Kołmogorowa...Zastosowania praktyczne:— przesyłanie danych przez zaszumione kanały, kompresjadanych, automatyczna korekcja błędów.


1 Historia wcześniejsza

2 Teoria informacji

3 Inżynieria lingwistyczna

4 Moje obserwacje

5 Wyzwania teoretyczne


Jonathan Swift (1667–1745)

Podróże Guliwera (1726):

Zapewnił mnie, że ten wynalazekbył owocem wszystkich jego my-śli od wczesnej młodości, że użyłcałego dykcjonarza do tych ram iobliczył ściśle proporcje, jakie sąw księgach między rodzajnikami,imionami, czasownikami i innymirodzajami mowy.


Andriej Andriejewicz Markow (1856–1922)

Matematyk rosyjski. Autor poję-cia łańcucha Markowa. W wykła-dzie wygłoszonym w 1913 w Pe-tersburgu przedstawił zastosowa-nie pojęcia łańcucha Markowa doanalizy poematu Eugeniusz Onie-gin Aleksandra Puszkina. Szaco-wał w nim prawdopodobieństwowarunkowe występowania po so-bie spółgłosek i samogłosek wanalizowanym tekście.


Procesy Markowa

Proces stochastyczny (Xi )∞i=1 na przestrzeni (Ω,J ,P).

Bloki zmiennych losowych X kj := (Xj ,Xj+1, ...,Xk).

(notacja z teorii informacji)

P-stwo warunkowe zależy tylko od ostatniej zmiennej:

P(Xi |X i−11 ) = P(Xi |Xi−1)

Estymacja największej wiarogodności:

PMLE (Xi |Xi−1) :=N(X i

i−1|xn1 )

N(Xi−1|xn−11 ),

gdzie— N(w |z) to liczba wystąpień podsłowa w w słowie z ,— ciąg xN1 = (x1, x2, ..., xN) to próba ucząca.


G. Udny Yule (1871–1951), Herbert A. Simon (1916–2001)

Statystyk brytyjski i polimat amerykański.Twórcy rozkładu Yule’a-Simona i procesuYule’a (1925,1955), współcześnie znanychjako preferential attachment czy też efektśw. Mateusza, zaproponowanych w kontek-ście modelowania danych ekologicznych i lin-gwistycznych. Rozkład Yule’a jest przykła-dem procesu o potęgowym ogonie. G. U.Yule jest także autorem książki The Stati-stical Study of Literary Vocabulary (1944),w której wprowadził stałą K jako narzędziew atrybucji autorstwa tekstów.


George Kingsley Zipf (1902–1950)

Lingwista amerykański. Autorksiążki The Psycho-Biologyof Language: An Introductionto Dynamic Philology (1935).Przedstawił w niej empiryczneprawo zwane później prawemZipfa. Prawo to głosi, że częstośćdowolnego słowa w tekście jest zgrubsza odwrotnie proporcjonalnado rangi tego słowa.

Gwoli ścisłości odkrywcą prawa Zipfa był Jean-Baptiste Estoup(1868–1950), stenograf francuski, autor książki Gammesstenographiques (1912).


Przykład listy rangowej

Korpus Słownika Frekwencyjnego Polszczyzny Współczesnej

ranga r(w) częstość f (w) słowo w r(w) · f (w)1 14767 w 147672 12473 i 249463 11093 się 33279

... ... ... ...210 214 ciągu 44940211 213 jeśli 44943212 212 czas 44944213 210 ludzie 44730

... ... ... ...38420 2 Aaa 7684038421 1 żyznej 38421

... ... ... ...92963 1 aa 92963


Benoıt B. Mandelbrot (1924–2010)

Matematyk polsko-żydowskiegopochodzenia. Twórca geometriifraktalnej i autor słowa „fraktal”.Próbował zastosować pojęciefraktali do modelowania językanaturalnego i zaobserwował w ro-ku 1953, że prawo Zipfa spełnionejest przez teksty otrzymane przezniezależne losowanie kolejnychliter i odstępów w tekście.


George Armitage Miller (1920-2012)

Psycholog amerykański. Przyczy-nił się do narodzin psycholingwi-styki i kognitywistyki. Niezależnieod B. B. Mandelbrota także zaob-serwował w roku 1957, że prawoZipfa spełnione jest przez tekstyotrzymane przez niezależne loso-wanie kolejnych liter i odstępów wtekście.


Prawo Zipfa (ranga-częstość)

1

10

100

1000

10000

100000

1 10 100 1000 10000 100000 1x106

wor

d fr

eque

ncy

f(w

)

word rank r(w)

Shakespearerandom permutation

Estoup 1916; Zipf 1935; Mandelbrot 1953, Miller 1957:

f (w) ∝[

1

B + r(w)

]α, α > 1


Prawo Heapsa (liczba różnych słów)

1

10

100

1000

10000

100000

1x106

1 10 100 1000 10000 100000 1x106

num

ber

of w

ord

type

s V

number of word tokens N


Kuraszkiewicz i Łukaszewicz 1951; Herdan 1964; Heaps 1978:

V ∝ Nβ, β < 1, β ≈ 1/α

V — liczba różnych słów w tekście (typów/types)N — liczba wszystkich słów tekście (okazów/tokens)



2 Teoria informacji


4 Moje obserwacje



Claude Elwood Shannon (1902–2001)

Inżynier amerykański. Twórca teo-rii informacji, autor pojęcia en-tropii zmiennej losowej i mode-lu n-gramowego (1948). Moty-wujące założenie teorii informacjistanowi, że teksty w języku na-turalnym można modelować jakoproces stochastyczny. Modele n-gramowe, czyli modele Markowan-tego rzędu, są pewną próbą es-tymacji rozkładu p-stwa tego pro-cesu.


Entropia i intensywność entropii

Entropia zmiennej losowej:

H(X ) = −∑x

P(X = x) logP(X = x)

Entropia warunkowa:

H(X |Y ) = −∑x

P(X = x,Y = y) logP(X = x|Y = y)

Intensywność entropii procesu stacjonarnego (Xi )∞i=1:

h = limn→∞

H(X n1 )

n= lim

n→∞H(Xn|X n−1

1 )


Intensywność entropii dla języka angielskiego

Shannon (1951), Prediction and entropy of printed English.

Intensywność entropii języka naturalnego jest rzędu 1 bita na literę.


Hipoteza Hilberga (1990)

H(Xn|X n−11 ) ≈ Bnβ−1 + h, β ≈ 1/2, n ≤ 100


Model n-gramowy

Proces stochastyczny (Xi )∞i=1 na przestrzeni (Ω,J ,P).

Bloki zmiennych losowych X kj := (Xj ,Xj+1, ...,Xk).

P-stwo warunkowe zależy tylko od n− 1 ostatnich zmiennych:

P(Xi |X i−11 ) = P(Xi |X i−1

i−n+1)

Estymacja największej wiarogodności

PMLE (Xi |X i−1i−n+1) =

N(X ii−n+1|xN1 )

N(X i−1i−n+1|x

N−11 )

,



Modele n-gramowe — przykłady generowanych tekstów

model 2-gramowy:oć sśwatw wsz sta paku wo pojz ktćda bi iańcychy

model 3-gramowy:kłobez odzie na w swarza z le czenie niasną drały

model 4-gramowy:rykomadzie jużbie, w rancza Rzeciwsze z nie

model 5-gramowy:yk Siedziesiąt tysię, na pan Muszając; przysia

model 6-gramowy:k Sieniu oka mgnieniu, męstwę i rzuciła ślady

model 10-gramowy:enkiewicz, Pan Wołodyjowski wyjechać na objazd.

model 20-gramowy:Pan Wołodyjowski zaniepokoił się tym bardzo


Noam Chomsky (1928–)

Lingwista amerykański. Twórcahierarchii Chomsky’ego, czyli hie-rarchii języków formalnych, i for-malnych teorii składni języka na-turalnego (1957). Znany jest zbardzo wpływowego sceptycznegostosunku do statystycznego mode-lowania języka naturalnego.

Wpływowa w lingwistyce była też praca E. Marka Golda (1967)Language identification in the limit pokazująca, że w pewnymujęciu niestatystycznym niemożliwe jest nauczenie się z wyłączniedanych pozytywnych nieskończonych języków formalnych.


Andriej Nikołajewicz Kołmogorow (1903–1987)

Matematyk rosyjski. Twórcawspółczesnej teorii prawdopodo-bieństwa. Miał także wątpliwości,czy prawdopodobieństwo zdańi dłuższych tekstów w językunaturalnym ma sensowną inter-pretację częstościową, ale z tegopunktu widzenia zaproponowałalgorytmiczne podejście do defi-nicji ilości informacji zawartej wdowolnym napisie (1965). Współ-cześnie wielkość ta nazywana jestzłożonością Kołmogorowa.


Algorytmiczna teoria informacji

Złożoność Kołmogorowa:

K(w) = min |p| : U(p) = w

gdzie U(p) to wynik programu p.

(Złożoność Kołmogorowa nie jest efektywnie obliczalna.)

Napis w jest nazywany algorytmicznie losowym, gdy:

K(w) ≈ |w |

Zachodzi to, gdy najkrótszy program ma postać print w ;

Dla efektywnie obliczalnego rozkładu p-stwa:

0 ≤ EK(X n1 )− H(X n

1 ) ≤ K(P) + C

Zachodzi też podobna relacja prawie na pewno.



2 Teoria informacji


4 Moje obserwacje



Frederick Jelinek (1932–2010)

Amerykański inżynier czeskiegopochodzenia. Twórca systemówautomatycznego rozpoznawaniamowy opartych na statystycznymmodelowaniu języka naturalnego,ukrytych modelach Markowa imodelach n-gramowych. Częstocytowane jest jego powiedzenie:Every time I fire a linguist,the performance of the speechrecognizer goes up.


Automatyczne rozpoznawanie mowy

Reguła Bayesa:

P(tekst|mowa) =P(mowa|tekst)P(tekst)

P(mowa)

Wybieramy tekst o najwyższym p-stwie a posteriori.

Model języka P(tekst) szacuje się jako model n-gramowy,najczęściej używając n = 3 dla słów (trigramy).


Problem rzadkości danych

Przeciętne czynne słownictwo człowieka ≈ 104 słów.

Liczba różnych trigramów ≈ 1012.Współczesne korpusy tekstów ≈ 109 słów.

Nie jesteśmy w stanie sensownie wyestymować p-stw woparciu o estymację największej wiarogodności

PMLE (Xi |X i−1i−n+1) =

N(X ii−n+1|xN1 )

N(X i−1i−n+1|x

N−11 )

,



Jak uniknąć zerowych i nieokreślonych p-stw warunkowych?

Przykładowe wygładzanie prawdopodobieństw:

Pn(Xi |X i−1i−n+1) =

N(X ii−n+1|xN1 ) + λnPn−1(Xi |X i−1

i−n+2)

N(X i−1i−n+1|x

N−11 ) + λn

,

gdzie λn to wolne parametry.

Parametry λn dobiera się minimalizując entropię krzyżową

−M∑i=3

logP3(Xi = yi |X i−1i−2 = y i−1i−2 )

na danych walidacyjnych yM1 = (y1, y2, ..., yM).

Zaproponowano wiele innych technik wygładzania(np. estymator Gooda-Turinga).

Entropia krzyżowa takich modeli jest rzędu 1,5 bita na literę.



2 Teoria informacji


4 Moje obserwacje



Maksymalne powtórzenie

Maksymalne powtórzenie (maximal repetition) L(xn1 ) w tekściexn1 = (x1, x2, ..., xn) to maksymalna długość powtarzającego siępodsłowa.

Formalnie,

L(xn1 ) := maxk : x i+k

i+1 = xj+kj+1 dla pewnych 0 ≤ i < j ≤ n − k

.

Przykład:

xn1 = “O szyby deszcz dzwoni, deszcz dzwoni jesienny.”

L(xn1 ) = |“ deszcz dzwoni”| = 14.

Maksymalne powtórzenie L(xn1 ) można policzyć w czasie O(n)sortując drzewo sufiksów (Kolpakov & Kucherov, 1999).


Z punktu widzenia probabilistów... (Erdos & Renyi, 1970)

Niech (Xi )∞i=1 będzie procesem IID, tzn. nieskończonym ciągiem

niezależnych zmiennych losowych o identycznym rozkładzie,

P(X n1 = xn1 ) =

n∏i=1

p(xi ).

Można wówczas udowodnić, że istnieje taka stała A > 0, że

L(X n1 ) ≤ A log n

dla dostatecznie dużych n z prawdopodobieństwem 1.

Inaczej pisząc,

P

(lim supn→∞

L(X n1 )

log n≤ A

)= 1.


A w odniesieniu do języka... (Dębowski, 2015)

0.1

1

10

100

1000

1 10 100 1000 10000 100000 1x106 1x107

max

imal

rep

etiti

on L

(w)

string length |w|


L(xn1 ) ≈ 0.02498 (log n)3.136 dla tekstu w języku angielskim.L(xn1 ) ≈ 0.4936 (log n)1.150 dla losowej permutacji znaków.


Kod PPM (Prediction by Partial Matching)

Definiujemy

PPMk(xi |x i−11 ) :=

1

D, i ≤ k,

N(x ii−k |xi−11 ) + 1

N(x i−1i−k |xi−21 ) + D

, i > k,

PPMk(xn1 ) :=n∏i=1

PPMk(xi |x i−11 ),

PPM(xn1 ) :=6

π2

∞∑k=−1

PPMk(xn1 )

(k + 2)2.

Wielkość PPM(xn1 ) nazywa się p-stwem PPM napisu xn1 .

Zauważmy, że PPMk(xn1 ) = D−n dla k > L(xn1 ).


Uniwersalność p-stwa PPM

Entropia bloku: H(X n1 ) = E

[− logP(X n

1 )]

Intensywność entropii: h = limn→∞

1

nE[− logP(X n

1 )]

Twierdzenie

P-stwo PPM jest p-stwem uniwersalnym, tzn. zachodzi

E[− log PPM(X n

1 )]≥ H(X n

1 )

limn→∞

1

nE[− log PPM(X n

1 )]

= h

dla dowolnego procesu stacjonarnego (Xi )∞i=1 o skończ. alfabecie.


Rząd PPM i słownik PPM

Rząd PPM GPPM(xn1 ) to najmniejsza liczba G taka, że

− log PPMG (xn1 ) ≤ − log PPMk(xn1 ) dla każdego k ≥ −1.

Zbiór wszystkich podsłów długości m w napisie xn1 to

V (m|xn1 ) :=ym1 : x t+m

t+1 = ym1 dla pewnego 0 ≤ t ≤ n −m.

Zbiór różnych słów PPM w napisie X n1 to

VPPM(xn1 ) := V (GPPM(xn1 )|xn1 ).

Ogólnie zachodzi nierówność

cardVPPM(xn1 ) ≤ minDGPPM(xn1 ), n − GPPM(xn1 ) + 1

.


Rząd PPM na wykresie

-2

-1

0

1

2

3

1 10 100 1000 10000 100000 1x106 1x107

PP

M o

rder

input length [characters]

Shakespeare"unigram_ppm.txt"


Moc słownika PPM na wykresie

1

10

100

1000

10000

100000

1 10 100 1000 10000 100000 1x106 1x107

card

inal

ity o

f the

PP

M v

ocab

ular

y

input length [characters]




2 Teoria informacji


4 Moje obserwacje



Statystyczne prawa językowe

Teksty w języku naturalnym spełniają przybliżone prawa ilościowe:1 Prawo Zipfa: częstość słowa jest odwrotnie proporcjonalna

do rangi słowa.2 Prawo Heapsa: liczba różnych słów w tekście rośnie

potęgowo z długością tekstu.3 Intensywność entropii Shannona: jest rzędu 1 bita na literę.4 Hipoteza Hilberga: entropia warunkowa litery maleje

potęgowo z długością kontekstu.5 Prawo kodu PPM: liczba różnych „słów” wykrywanych przez

algorytm PPM w tekście rośnie potęgowo z długością tekstu.6 Prawo maksymalnego powtórzenia: długość maksymalnego

powtórzenia rośnie jak sześcian logarytmu długości tekstu.

Czy można coś wywnioskować o języku jako procesiestochastycznym na podstawie tych obserwacji/hipotez?


Pytania matematyka

1 Czy istnieje idealny probabilistyczny model języka?2 Czy model ten może być modelem Markowa?3 Czy model ten może być ukrytym modelem Markowa?4 Czy model ten jest ergodyczny?5 Czy model ten jest stacjonarny?6 Czy model ten jest asymptotycznie średnio stacjonarny?7 Czy model ten jest kodem uniwersalnym?8 Czy model ten jest efektywnie obliczalny?