O statystycznym modelowaniu językaz elementami teorii informacji
Łukasz Dę[email protected]
iInstytut Podstaw InformatykiPolskiej Akademii Nauk
Seminarium „Teoria informacji”Wydział Psychologii UW, Warszawa, 17.01.2018
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Moje zainteresowania
1 Statystyczne modelowanie języka:Problem teoretyczny:Jakie przypisać prawdopodobieństwo dowolnym wypowiedziomw danym języku naturalnym (angielskim, polskim, ...)?Zastosowania praktyczne:— automatyczne rozpoznawanie mowy, klawiatury telefonówkomórkowych, maszynowe tłumaczenie, sztuczna inteligencja.
2 Teoria informacji:Problem teoretyczny:Jak określić ilość informacji w zmiennej losowej bądź wustalonym napisie? −→ entropia, informacja wzajemna,
złożoność Kołmogorowa...Zastosowania praktyczne:— przesyłanie danych przez zaszumione kanały, kompresjadanych, automatyczna korekcja błędów.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
1 Historia wcześniejsza
2 Teoria informacji
3 Inżynieria lingwistyczna
4 Moje obserwacje
5 Wyzwania teoretyczne
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Jonathan Swift (1667–1745)
Podróże Guliwera (1726):
Zapewnił mnie, że ten wynalazekbył owocem wszystkich jego my-śli od wczesnej młodości, że użyłcałego dykcjonarza do tych ram iobliczył ściśle proporcje, jakie sąw księgach między rodzajnikami,imionami, czasownikami i innymirodzajami mowy.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Andriej Andriejewicz Markow (1856–1922)
Matematyk rosyjski. Autor poję-cia łańcucha Markowa. W wykła-dzie wygłoszonym w 1913 w Pe-tersburgu przedstawił zastosowa-nie pojęcia łańcucha Markowa doanalizy poematu Eugeniusz Onie-gin Aleksandra Puszkina. Szaco-wał w nim prawdopodobieństwowarunkowe występowania po so-bie spółgłosek i samogłosek wanalizowanym tekście.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Procesy Markowa
Proces stochastyczny (Xi )∞i=1 na przestrzeni (Ω,J ,P).
Bloki zmiennych losowych X kj := (Xj ,Xj+1, ...,Xk).
(notacja z teorii informacji)
P-stwo warunkowe zależy tylko od ostatniej zmiennej:
P(Xi |X i−11 ) = P(Xi |Xi−1)
Estymacja największej wiarogodności:
PMLE (Xi |Xi−1) :=N(X i
i−1|xn1 )
N(Xi−1|xn−11 ),
gdzie— N(w |z) to liczba wystąpień podsłowa w w słowie z ,— ciąg xN1 = (x1, x2, ..., xN) to próba ucząca.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
G. Udny Yule (1871–1951), Herbert A. Simon (1916–2001)
Statystyk brytyjski i polimat amerykański.Twórcy rozkładu Yule’a-Simona i procesuYule’a (1925,1955), współcześnie znanychjako preferential attachment czy też efektśw. Mateusza, zaproponowanych w kontek-ście modelowania danych ekologicznych i lin-gwistycznych. Rozkład Yule’a jest przykła-dem procesu o potęgowym ogonie. G. U.Yule jest także autorem książki The Stati-stical Study of Literary Vocabulary (1944),w której wprowadził stałą K jako narzędziew atrybucji autorstwa tekstów.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
George Kingsley Zipf (1902–1950)
Lingwista amerykański. Autorksiążki The Psycho-Biologyof Language: An Introductionto Dynamic Philology (1935).Przedstawił w niej empiryczneprawo zwane później prawemZipfa. Prawo to głosi, że częstośćdowolnego słowa w tekście jest zgrubsza odwrotnie proporcjonalnado rangi tego słowa.
Gwoli ścisłości odkrywcą prawa Zipfa był Jean-Baptiste Estoup(1868–1950), stenograf francuski, autor książki Gammesstenographiques (1912).
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Przykład listy rangowej
Korpus Słownika Frekwencyjnego Polszczyzny Współczesnej
ranga r(w) częstość f (w) słowo w r(w) · f (w)1 14767 w 147672 12473 i 249463 11093 się 33279
... ... ... ...210 214 ciągu 44940211 213 jeśli 44943212 212 czas 44944213 210 ludzie 44730
... ... ... ...38420 2 Aaa 7684038421 1 żyznej 38421
... ... ... ...92963 1 aa 92963
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Benoıt B. Mandelbrot (1924–2010)
Matematyk polsko-żydowskiegopochodzenia. Twórca geometriifraktalnej i autor słowa „fraktal”.Próbował zastosować pojęciefraktali do modelowania językanaturalnego i zaobserwował w ro-ku 1953, że prawo Zipfa spełnionejest przez teksty otrzymane przezniezależne losowanie kolejnychliter i odstępów w tekście.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
George Armitage Miller (1920-2012)
Psycholog amerykański. Przyczy-nił się do narodzin psycholingwi-styki i kognitywistyki. Niezależnieod B. B. Mandelbrota także zaob-serwował w roku 1957, że prawoZipfa spełnione jest przez tekstyotrzymane przez niezależne loso-wanie kolejnych liter i odstępów wtekście.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Prawo Zipfa (ranga-częstość)
1
10
100
1000
10000
100000
1 10 100 1000 10000 100000 1x106
wor
d fr
eque
ncy
f(w
)
word rank r(w)
Shakespearerandom permutation
Estoup 1916; Zipf 1935; Mandelbrot 1953, Miller 1957:
f (w) ∝[
1
B + r(w)
]α, α > 1
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Prawo Heapsa (liczba różnych słów)
1
10
100
1000
10000
100000
1x106
1 10 100 1000 10000 100000 1x106
num
ber
of w
ord
type
s V
number of word tokens N
Shakespearerandom permutation
Kuraszkiewicz i Łukaszewicz 1951; Herdan 1964; Heaps 1978:
V ∝ Nβ, β < 1, β ≈ 1/α
V — liczba różnych słów w tekście (typów/types)N — liczba wszystkich słów tekście (okazów/tokens)
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
1 Historia wcześniejsza
2 Teoria informacji
3 Inżynieria lingwistyczna
4 Moje obserwacje
5 Wyzwania teoretyczne
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Claude Elwood Shannon (1902–2001)
Inżynier amerykański. Twórca teo-rii informacji, autor pojęcia en-tropii zmiennej losowej i mode-lu n-gramowego (1948). Moty-wujące założenie teorii informacjistanowi, że teksty w języku na-turalnym można modelować jakoproces stochastyczny. Modele n-gramowe, czyli modele Markowan-tego rzędu, są pewną próbą es-tymacji rozkładu p-stwa tego pro-cesu.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Entropia i intensywność entropii
Entropia zmiennej losowej:
H(X ) = −∑x
P(X = x) logP(X = x)
Entropia warunkowa:
H(X |Y ) = −∑x
P(X = x,Y = y) logP(X = x|Y = y)
Intensywność entropii procesu stacjonarnego (Xi )∞i=1:
h = limn→∞
H(X n1 )
n= lim
n→∞H(Xn|X n−1
1 )
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Intensywność entropii dla języka angielskiego
Shannon (1951), Prediction and entropy of printed English.
Intensywność entropii języka naturalnego jest rzędu 1 bita na literę.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Hipoteza Hilberga (1990)
H(Xn|X n−11 ) ≈ Bnβ−1 + h, β ≈ 1/2, n ≤ 100
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Model n-gramowy
Proces stochastyczny (Xi )∞i=1 na przestrzeni (Ω,J ,P).
Bloki zmiennych losowych X kj := (Xj ,Xj+1, ...,Xk).
P-stwo warunkowe zależy tylko od n− 1 ostatnich zmiennych:
P(Xi |X i−11 ) = P(Xi |X i−1
i−n+1)
Estymacja największej wiarogodności
PMLE (Xi |X i−1i−n+1) =
N(X ii−n+1|xN1 )
N(X i−1i−n+1|x
N−11 )
,
gdzie— N(w |z) to liczba wystąpień podsłowa w w słowie z ,— ciąg xN1 = (x1, x2, ..., xN) to próba ucząca.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Modele n-gramowe — przykłady generowanych tekstów
model 2-gramowy:oć sśwatw wsz sta paku wo pojz ktćda bi iańcychy
model 3-gramowy:kłobez odzie na w swarza z le czenie niasną drały
model 4-gramowy:rykomadzie jużbie, w rancza Rzeciwsze z nie
model 5-gramowy:yk Siedziesiąt tysię, na pan Muszając; przysia
model 6-gramowy:k Sieniu oka mgnieniu, męstwę i rzuciła ślady
model 10-gramowy:enkiewicz, Pan Wołodyjowski wyjechać na objazd.
model 20-gramowy:Pan Wołodyjowski zaniepokoił się tym bardzo
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Noam Chomsky (1928–)
Lingwista amerykański. Twórcahierarchii Chomsky’ego, czyli hie-rarchii języków formalnych, i for-malnych teorii składni języka na-turalnego (1957). Znany jest zbardzo wpływowego sceptycznegostosunku do statystycznego mode-lowania języka naturalnego.
Wpływowa w lingwistyce była też praca E. Marka Golda (1967)Language identification in the limit pokazująca, że w pewnymujęciu niestatystycznym niemożliwe jest nauczenie się z wyłączniedanych pozytywnych nieskończonych języków formalnych.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Andriej Nikołajewicz Kołmogorow (1903–1987)
Matematyk rosyjski. Twórcawspółczesnej teorii prawdopodo-bieństwa. Miał także wątpliwości,czy prawdopodobieństwo zdańi dłuższych tekstów w językunaturalnym ma sensowną inter-pretację częstościową, ale z tegopunktu widzenia zaproponowałalgorytmiczne podejście do defi-nicji ilości informacji zawartej wdowolnym napisie (1965). Współ-cześnie wielkość ta nazywana jestzłożonością Kołmogorowa.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Algorytmiczna teoria informacji
Złożoność Kołmogorowa:
K(w) = min |p| : U(p) = w
gdzie U(p) to wynik programu p.
(Złożoność Kołmogorowa nie jest efektywnie obliczalna.)
Napis w jest nazywany algorytmicznie losowym, gdy:
K(w) ≈ |w |
Zachodzi to, gdy najkrótszy program ma postać print w ;
Dla efektywnie obliczalnego rozkładu p-stwa:
0 ≤ EK(X n1 )− H(X n
1 ) ≤ K(P) + C
Zachodzi też podobna relacja prawie na pewno.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
1 Historia wcześniejsza
2 Teoria informacji
3 Inżynieria lingwistyczna
4 Moje obserwacje
5 Wyzwania teoretyczne
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Frederick Jelinek (1932–2010)
Amerykański inżynier czeskiegopochodzenia. Twórca systemówautomatycznego rozpoznawaniamowy opartych na statystycznymmodelowaniu języka naturalnego,ukrytych modelach Markowa imodelach n-gramowych. Częstocytowane jest jego powiedzenie:Every time I fire a linguist,the performance of the speechrecognizer goes up.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Automatyczne rozpoznawanie mowy
Reguła Bayesa:
P(tekst|mowa) =P(mowa|tekst)P(tekst)
P(mowa)
Wybieramy tekst o najwyższym p-stwie a posteriori.
Model języka P(tekst) szacuje się jako model n-gramowy,najczęściej używając n = 3 dla słów (trigramy).
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Problem rzadkości danych
Przeciętne czynne słownictwo człowieka ≈ 104 słów.
Liczba różnych trigramów ≈ 1012.Współczesne korpusy tekstów ≈ 109 słów.
Nie jesteśmy w stanie sensownie wyestymować p-stw woparciu o estymację największej wiarogodności
PMLE (Xi |X i−1i−n+1) =
N(X ii−n+1|xN1 )
N(X i−1i−n+1|x
N−11 )
,
gdzie— N(w |z) to liczba wystąpień podsłowa w w słowie z ,— ciąg xN1 = (x1, x2, ..., xN) to próba ucząca.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Jak uniknąć zerowych i nieokreślonych p-stw warunkowych?
Przykładowe wygładzanie prawdopodobieństw:
Pn(Xi |X i−1i−n+1) =
N(X ii−n+1|xN1 ) + λnPn−1(Xi |X i−1
i−n+2)
N(X i−1i−n+1|x
N−11 ) + λn
,
gdzie λn to wolne parametry.
Parametry λn dobiera się minimalizując entropię krzyżową
−M∑i=3
logP3(Xi = yi |X i−1i−2 = y i−1i−2 )
na danych walidacyjnych yM1 = (y1, y2, ..., yM).
Zaproponowano wiele innych technik wygładzania(np. estymator Gooda-Turinga).
Entropia krzyżowa takich modeli jest rzędu 1,5 bita na literę.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
1 Historia wcześniejsza
2 Teoria informacji
3 Inżynieria lingwistyczna
4 Moje obserwacje
5 Wyzwania teoretyczne
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Maksymalne powtórzenie
Maksymalne powtórzenie (maximal repetition) L(xn1 ) w tekściexn1 = (x1, x2, ..., xn) to maksymalna długość powtarzającego siępodsłowa.
Formalnie,
L(xn1 ) := maxk : x i+k
i+1 = xj+kj+1 dla pewnych 0 ≤ i < j ≤ n − k
.
Przykład:
xn1 = “O szyby deszcz dzwoni, deszcz dzwoni jesienny.”
L(xn1 ) = |“ deszcz dzwoni”| = 14.
Maksymalne powtórzenie L(xn1 ) można policzyć w czasie O(n)sortując drzewo sufiksów (Kolpakov & Kucherov, 1999).
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Z punktu widzenia probabilistów... (Erdos & Renyi, 1970)
Niech (Xi )∞i=1 będzie procesem IID, tzn. nieskończonym ciągiem
niezależnych zmiennych losowych o identycznym rozkładzie,
P(X n1 = xn1 ) =
n∏i=1
p(xi ).
Można wówczas udowodnić, że istnieje taka stała A > 0, że
L(X n1 ) ≤ A log n
dla dostatecznie dużych n z prawdopodobieństwem 1.
Inaczej pisząc,
P
(lim supn→∞
L(X n1 )
log n≤ A
)= 1.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
A w odniesieniu do języka... (Dębowski, 2015)
0.1
1
10
100
1000
1 10 100 1000 10000 100000 1x106 1x107
max
imal
rep
etiti
on L
(w)
string length |w|
Shakespearerandom permutation
L(xn1 ) ≈ 0.02498 (log n)3.136 dla tekstu w języku angielskim.L(xn1 ) ≈ 0.4936 (log n)1.150 dla losowej permutacji znaków.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Kod PPM (Prediction by Partial Matching)
Definiujemy
PPMk(xi |x i−11 ) :=
1
D, i ≤ k,
N(x ii−k |xi−11 ) + 1
N(x i−1i−k |xi−21 ) + D
, i > k,
PPMk(xn1 ) :=n∏i=1
PPMk(xi |x i−11 ),
PPM(xn1 ) :=6
π2
∞∑k=−1
PPMk(xn1 )
(k + 2)2.
Wielkość PPM(xn1 ) nazywa się p-stwem PPM napisu xn1 .
Zauważmy, że PPMk(xn1 ) = D−n dla k > L(xn1 ).
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Uniwersalność p-stwa PPM
Entropia bloku: H(X n1 ) = E
[− logP(X n
1 )]
Intensywność entropii: h = limn→∞
1
nE[− logP(X n
1 )]
Twierdzenie
P-stwo PPM jest p-stwem uniwersalnym, tzn. zachodzi
E[− log PPM(X n
1 )]≥ H(X n
1 )
limn→∞
1
nE[− log PPM(X n
1 )]
= h
dla dowolnego procesu stacjonarnego (Xi )∞i=1 o skończ. alfabecie.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Rząd PPM i słownik PPM
Rząd PPM GPPM(xn1 ) to najmniejsza liczba G taka, że
− log PPMG (xn1 ) ≤ − log PPMk(xn1 ) dla każdego k ≥ −1.
Zbiór wszystkich podsłów długości m w napisie xn1 to
V (m|xn1 ) :=ym1 : x t+m
t+1 = ym1 dla pewnego 0 ≤ t ≤ n −m.
Zbiór różnych słów PPM w napisie X n1 to
VPPM(xn1 ) := V (GPPM(xn1 )|xn1 ).
Ogólnie zachodzi nierówność
cardVPPM(xn1 ) ≤ minDGPPM(xn1 ), n − GPPM(xn1 ) + 1
.
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Rząd PPM na wykresie
-2
-1
0
1
2
3
1 10 100 1000 10000 100000 1x106 1x107
PP
M o
rder
input length [characters]
Shakespeare"unigram_ppm.txt"
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Moc słownika PPM na wykresie
1
10
100
1000
10000
100000
1 10 100 1000 10000 100000 1x106 1x107
card
inal
ity o
f the
PP
M v
ocab
ular
y
input length [characters]
Shakespearerandom permutation
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
1 Historia wcześniejsza
2 Teoria informacji
3 Inżynieria lingwistyczna
4 Moje obserwacje
5 Wyzwania teoretyczne
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Statystyczne prawa językowe
Teksty w języku naturalnym spełniają przybliżone prawa ilościowe:1 Prawo Zipfa: częstość słowa jest odwrotnie proporcjonalna
do rangi słowa.2 Prawo Heapsa: liczba różnych słów w tekście rośnie
potęgowo z długością tekstu.3 Intensywność entropii Shannona: jest rzędu 1 bita na literę.4 Hipoteza Hilberga: entropia warunkowa litery maleje
potęgowo z długością kontekstu.5 Prawo kodu PPM: liczba różnych „słów” wykrywanych przez
algorytm PPM w tekście rośnie potęgowo z długością tekstu.6 Prawo maksymalnego powtórzenia: długość maksymalnego
powtórzenia rośnie jak sześcian logarytmu długości tekstu.
Czy można coś wywnioskować o języku jako procesiestochastycznym na podstawie tych obserwacji/hipotez?
Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne
Pytania matematyka
1 Czy istnieje idealny probabilistyczny model języka?2 Czy model ten może być modelem Markowa?3 Czy model ten może być ukrytym modelem Markowa?4 Czy model ten jest ergodyczny?5 Czy model ten jest stacjonarny?6 Czy model ten jest asymptotycznie średnio stacjonarny?7 Czy model ten jest kodem uniwersalnym?8 Czy model ten jest efektywnie obliczalny?
Top Related