Praktyczne i teoretyczne problemy statystycznego...

Praktyczne i teoretyczne problemystatystycznego modelowania języka naturalnego

Część III: Twierdzenie o faktach i słowach

Łukasz Dębowskildebowsk@ipipan.waw.pl

iInstytut Podstaw InformatykiPolskiej Akademii Nauk

XLIII Konferencja „Statystyka Matematyczna”Będlewo, 04–08.12.2017

Tytuł Punkt wyjścia Słowa i MI Fakty i MI Konkluzje Dodatek

Statystyczne prawa językowe

Teksty w języku naturalnym spełniają przybliżone prawa ilościowe:1 Prawo Zipfa: częstość słowa jest odwrotnie proporcjonalna

do rangi słowa.2 Prawo Heapsa: liczba różnych słów w tekście rośnie

potęgowo z długością tekstu.3 Intensywność entropii Shannona: jest rzędu 1 bita na literę.4 Hipoteza Hilberga: entropia warunkowa litery maleje

potęgowo z długością kontekstu.5 Prawo kodu PPM: liczba różnych „słów” wykrywanych przez

algorytm PPM w tekście rośnie potęgowo z długością tekstu.6 Prawo maksymalnego powtórzenia: długość maksymalnego

powtórzenia rośnie jak sześcian logarytmu długości tekstu.

Czy można coś wywnioskować o języku jako procesiestochastycznym na podstawie tych obserwacji/hipotez?

Pytania matematyka

1 Czy istnieje idealny probabilistyczny model języka?2 Czy model ten może być modelem Markowa?3 Czy model ten może być ukrytym modelem Markowa?4 Czy model ten jest ergodyczny?5 Czy model ten jest stacjonarny?6 Czy model ten jest asymptotycznie średnio stacjonarny?7 Czy model ten jest kodem uniwersalnym?8 Czy model ten jest efektywnie obliczalny?

1 Punkt wyjścia

2 Słowa PPM i informacja wzajemna

3 Fakty i informacja wzajemna

4 Konkluzje

5 Dodatek

Hipoteza Hilberga dla entropii Shannona (1990)

H(X ) := E [−P(X )] H(X |Y ) := E [−P(X |Y )]

H(Xn|X n−11 ) ≈ Bnβ−1 + h, β ≈ 1/2, n ≤ 100

Prawa potęgowe dla entropii i informacji wzajemnej

Informacja wzajemna dla procesu stacjonarnego:

I (X n

1 ;X2nn+1) := H(X n

1 ) + H(X 2nn+1)− H(X 2n1 )

= 2H(X n

1 )− H(X 2n1 )

Hipoteza Hilberga:

H(Xn|X n−11 ) ≈ Bnβ−1 + h

1 ) =n∑i=1

H(Xi |X i−11 ) ≈ B ′nβ + hn

⇓I (X n

1 ;X2nn+1) ≈ B ′′nβ

Wykładnik Hilberga

Wykładnik Hilberga definiujemy jako

hilbn→∞

s(n) := lim supn→∞

log+ s(2n)

log 2n, log+ x =

{log(x + 1), x ≥ 0,0, x < 0.

Na przykład hilbn→∞

nβ = β.

Twierdzenie

Niech J(n) := 2G(n)−G(2n). Jeżeli limn→∞G(n)/n = g, to

hilbn→∞

(G(n)− ng) ≤ hilbn→∞

gdzie równość zachodzi, gdy J(n) ≥ 0.

Stąd hilbn→∞(H(X n

1 )− nh)= hilbn→∞ I (X n

1 ;X2nn+1).

Prawo Heapsa (liczba różnych słów ortograficznych)

100000

1 10 100 1000 10000 100000 1x106

number of word tokens N

Shakespearerandom permutation

Kuraszkiewicz i Łukaszewicz 1951; Herdan 1964; Heaps 1978:

V ∝ Nγ, γ < 1

V — liczba różnych słów w tekście (typów/types).N — liczba wszystkich słów tekście (okazów/tokens).

1 Punkt wyjścia

4 Konkluzje

5 Dodatek

Kod PPM (Prediction by Partial Matching)

Definiujemy

PPMk(xi |x i−11 ) :=

D, i ≤ k,

N(x ii−k |x

i−11 ) + 1

N(x i−1i−k |x

i−21 ) + D

, i > k,

PPMk(xn

1 ) :=n∏i=1

PPMk(xi |x i−11 ),

PPM(xn1 ) :=6

∞∑k=−1

PPMk(xn1 )

(k + 2)2.

Wielkość PPM(xn1 ) nazywa się p-stwem PPM napisu xn1 .

Zauważmy, że PPMk(xn1 ) = D−n dla k > L(xn1 ).

Uniwersalność p-stwa PPM

Entropia bloku: H(X n1 ) = E

[− logP(X n

Intensywność entropii: h = limn→∞

nE[− logP(X n

Twierdzenie

P-stwo PPM jest p-stwem uniwersalnym, tzn. zachodzi

E[− log PPM(X n

1 )]≥ E

[− logP(X n

limn→∞

nE[− log PPM(X n

1 )]= lim

n→∞

nE[− logP(X n

dla dowolnego procesu stacjonarnego (Xi )∞i=1 o skończ. alfabecie.

Rząd PPM i słownik PPM

Rząd PPM GPPM(xn1 ) to najmniejsza liczba G taka, że

− log PPMG (xn

1 ) ≤ − log PPMk(xn

1 ) dla każdego k ≥ −1.

Zbiór wszystkich podsłów długości m w napisie xn1 to

V (m|xn1 ) :={ym1 : x t+m

t+1 = ym1 dla pewnego 0 ≤ t ≤ n −m}.

Zbiór różnych słów PPM w napisie X n1 to

VPPM(xn1 ) := V (GPPM(xn1 )|xn

Ogólnie zachodzi nierówność

cardVPPM(xn1 ) ≤ min{DGPPM(xn

1 ), n − GPPM(xn1 ) + 1}.

Rząd PPM na wykresie

1 10 100 1000 10000 100000 1x106 1x107

input length [characters]

Shakespeare"unigram_ppm.txt"

Moc słownika PPM na wykresie

100000

1 10 100 1000 10000 100000 1x106 1x107

input length [characters]

Shakespearerandom permutation

Wykładnik Hilberga dla mocy słownika PPM

Dla procesów Markowa k-tego rzędu nad skończonym alfabetem

limn→∞

GPPM(X n

1 ) ≤ k, czyli hilbn→∞

cardVPPM(X n

1 ) = 0.

Dla języka naturalnego mamy prawdopodobnie

hilbn→∞

cardVPPM(X n

1 ) = β, β ∈ (0, 1).

Czyli język naturalny nie jest procesem Markowa.

W poprzednim wykładzie wykazaliśmy mocniejszy fakt,że język nie jest ukrytym procesem Markowa.

Twierdzenie o słowach i informacji wzajemnej

Entropia krzyżowa PPM:

HPPM(X n

1 ) = E[− log PPM(X n

Informacja wzajemna PPM dla procesu stacjonarnego:

IPPM(X n

1 ;X2nn+1) := HPPM(X n

1 ) + HPPM(X 2nn+1)− HPPM(X 2n1 )

= 2HPPM(X n

1 )− HPPM(X 2n1 )

Twierdzenie (informacja wzajemna i słowa PPM)

Dla dowolnego procesu stacjonarnego (Xi )∞i=1 o skończ. alfabecie

hilbn→∞

I (X n

1 ;X2nn+1) ≤ hilb

n→∞IPPM(X n

1 ;X2nn+1)

≤ hilbn→∞

E[GPPM(X n

1 ) + cardVPPM(X n

1 Punkt wyjścia

4 Konkluzje

5 Dodatek

Twierdzenie ergodyczne i procesy ergodyczne

1 Rozpatrzmy proces dyskretny (Xi )∞i=1 = (X1,X2,X3, ...).

2 Dla napisu w = (x1, ..., xn) określmy zmienną losową

{1 jeżeli Xi = x1, ...,Xi+n−1 = xn,

0 inaczej.

3 Proces (Xi )∞i=1 nazywa się stacjonarnym, gdy wartości

oczekiwane EY wi

nie zależą od i dla wszystkich w .

Twierdzenie (ergodyczne)

Dla dowolnego procesu stacjonarego (Xi )∞i=1, istnieją granice

limn→∞

n∑i=1

i= Y w prawie na pewno.

4 Proces (Xi )∞i=1 nazywa się ergodycznym, gdy granice Y w są

stałe dla każdego w .

Przykłady ergodycznych procesów stacjonarnych

1 Proces (Xi )∞i=1 nazywa się IID, jeżeli

P(X1 = x1, ...,Xn = xn) = π(x1)...π(xn).

— Procesy IID są ergodyczne.2 Proces (Xi )

∞i=1 nazywa się Markowa, jeżeli

P(X1 = x1, ...,Xn = xn) = π(x1)p(x2|x1)...p(xn|xn−1).

— Proces Markowa jest ergodyczny, jeśli p(xi |xi−1) > c > 0.3 Proces (Yi )

∞i=1 nazywa się ukrytym Markowa, jeżeli

Yi = f (Xi ) dla pewnego procesu Markowa (Xi )∞i=1.

— Ukryty proces Markowa jest ergodyczny, jeśli jego procesMarkowa jest ergodyczny.

Czy język naturalny jest nieergodyczny?

1 Proces jest ergodyczny, jeżeli częstości napisów wdostatecznie długiej próbie zbiegają do wartości stałych.

2 Wyobraźmy sobie teraz, że sięgamy po tekst będący losowowybraną książką z biblioteki.

3 Spróbujmy policzyć częstości słowa kluczowego, np. słowabijekcja czy słowa skamielina.

4 Spodziewamy się, że częstości słów kluczowych są zmiennymilosowymi o wartościach zależych od tematu losowego tekstu.

5 Ponieważ słowa kluczowe są pewnymi napisami, to processtochastyczny modelujący język naturalny powinien byćnieergodyczny.

Zliczając słowa kluczowe, możemy rozpoznać temat tekstu.

Procesy nieergodyczne — inna perspektywa

Intuicja: Proces jest nieergodyczny ⇐⇒ istnieją ≥ dwa tematy.

Twierdzenie

Proces (Xi )∞i=1 jest nieergodyczny wtedy i tylko wtedy, gdy istnieje

funkcja f (x1, ..., xn) ciągów symboli i binarna zmienna losowa Z

takie, że 0 < P(Z = 0) < 1 oraz

limn→∞

P(f (Xt+1, ...,Xt+n) = Z) = 1 (1)

dla dowolnej pozycji t.

Definicja

Zmienną losową Z spełniającą (1) nazywam losowym faktem.

Zatem proces jest nieergodyczny, jeśli istnieje ≥ jeden losowy fakt.Losowy fakt informuje, na który z dwóch tematów jest tekst.

Proces Santa Fe — przykład procesu nieergodycznego

1 Niech (Zk)∞k=1 będzie procesem IID o Zk ∈ {0, 1} oraz

P(Zk = 0) = P(Zk = 1) = 1/2.

2 Niech (Ki )∞i=1 będzie procesem IID o Ki ∈ {1, 2, 3, ...} oraz

P(Ki = k) ∝1

kα, α > 1.

3 Proces Santa Fe to proces (Xi )∞i=1, gdzie

Xi = (Ki ,ZKi).

4 Proces Santa Fe jest nieergodyczny, gdyż wszystkie Zk sąprobabilistycznie niezależnymi faktami losowymi.

Mocna nieergodyczność

Intuicja: Proces Santa Fe process jest mocno nieergodyczny, gdyżistnieje nieskończenie wiele probab. niezależnych faktów losowych.

Definicja

Proces (Xi )∞i=1 nazywa się mocno nieergodycznym, gdy istnieją

funkcje fk(x1, ..., xn) ciągów symboli i binarny proces IID (Zk)∞k=1

takie, że P(Zk = 0) = P(Zk = 1) = 1/2 oraz

limn→∞

P(fk(Xt+1, ...,Xt+n) = Zk) = 1

dla dowolnej pozycji t i dowolnego k = 1, 2, 3, ....

(liczba tematów) ≈ 2(liczba niezależnych faktów losowych)

mocna nieergodyczność ⇐⇒ kontinuum tematów

Potęgowy wzrost liczby przewidywalnych faktów

Zbiór niezależnych losowych faktów przewidywalnych z X n1 to

1 ) :={l ∈ {1, 2, ...} : fk(X n

1 ) = Zk for all k ≤ l}.

Dla procesów Santa Fe mamy dokładne równości

hilbn→∞

E cardU(X n

1 ) = hilbn→∞

I (X n

1 ;X2nn+1) = β,

gdzie β = 1/α ∈ (0, 1).

W ogólnym przypadku wykładniki Hilberga mogą być różne.

Twierdzenie o faktach i słowach

Twierdzenie (fakty i informacja wzajemna)

Dla dowolnego mocno nieergodycznego procesu stacjonarnego(Xi )

∞i=1 o skończ. alfabecie

hilbn→∞

E cardU(X n

1 ) ≤ hilbn→∞

I (X n

1 ;X2nn+1).

hilbn→∞

I (X n

1 ;X2nn+1) ≤ hilb

n→∞IPPM(X n

1 ;X2nn+1)

≤ hilbn→∞

E[GPPM(X n

1 ) + cardVPPM(X n

1 Punkt wyjścia

4 Konkluzje

5 Dodatek

Konkluzje

Czy język naturalny jest mocno nieergodyczny?

Nie możemy tego wykluczyć, gdyż:

1 Liczba różnych słów PPM w tekstach zdaje się rosnąćpotęgowo z długością tekstu.

2 W świetle twierdzenia o faktach i słowach liczba niezależnychfaktów przewidywalnych na podstawie tekstu może takżerosnąć potęgowo z długością tekstu.

Problem otwarty

Udowodnić, że zachodzi prawie na pewno

hilbn→∞

cardU(X n

1 ) ≤ hilbn→∞

[GPPM(X n

1 ) + cardVPPM(X n

1 Punkt wyjścia

4 Konkluzje

5 Dodatek

Podejście w duchu złożoności Kołmogorowa

1 Modyfikacje definicji mocnej nieergodyczności:

(Zk)∞k=1 −→ (zk)

∞k=1 — ciąg algorytmicznie losowy

(fk)∞k=1 ←− funkcja efektywnie obliczalna

2 Modyfikacja zbioru przewidywalnych faktów:

1 ) :={l ∈ {1, 2, ...} : fk(X n

1 ) = zk for all k ≤ l}.

3 Dla zmodyfikowanego procesu Santa Fe postaciXi = (Ki , zKi

), gdzie Ki jak poprzednio, mamy

hilbn→∞

E cardUa(Xn

1 ) = β,

gdzie β = 1/α ∈ (0, 1).4 Informację wzajemną I (X n

1 ;X2nn+1) zastępujemy przez

oczekiwaną algorytmiczną informację wzajemną Ia(X n1 ;X

2nn+1)

Algorytmiczne twierdzenie o faktach i słowach

Twierdzenie (fakty i informacja wzajemna)

hilbn→∞

E cardUa(Xn

1 ) ≤ hilbn→∞

1 ;X2nn+1).

hilbn→∞

1 ;X2nn+1) ≤ hilb

n→∞IPPM(X n

1 ;X2nn+1)

≤ hilbn→∞

E[GPPM(X n

1 ) + cardVPPM(X n

Praktyczne i teoretyczne problemy statystycznego...

Documents

Transcript of Praktyczne i teoretyczne problemy statystycznego...

Własności entropii nadwyżkowej dla procesów ...ldebowsk/docs/tezy/doktorat.pdf · entropii nadwyżkowej a niektórymi innymi własnościami dyskretnych i gaussowskich pro-cesów

Seminaria duchowne, seminaria i szkoły teologiczne ...rocznikteologiczny.eu/app/uploads/2019/05/rt2018_4_07_zielinski.pdf · Kościół Zielonoświątkowy w RP (1997). Zob. Stanisz

ZESPÓŁ REDAKCYJNY - opole.stat.gov.plopole.stat.gov.pl/download/gfx/opole/pl/defaultaktualnosci/752/4/... · ZESPÓŁ REDAKCYJNY URZĘDU STATYSTYCZNEGO EDITORIAL BOARD OF STATISTICAL

SEMINARIA SAI W BRINDAWANIE 1995kb/Books/SummerSB1995.pdf · 1 SEMINARIA SAI W BRINDAWANIE 1995 Dyskursy BHAGAWANA ŚRI SATHYA SAI BABY na temat Śrimad Bhagawantam Letnia Szkoła

Teoretyczne podstawy analizy indeksowej – klasyﬁkacja ...web2.ue.katowice.pl/trzesiok/Wyklad3_Analiza dynamiki_Indeksy.pdf · zastosowanie Szkolenie dla pracowników Urzędu Statystycznego

Dynamika Molekularna MD - kotulska-lab.pwr.wroc.plkotulska-lab.pwr.wroc.pl/seminaria/111020_seminarium_BioNanopor.pdf · Dynamika Molekularna (MD) • Cząsteczki traktowane indywidualnie

ŚWIATOWY DZIEŃZDROWIA 2012oswiata.sanepid.olsztyn.pl/wp-content/uploads/2011/11/Światowy-Dz… · • Strona Głównego Urzędu Statystycznego • . ŚWIATOWY DZIEŃZDROWIA •Jest

Tworzenie statystycznego obrazu metropolitalnego ośrodka ...bydgoszcz.stat.gov.pl/gfx/bydgoszcz/userfiles/_public/inne/seminar... · Stowarzyszenia Metropolia Bydgoska znajduje si.

Łukasz Dębowski ldebowsk@ipipan.waw.pl i · 1 Kod PPM 2 Słowa PPM i informacja wzajemna 3 Język naturalny 4 Konkluzje. Tytuł Kod PPM Słowa PPM i MI Język naturalny Konkluzje

osób... · Web viewWykaz osób prowadzących seminaria magisterskie na kierunku politologia w roku akademickim 2018/2019

podzielićwmn-pip.agh.edu.pl/wp-content/uploads/Ocena-jakości...Karty kontrolne są jednym z podstawowych narzędzi statystycznego sterowania procesami oraz doskonalenia jakości.

Prognoza ludności na lata 2014-2050 (opracowana 2014 r.) · Przedmowa Prezentowana publikacja stanowi kontynuacj opracowań Gęłównego Urzędu Statystycznego poświęconych prognozom

ZESPÓŁ URZĘDU STATYSTYCZNEGO - Urząd Statystyczny w …opole.stat.gov.pl/download/gfx/opole/pl/defaultaktualnosci/752/4/... · URZĘDU STATYSTYCZNEGO EDITORIAL BOARD OF STATISTICAL

SEMINARIA MAGISTERSKIE · Web viewElbląska Uczelnia Humanistyczno-Ekonomiczna. Wydział Administracji i Nauk Społecznych (administracja, zarządzanie, bezpieczeństwo wewnętrzne)

poznan.stat.gov.pl€¦ · KOMITET REDAKCYJNY URZĘDU STATYSTYCZNEGO W POZNANIU EDITORIAL BOARD OF STATISTICAL OFFICE IN POZNAŃ Przewodniczący President Jacek Kowalewski Redaktor

stat.gov.plstat.gov.pl/download/gfx/portalinformacyjny/pl/defaulta...4 KOMITET REDAKCYJNY GŁÓWNEGO URZĘDU STATYSTYCZNEGO EDITORIAL BOARD OF THE CENTRAL STATISTICAL OFFICE PRZEWODNICZĄCY

zobacz wszystkie seminaria

Jak prowadzić seminaria i warsztaty - STRUCTUM...Jak prowadziæ seminaria i warsztaty Zostañ profesjonalnym szkoleniowcem † Poznaj charaktery uczestników warsztatów † Utrzymaj

COACHING WYKŁADY SEMINARIA PROGRAM ABSOLWENT · 2015. 9. 15. · otwarty uniwersytet ekonomiczny wykŁady otwarte zasoby biblioteczne bazy danych konferencje seminaria i debaty coaching

Łukasz Dębowski ldebowsk@ipipan.waldebowsk/docs/seminaria/fk_goedel.pdf · dla każdego programu-argumentu i sprawdzający własność stopu dla niego przez przeszukanie wszystkich