Teoria uczenia statystycznego z perspektywy...

Teoria uczenia statystycznego z perspektywyekonometryka

Bogumiª Kami«ski

Zakªad Wspomagania i Analizy Decyzji

Instytut Ekonometrii

Kolegium Analiz Ekonomicznych

Szkoªa Gªówna Handlowa

7 marca 2017

Rynek energii elektrycznej

�ródªo: Polskie Sieci Elektroenergetyczne, 2013

Przej±cie na metod¦ cen

w¦zªowych:

I do 5400 modeli

predykcyjnych

I 5-minutowe dane

poda»owe, popytowe i

systemowe,

dane pogodowe

I prognozowanie w tej

samej granulacji

I automatyczna kontrola

jako±ci modeli

System przesyªu paliwa gazowego

�ródªo: GAZ-SYSTEM, 2013

Ograniczenia �zyczne w

przesyle (ci±nienie gazu)

Dzienne nominacje dla

63 punktów wej±cia

i 966 punktów wyj±cia

Wspólna charakterystyka problemów

Typowy zbiór danych poddawany analizie:

I liczba obserwacji rz¦du kilku do kilkudziesi¦ciu tysi¦cy

I tysi¡ce zmiennych obja±niaj¡cych

Oczekiwania od modeli:

I maksymalizacja jako±ci prognoz

I krótki czas na przygotowanie modelu (automatyzacja procesu)

Uczenie statystyczne

Pierwotna de�nicja uczenia statystycznego (Vapnik, 1999)

Dla zadanej klasy funkcji F = {α ∈ Λ : f (x , α)}, procesugeneruj¡cego dane (X ,Y ) oraz funkcji straty L(y , y) rozwi¡za¢

problem:

α = argminα

E (L(Y , f (X , α))

na podstawie próby (x1, y1), (x2, y2), . . . , (xn, yn).

Aktualna de�nicja �operacyjna� (James et. al, 2013)

Zestaw narz¦dzi pozwalaj¡cych na modelowanie i rozumienie

zªo»onych zbiorów danych.

Kiedy zawodzi zaªo»enie, »e proces (X ,Y ) jest staªy?

popyt 1

popyt 2

popyt 3poda» 1

poda» 2

poda» 3

•••••

•••••

•••••

Q

P

Twierdzenie Vapnika (dla problemu klasy�kacji)

I zadana klasa funkcji dopuszczalnych FI dla F mo»na wyznaczy¢

tzw. wymiar Vapnika-Chervonenkisa h(F)mierz¡cy jej zdolno±¢ do dopasowywania si¦ do danych

I dysponujemy n-elementow¡ prób¡ estymacyjn¡

I wybieramy funkcj¦ f ∈ F minimalizuj¡c¡ bª¡d na danych

estymacyjnych Re

I chcemy oszacowa¢ oczekiwany bª¡d prognozy Rp

Twierdzenie (Vapnik, 1995)Dla dowolnego ª¡cznego rozkªadu (X ,Y ) z

prawdopodobie«stwem 1− q zachodzi zale»no±¢:

Rp ≤ Re +

√h(F) (1 + ln(2n/h(F)))− ln(q/4)

n︸︷︷︸ε

Twierdzenie Vapnika: ilustracja

bª¡d

n

Re

ε

Rp

h(F)

Re

ε

Rp

Twierdzenie Vapnika: procedura

I wybieramy rodzin¦ zagnie»d»onych klas funkcji

F1 ⊂ F2 ⊂ F3 ⊂ . . .

⇓

h(F1) ≤ h(F2) ≤ h(F3) ≤ . . .

I wyznaczamy

Re(F1) ≥ Re(F2) ≥ Re(F3) ≥ . . .

ε(F1) ≤ ε(F2) ≤ ε(F3) ≤ . . .

I wybieramy model oszacowany na podstawie klasy funkcji Fi

minimalizuj¡cej oszacowanie Rp

Przykªad regularyzacji (1)

Obserwacje

●●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

−4 −2 0 2 4

−1

01

23

45

x

y


proces generuj¡cy dane: y = x2/5 + ε, gdzie ε ∼ N(0, 1)

●●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

−4 −2 0 2 4

−1

01

23

45

x

y


Dwukrotnie ró»niczkowalna funkcja f :∑n

i=1(f (xi )− yi )2 → min

−4 −2 0 2 4

02

4

x

y

●●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

zagnie»d»ona klasa funkcji:

wygªadzane funkcje sklejane (Hastie et al., 2001)


Dwukrotnie ró»niczkowalna funkcja f :∑ni=1(f (xi )− yi )

2 → min, p.w.∫D [f ′′(x)]2dx ≤ δ

−4 −2 0 2 4

02

4

x

y●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

niebieski: δ → +∞



2 → min, p.w.∫D [f ′′(x)]2dx ≤ δ

−4 −2 0 2 4

02

4

x

y●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

niebieski: δ → +∞, zielony: δ = 0



2 → min, p.w.∫D [f ′′(x)]2dx ≤ δ

−4 −2 0 2 4

02

4

x

y●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

niebieski: δ → +∞, zielony: δ = 0, czerwony: δ optymalne

Sytuacja praktyczna

Ograniczenia twierdzenia Vapnika:

I trudno±¢ z wyznaczeniem warto±ci h(F) dla zªo»onych klas

funkcji

I nierówno±¢ z twierdzenia jest bardzo konserwatywna

W praktyce stosujemy zwykle procedury alternatywne:

I kryteria informacyjne (AIC, BIC, . . . )

I zbiór walidacyjny

I walidacja krzy»owa

I bootstrapping

Klasyczna ekonometria: model liniowy

I Dysponujemy n obserwacjami i k zmiennymi obja±niaj¡cymi

I W modelu liniowym

f (x) = α0 +k∑

i=1

αkxk

zagnie»d»anie klas modeli to wprowadzanie restrykcji na αk

I Procedury selekcji zmiennych:

min

n∑i=1

(f (xi )− yi )2 p.w.

k∑j=1

1{0}(αj) ≤ δ

I tradycyjne kryteria (AIC, BIC, . . . ) rekomenduj¡ warto±¢ δprzy ró»nych zaªo»eniach asymptotycznych

I nie jest mo»liwe efektywne numerycznie wyznaczanie

rozwi¡za« optymalnych powy»szego zadania dla du»ych k

Tradycyjne kryteria: porównanie

I AIC: asymptotycznie efektywny, ale nie asymptotycznie zgodny

I BIC: asymptotycznie zgodny, ale nie asymptotycznie efektywny

Standardowe mody�kacje:

wielko±¢ próby dobra specy�kacja zªa specy�kacja

du»a AIC TIC

Akaike (1974) (Takeuchi, 1978)

maªa AICc MAIC

(Hurvich i Tsai, 1989) (Fujikoshi i Satoh, 1997)

LASSO (Tibshirani, 1996)

Przykªadowy alternatywny sposób nakªadania restrykcji na

parametry:

min

n∑i=1

(f (xi )− yi )2 p.w.

k∑j=1

|αj | ≤ δ

I Procedura efektywna numerycznie (Osborne et. al, 2000)

I Metoda prawie prawidªowo identy�kuje niezerowe zmienne

(Candes i Plan, 2009)

I Interpretacja w j¦zyku optymalizacji odpornej (Fertis, 2009):

max||∆x ||1,2≤λ

n∑i=1

(f (xi + ∆x)− yi )2 → min

Bª¡d: estymacja a prognoza

Generujemy 20 obserwacji zgodnie z zale»no±ci¡:

Y = 1 +10∑j=1

Xj + ε, gdzie ε ∼ N(0, 1)

Potrzebujemy oszacowa¢:

1) wyraz wolny modelu α0

2) parametry α1, α2, . . . , α10 przy zmiennych Xj

Chcemy oceni¢:

1) oczekiwany bª¡d na danych estymacyjnych (Re)

2) oczekiwany bª¡d prognozy (Rp)

Metody estymacji

Tradycyjna:

MNK (metoda najmniejszych kwadratów):

20∑i=1

yi −

α0 +10∑j=1

αjxi,j

2

→ min

Nowoczesna alternatywa (Tibshirani, 1996):

LASSO (ang. least absolute shrinkage and selection operator):

20∑i=1

yi −

α0 +10∑j=1

αjxi,j

2

→ min

p.w.

10∑j=1

|αj | ≤ δ

Rozkªad estymatorów parametrów

●

● ● ● ● ● ● ● ● ● ●

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

wartosc oczekiwana

● ● ● ● ● ●● ● ● ● ●

α0 α1 α2 α3 α4 α5 α6 α7 α8 α9 α10

●

● ● ● ● ● ● ● ● ● ●

01

23

4

wariancja

●

● ●● ● ●

●●

● ● ●

α0 α1 α2 α3 α4 α5 α6 α7 α8 α9 α10

MNK: czerwone LASSO: czarne

Bª¡d: estymacja a prognoza

Rozkªad ±redniej kwadratu bª¦du

RE MNK RE LASSO RP MNK RP LASSO

01

23

4

← D2(ε)

Selekcja zmiennych je±li k � n (Belloni et. al, 2014a)

Najprostszy model:

yt = dt + 0.2xt + εt

dt = 0.9xt +√1− 0.92ξt

gdzie: εt , ξt ∼ N(0, 1); zakªadamy prób¦ o wielko±ci n = 100.

Procedury:

1. pojedyncza selekcja (w modelu na yt)

2. podwójna selekcja (w modelu na yt i w modelu na dt)

Pojedyncza selekcja

0.5 1.0 1.5 2.0

0.0

0.5

1.0

1.5

2.0

parametr przy d

gest

osc

Podwójna selekcja

0.0 0.5 1.0 1.5 2.0

0.0

0.2

0.4

0.6

0.8

1.0

parametr przy d

gest

osc

Podwójna metoda post-Lasso (Belloni et. al, 2014b)

Dla modelu:

yt = αdt + β0 + βxi + εt

dt = γ0 + γxt + ξt

o ile liczba k zmiennych x speªnia warunek log(k) = o(n1/3

)wtedy

przy niezbyt restrykcyjnych warunkach procedura:

1. dokonaj selekcji zmiennych w obu równaniach za pomoc¡

metody Lasso,

2. dokonaj estymacji pierwszego równania wykorzystuj¡c sum¦

zbiorów zmiennych wybranych w poprzednim kroku,

gwarantuje, »e

σ−1n

√n (α− α) N(0, 1)

Przykªadowe zastosowanie

D. Acemoglu, S. Johnson, J.A. Robinson, The Colonial Origins of

Comparative Development: An Empirical Investigation, The

American Economic Review, 91(5), s. 1369�1401, 2001

±miertelno±¢ osadników

↓pocz¡tkowe instytucje

↓obecne instytucje

↓obecny PKB per capita

Zmienne kontrolne

I peªny zestaw: efekt instytucji nieistotny

I ograniczony zestaw: efekt instytucji istotny

I podwójna selekcja: efekt instytucji istotny

Uwagi ko«cowe

1. Konwergencja kasycznej ekonometrii i data-mining

2. Zagadnienia z bardzo du»¡ liczb¡ potencjalnych zmiennych

obja±niaj¡cych

3. Nauczanie: kluczowe zrozumienie zaªo»e« stosowanych metod

Literatura

[1] Akaike H., A new look at the statistical model identi�cation, IEEE Transactions on AutomaticControl, 19(6), s. 716�723, 1974

[2] Belloni A., Chernozhukov V., Hansen Ch., High-Dimensional Methods and Inference on Structuraland Treatment E�ects, Journal of Economic Perspectives, 28(2), 2014

[3] Belloni A., Chernozhukov V., Hansen Ch., Inference on Treatment E�ects after Selection amongHigh-Dimensional Controls, The Review of Economic Studies, 81(2), s. 608�650, 2014

[4] Candes E.J., Plan Y., Near-ideal model selection by `1 minimization, The Annals of Statistics, 37,s. 2145�2177, 2009

[5] Fertis A.G., A Robust Optimization Approach to Statistical Estimation Problems, rozprawadoktorska, 2009

[6] Fujikoshi Y. and Satoh K., Modi�ed AIC and Cp in multivariate linear regression, Biometrika, 84, s.07�716, 1997

[7] Hurvich C. M. and Tsai C. L., Regression and time series model selection in small samples,Biometrika, 76, 297�307, 1989

[8] James G., Witten D., Hastie T., and Tibsirani R., An Introduction to Statistical Learning, 2013

[9] Osborne M.R., Presnell B., Turlach B.A., On the LASSO and its Dual, Journal of Computationaland Graphical Statistics, 9, s. 319�337, 2000

[10] Takeuchi K., Distribution of information Statistics and Criteria for Adequacy of Models,Mathematical Science, 153, s. 12�18, 1976

[11] Tibshirani R.: Regression shrinkage and selection via the lasso, J. Royal. Statist. Soc B., 58(1), s.267�288, 1996

[12] Vapnik V., The Nature of Statistical Learning Theory, Springer, New York, 1995

[13] Vapnik V., An Overview of Satistical Learning Theory, IEEE Transactions on Neural Networks,10(5), s. 988�999, 1999

Teoria uczenia statystycznego z perspektywy...

Documents

Transcript of Teoria uczenia statystycznego z perspektywy...