DRZEWA REGRESYJNE I LASY LOSOWE JAKO NARZĘDZIA … · NARZĘDZIA PREDYKCJI SZEREGÓW CZASOWYCH ......

Post on 28-Feb-2019

221 views 1 download

Transcript of DRZEWA REGRESYJNE I LASY LOSOWE JAKO NARZĘDZIA … · NARZĘDZIA PREDYKCJI SZEREGÓW CZASOWYCH ......

DRZEWA REGRESYJNE I LASY LOSOWE JAKO

NARZĘDZIA PREDYKCJI SZEREGÓW CZASOWYCH Z WAHANIAMI SEZONOWYMI

Grzegorz Dudek

Instytut Informatyki Wydział Elektryczny Politechnika Częstochowska www.gdudek.el.pcz.pl

VI spotkanie Polskiej Grupy Badawczej Systemów Uczących się

Częstochowa, 14.04.2016 r.

2

Predykcja szeregu czasowego z wieloma cyklami wahań sezonowych w horyzoncie τ na

podstawie przebiegu historycznego.

Obciążenie system elektroenergetycznego z cyklami rocznymi, tygodniowymi i dobowymi

2002 2003 200410

15

20

Rok

P,

GW

0 24 48 72 96 120 144 16810

12

14

16

18

20

22

Godzina

P,

GW

zima

wiosnalato

jesień

pn wt śr sb ndcz pt

PROBLEM PREDYKCJI SZEREGU CZASOWEGO

3

IDEA

4

IDEA

5

Definicja obrazów cykli dobowych

Obrazy wejściowe xi = [xi,1 xi,2 … xi,n] odwzorowują wyrazy poprzedzające moment prognozy – obciążenia doby i: Pi = [Pi,1 Pi,2 … Pi,n]

∑=

−==

n

jiji

itititi

PP

PPPgx

1

2,

,,,

)(

)(

Obrazy xi są unormowanymi wersjami wektorów Pi Ich długość jest jednostkowa, średnia zerowa, a wariancja jednakowa

REPREZENTACJA SZEREGÓW CZASOWYCH

6

Obrazy wyjściowe yi = [yi,1 yi,2 … yi,n] odwzorowują wyrazy w okresie prognozowanym – w

kolejnych chwilach doby prognozy i+τ: Pi+τ = [Pi+τ,1 Pi+τ,2 … Pi+τ,n]

∑=

++

−==

n

jiji

itititi

PP

PPPhy

1

2,

,,,

)(

)( ττ

Inne definicje obrazów: ⇒ Dudek G.: Systemy uczące się oparte na podobieństwie obrazów do prognozowania szeregów czasowych obciążeń

elektroeneregtycznych. EXIT, Warszawa 2012 ⇒ Dudek G.: Pattern Similarity-based Methods for Short-term Load Forecasting – Part 1: Principles. Applied Soft Computing,

vol. 37, pp. 277-287, 2015

REPREZENTACJA SZEREGÓW CZASOWYCH

7

Cel

Odfiltrowanie trendu i cykli dłuższych niż podstawowy (dobowy), sprowadzenie szeregu do

stacjonarności

0 24 48 72 96 120 144 1681

1.5

2

x 104

Godziny

P

Zima

Lato

0 24 48 72 96 120 144 168

-0.5

0

0.5

x

Obrazy x

0 24 48 72 96 120 144 168

-0.5

0

0.5

1

1.5

y

Obrazy y

REPREZENTACJA SZEREGÓW CZASOWYCH

8

Model prognostyczny

f : X → Y

Wyjściem modelu jest prognoza obrazu y (lub jego składowej)

Prognoza wyrazów szeregu czasowego

i

n

jijitititi PPPyPhP +−== ∑

=+

−+

1

2,,,

1, )()(

))

ττ

REPREZENTACJA SZEREGÓW CZASOWYCH IDEA MODELI PROGNOSTYCZNYCH OPARTYCH NA

PODOBIEŃSTWIE OBRAZÓW MODEL

9

Cechy

• Reprezentacja drzewiasta lub zbiór reguł decyzyjnych „jeśli – to”

• Działanie na zmiennych ilościowych i jakościowych

• Podział przestrzeni cech na hiper-prostopadłościany

• Lokalna aproksymacja funkcji stałą wewnątrz hiperprostopadłościanu (aproksymacja

dyskretna)

• Zależnie od funkcji docelowej drzewo decyzyjne może pełnić rolę klasyfikatora lub

modelu regresyjnego

DRZEWO REGRESYJNE (CART)

10

x<2.0

x<1.0 x<3.5

T N

T N T N

x<4T Ny=3.2

y=4.0 y=4.2

y=2.6y=3.1

x1.0 2.0 3.5 4.0

2.6

4.2

3.23.1

4.0

y

DRZEWO REGRESYJNE (CART)

11

• Sposób konstrukcji drzewa regresyjnego z rozmytymi węzłami jest taki sam jak drzewa w wariancie podstawowym

• Testy przeprowadzanie w węzłach pośrednich zmieniają postać:

-2 -1 0 1 20

0.2

0.4

0.6

0.8

1

x

µ

Lewa gałąź

0.5

θ

− µ0 − µ1Prawa gałąź

-2 -1 0 1 20

0.2

0.4

0.6

0.8

1

x

µ

Lewa gałąź

0.5

θ

− µ0 − µ1Prawa gałąź

≤>

=ii

ii

x

xT

θθ

jeśli ,0

jeśli ,1)(x ))(),(()( 01 xxx µµ=T

+>>−+−

+≥

−≤

=

ax

a

,θxa

ax

ax

iiii

ii

ii

5,050 jeśli ,5,0)(

5,0 jeśli ,1

5,0 jeśli ,0

)(1

θθ

θ

θ

µ x))(exp(1

1)(1

iixa θµ

−−+=x

)(1)( 10 xx µµ −=

DRZEWO REGRESYJNE Z ROZMYTYMI WĘZŁAMI

⇒ Dudek G.: Prognozowanie krótkoterminowe obciążeń systemów elektroenergetycznych z wykorzystaniem rozmytych drzew regresyjnych. Przegląd Elektrotechniczny, r. 90, nr 4, s. 108-111, 2014.

12

175,02,017,0109,02,017,0026,0

2,083,012,08,019,0)()()(

)()()()()()()(10

21

31

31

10

21

30

30

10

20

20

11

11

=⋅⋅⋅+⋅⋅⋅+⋅⋅+⋅=+

++=

xxx

xxxxxxx

µµµµµµµµµ

y

yyyy

DRZEWO REGRESYJNE Z ROZMYTYMI WĘZŁAMI

13

1. Powtarzaj dla każdego drzewa (dla k = 1 do K)

1.1. Wylosuj ze zbioru uczącego próbę bootstrapową o rozmiarze N

1.2. Zbuduj drzewo Tk na próbie bootstrapowej, powtarzając dla każdego węzła, jeśli jego rozmiar jest większy od m

1.2.1. Wylosuj F ≤ n składowych obrazu x

1.2.2. Znajdź składową xi i wartość progową θi (przegląd zupełny)

1.2.3. Rozdziel węzeł na dwa węzły potomne

2. Zwróć drzewa {Tk}k= 1, 2, …, K

Wyznaczenie prognozy dla obrazu x:

∑=

=K

kkT

Kf

1

)(1

)( xx

⇒ Hastie T., Tibshirani R., Friedman J.: The Elements of Statistical Learning. Data Mining, Inference, and Prediction. Springer 2009

LAS LOSOWY

14

Dane

Szereg czasowy obciążeń krajowego systemu elektroenergetycznego w okresie 2002-

2004

Problem prognostyczny

Prognoza obciążeń godzinowych w kolejnych dniach stycznia i lipca 2004, τ = 1

Zbiór uczący

Zbiór uczący zawierał przykłady reprezentujące te same typy dni tygodnia, co przykład

testowy

Błąd prognozy

∑=

−=

M

j j

jj

P

PP

MMAPE

1

100)

BADANIA SYMULACYJNE

15

0.66361

0.19371

0.087591 0.25742 0.22665 0.21227 0.15281

0.20612

0.084451

0.12018

0.10896

0.17587 0.14912

x24 < -0.0149864

x11 < 0.159799

x8 < -0.0300898 x7 < -0.00965465

x10 < 0.102544 x6 < -0.254511 x4 < -0.291916

x2 < -0.263239

x16 < -0.0350514

x6 < -0.267088

x3 < -0.333753

x17 < -0.0104694

x24 >= -0.0149864

x11 >= 0.159799

x8 >= -0.0300898 x7 >= -0.00965465

x10 >= 0.102544 x6 >= -0.254511 x4 >= -0.291916

x2 >= -0.263239

x16 >= -0.0350514

x6 >= -0.267088

x3 >= -0.333753

x17 >= -0.0104694

5 10 15 20 25

10

20

30

40

50

60

Godzina

Num

er p

róbk

i tes

tow

ej

5

10

15

20

25

30

35

40

45

50

55

60

Drzewo regresyjne (CART)

Parametr - m (przegląd zupełny, local leave-one-out)

BADANIA SYMULACYJNE

Drzewo regresyjne utworzone w zadaniu prognozy

obciążenia dn. 01.07.2004 r. o godz. 12, (m = 18) Optymalne wartości m

16

Drzewo regresyjne z rozmytymi węzłami (Fuzzy CART)

Parametr - kąt nachylenia funkcji przynależności α (przegląd zupełny, local leave-one-out)

Wariant drzewa Parametry MAPEwal MAPEtst

CART m = var 1,27 1,42

Fuzzy CART m = mCART, α = var 1,12 1,33

Fuzzy CART m = 30, α = var 1,22 1,36

Fuzzy CART m = 1, α = var 1,22 1,33

Fuzzy CART m = mCART, α = var 1,13 1,31

Fuzzy CART m = 30, α = var 1,23 1,42

Fuzzy CART m = 1, α = var 1,23 1,35

Fuzzy CART m = mCART, α1, …, αm = var 0,74 1,37

BADANIA SYMULACYJNE

Histogram optymalnych kątów nachylenia

funkcji przynależności

0 10 20 30 40 50 60 70 80 900

0.1

0.2

0.3

0.4

α

Czę

stość

17

Las losowy

Parametry - liczba drzew K, liczba składowych F, m (przegląd zupełny, out-of-bag)

0 100 200 300 400 5003

4

5

6

7x 10

-3

K

MS

E

F = 8m = 1

0 2 4 6 8 10 12 14 16 18 20 22 243.3

3.4

3.5

3.6

3.7

3.8

3.9x 10

-3

F

MS

E

K = 100m = 1

m

0 5 10 15 20

Frequency

0

0.05

0.1

0.15

0.2

0.25

0 5 10 15 20

MSE

10-3

3

3.5

4

4.5

5

BADANIA SYMULACYJNE BADANIA SYMULACYJNE

⇒ Dudek G.: Short-Term Load Forecasting using Random Forests. In: Filev D. et al. (eds.): Intelligent Systems’2014, Advances in Intelligent Systems and Computing 323, pp. 821-828, 2015.

18

Las losowy

Ważność składowych

0 10 20

0

0.5

1

Variable

Impo

rtan

ce

January 15, hour 1

July 1, hour 1

Forecast for:

0 10 20-0.2

0

0.2

0.4

Variable

Impo

rtan

ce

January 15, hour 12

July 1, hour 12

Forecast for:

0 10 20-0.2

0

0.2

0.4

0.6

Variable

Impo

rtan

ce

January 15, hour 24

July 1, hour 24

Forecast for:

BADANIA SYMULACYJNE BADANIA SYMULACYJNE

19

Wyniki

Model Styczeń Lipiec Średni

MAPEtst IQR MAPEtst IQR MAPEtst IQR

Las losowy 1.42 1.39 0.92 0.98 1.16 1.17

CART 1.70 1.58 1.16 1.17 1.42 1.39

Fuzzy CART 1.62 1.47 1.13 1.12 1.37 1.35

ARIMA 2.64 2.34 1.21 1.24 1.91 1.67

Wygładzanie wykładnicze

2.35 1.88 1.19 1.30 1.76 1.56

Sieć neuronowa

1.32 1.30 0.97 1.01 1.14 1.15

Prognoza naiwna

6.37 5.36 1.29 1.20 3.78 3.82

BADANIA SYMULACYJNE

20

Rozkład błędów

-5 0 50

100

200 RF

PE

Num

ber

of o

bser

vatio

ns

-5 0 50

100

200 CART

-5 0 50

100

200Fuzzy CART

-5 0 50

100

200 ARIMA

-5 0 50

100

200 ES

-5 0 50

100

200 ANN

BADANIA SYMULACYJNE

21

• Reprezentacja szeregów czasowych za pomocą obrazów cykli sezonowych ułatwia

prognozowanie szeregów niestacjonarnych z trendem i wieloma cyklami wahań

sezonowych

• Model prognostyczne oparte na drzewach regresyjnych wyróżnia prosta i zrozumiała

budowa oraz niewielka liczba parametrów

• Rozmyta wersja drzew regresyjnych pozwala sterować równowagą między obciążeniem i

wariancją modelu

• Lasy losowe jako komitet słabych uczniów pozwalają zredukować błąd prognozy i uzyskać

stabilniejsze rezultaty

WNIOSKI

22

Dziękuję za uwagę