Zastosowanie metod eksploracji danych Data Mining w...

Post on 12-Jul-2020

1 views 0 download

Transcript of Zastosowanie metod eksploracji danych Data Mining w...

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznychSAS Enterprise Miner

rok akademicki 2018/2019

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

Sieci Kohonena

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

Grupowanie

Grupowanie (clustering) oznacza podział obiektów na grupy, zwane skupieniami.

Skupienie (cluster) jest zbiorem obiektów, które są podobne do siebie i niepodobne do obiektów z innych grup

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

Zanim zaczniemy analizę

4

● Techniki analizy skupień z reguły są nieodporne na występowanie obserwacji odstających

● Jeśli naszym celem jest znalezienie outlierów – z reguły stworzą jeden klaster, ale pozostałe będzie cechować niższa jakość

● Jeśli interesuje nas interpretacja ogólnych współzależności – trzeba sprawdzić, czy (i jakie) w próbie występują obserwacje odstające i (opcjonalnie) je usunąć

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

5

Jakie zmienne wybrać?

Zmienne powinny:● mieć znaczenie w wyjaśnianiu zachowania się obiektów, co ułatwia

późniejszą interpretację skupień,● być możliwie nieskorelowane, co polepsza stabilność budowanych

modeli,● mieć niedużą asymetrię i kurtozę (w ten sposób unika się tworzenia

jednoelementowych skupień)

● Z reguły zastosowanie zmiennych cechujących się różnymi skalami może zaburzyć wyniki grupowania – proszę porównać ilość informacji zawartej w zmiennej binarnej (np. płeć) z ilością informacji zawartej w zmiennej ciągłej (np. dochód)

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

6

Przekształcenia liniowe zmiennych

B

Axxf

)( 0B, gdzie

Współczynnik A nie wpływa na odległości między obiektamiWspółczynnik B pełni rolę czynnika skalującego.

Szczególnie ważnymi rodzajami przekształcenia są:standaryzacja

normalizacja

xsB xA

)min(XA )min()max( XXB

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

7

Normalizacja

Normalizacja ma na celu doprowadzenie obiektów lub zmiennych do porównywalnych wielkości. Problem ten dotyczy zmiennych mierzonych w różnych jednostkach (np. sztuki, czas, waluta).

Przykład Rozważmy 3 obiekty i dwie zmienne: wiek osoby mierzony w latach i jej dochód mierzony w złotych lub tys. zł. Czy obiekt B jest bardziej podobny do obiektu A czy do obiektu C?

Zmienna -> X Y1 Y2 Wiek Dochód Dochód

Osoba (w latach) (w zł) ( w tys. zł) A 35 12000 12,0 B 37 6700 6,7 C 45 7000 7,0

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

8

Metryka przestrzeni

Odległość euklidesowa

Odległość Minkowskiego Jej szczególnymi przypadkami są:

odległość miejska (p=1)

odległość euklidesowa (p=2)

odległość Czebyszewa (p= ∞ )

ponadto kwadrat odległości euklidesowej

m

ijj xxOOd

1

22121 ,

p

m

j

p

jj xxOOd

/1

12121 ,

jjmj

xxOOd 21,...,1

21 max,

m

ijj xxOOd

1

22121,

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

9

Sieci Kohonena

Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego badacza Tenvo Kohonena.

Sa przykładem samoorganizujacych się sieci (self-organizing maps – SOMs).

Uczenie odbywa się bez nadzoru (unsupervised learning), tzn. dla podawanych przykładów (faktów) nie jest przedstawiana poprawna odpowiedź. Trenowanie sieci odbywa się w procesie samouczenia.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

10

Grupowanie

SOM może być użyte do grupowania obiektów. SOM stara się znaleźć skupienia, żeby każde dwa skupienia, które są blisko siebie w przestrzeni krat (grid space) były blisko siebie w przestrzeni obiektów. Odwrotna sytuacja nie musi być prawdziwa, tzn. skupienia są blisko siebie w przestrzeni obiektów, to nie muszą odpowiadać skupieniom, które są blisko siebie w przestrzeni krat.

SOM stara się wbudować kraty w przestrzeń obiektów w ten sposób, że każda obserwacja jest blisko pewnego środka ciężkości skupienia, ale krata jest wygięta lub ściśnięta możliwie mało.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

11

Etapy grupowania z wykorzystaniem SOM

Przygotowanie danych (wybór zmiennych, przekształcenia zmiennych, analiza obserwacji odstających)

Wybór topologii i metryki przestrzeni (jak definiujemy sąsiedztwo) Algorytm Kohonena:➔ Etap rywalizacji (gdzie skierować obserwację)➔ Etap adaptacji (specjalizacja otoczenia)• Wizualizacja wyników

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

12

Wybór topologii

Grupowanie z wykorzystaniem SOM wykorzystuje fakt, że podobne obiekty będą umieszczone blisko siebie.

Nasze płaszczyzny będą pokryte takimi samymi wielokątami (kafelkami) Możemy wybrać różne rodzaje parkietaży (ang. tiling) Wybór różnych kafelków redefiniuje sąsiedztwo – możemy kontrolować, np.

w ilu kierunkach będzie odbywać się adaptacja

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

13

Wybór topologii

Wybrana topologia/parkietaż wiąże się z późniejszymi możliwościami interpretacyjnymi:

➔ Parkietaże płaszczyzny Euklidesowej są z reguły intuicyjne i większość dostępnego oprogramowania umożliwia ich zastosowanie

➔ Parkietaże płaszczyzny sferycznej pozwalają na zbadanie polaryzacji (grupy będą rozlokowane w antypodach). Jeśli potrzebujemy badać więcej grup niż to oferowane jest przez wielościany platońskie, będzie trzeba użyc konstrukcji Goldberga-Coxetera

➔ Parkietaże płaszczyzny hiperbolicznej dzięki wykładniczemu rozszerzaniu się pozwalają łatwo umieścić więcej podobnych obiektów blisko siebie

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

14

Wybór topologii – problem z obrzeżem

Dla praktycznych zastosowań może się okazać, że będziemy woleli obiekty ograniczone (przestrzenie ilorazowe) niż dyski

Przykładami przestrzeni ilorazowych dla płaszczyzny Euklidesowej są torus i butelka Kleina

Przykładem przestrzeni ilorazowej dla płaszczyzny sferycznej jest płaszczyzna eliptyczna

Przykładami przestrzeni ilorazowych dla płaszczyzny hiperbolicznej są kwartyka Kleina, powierzchnia Bolzy, powierzchnia Macbeatha...

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

15

Algorytm Kohonena

xt = [xt1,xt2,…,xtm] oznacza wektor wejściowy,

m – liczba zmiennych

w.j = [w1j,w2j,…,wmj] – wagi połączeń neuronów wejściowych z j-tym neuronem wyjściowym. Początkowe wagi są ustalone, np. wybrane losowo.

Ustalmy neuron wejściowy x. Dla każdego neuronu wyjściowego w oblicza się wartość funkcji decyzyjnej (scoring function). Jest to odległość d(w,x)=||w-x||. Najczęściej bierze się odległość euklidesową.

d ( w. i ,x t )=√∑i=1

m

(wij−x ti )2

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

16

Algorytm Kohonena

Neuron wyjściowy, dla którego funkcja decyzyjna ma najmniejszą wartość staje się neuronem wygrywającym (J). Jego wagi są najbardziej podobne do współrzędnych x.

Identyfikuje się wszystkie neurony j z otoczenia neuronu wygrywającego, określone przez rozmiar sąsiedztwa R(t), gdzie t - oznacza numer epoki trenowania.

Modyfikuje się wagi neuronów z otoczenia neuronu J według wzoru:

w ij' =w ij+η( t )⋅( x i−wij )

η(t) – nazywamy współczynnikiem uczenia (learning rate)

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

17

Algorytm Kohonena

w ij' =w ij+η( t )⋅( x i−wij )

0< η(t) < 1 Początkowe wartości η(t) są ustalane (blisko 1) i są zmniejszane

(liniowo lub geometrycznie) po każdej epoce.

Również wartość rozmiaru sąsiedztwa R(t) jest zmniejszana po każdej epoce.

Proces iteracyjny zatrzymuje się, gdy są spełnione warunku „stopu”.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

18

Algorytm Kohonena - przykład

Zbiór danych zawiera dwie zmienne: wiek i dochód. Są one normalizowane do przedziału [0; 1]

Rozważmy cztery rekordy: x11=0.8 x12=0.8 osoba starsza z dużym dochodem

x21=0.8 x22=0.1 osoba starsza z małym dochodem

x31=0.2 x32=0.8 osoba młodsza z dużym dochodem

x41=0.1 x42=0.1 osoba młodsza z małym dochodem

Niech topologia sieci ma rozmiar 2 x 2 (4 neurony wyjściowe) Ustalmy początkowe wagi: Ustalmy:

Neuron 1: w11=0.9 w21=0.8 η(0) = 0.5

Neuron 2: w12=0.9 w22=0.2 R(0) = 0, tzn. tylko dla

Neuron 3: w13=0.1 w23=0.8 neuronu wygrywającego

Neuron 4: w14=0.1 w24=0.2 są zmieniane wagi.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

19

Algorytm Kohonena - przykład

Rywalizacja Obliczamy odległość między pierwszym wektorem (x11, x12) = (0.8, 0.8) a neuronami:

1: (w11, w21) = (0.9, 0.8)

2: (w12, w22) = (0.9, 0.2)

3: (w13, w23) = (0.1, 0.8)

4: (w14, w24) = (0.1, 0.2) .

d ( w1 ,x1)=√(0 .9−0 . 8 )2+(0 . 8−0 .8 )2=0 . 1

d ( w2 ,x 1)=√(0 .9−0 . 8 )2+(0 . 2−0 .8 )2=0 . 61

d ( w3 ,x1)=√(0 .1−0 . 8)2+(0 . 8−0 .8 )2=0 . 7

d ( w4 ,x1 )=√(0 .1−0 . 8 )2+(0 . 2−0 .8 )2=0 . 92Rywalizację wygrał neuron 1, gdyż jego wagi są najbardziej podobne do pierwszego rekordu wejściowego

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

20

Algorytm Kohonena - przykład

Adaptacja Modyfikujemy wagi połączeń z neuronem wyjściowym 1.

Dla wiek:

w ij' =w i1+0 . 5⋅( x1−w i1 )

w11' =w11+0 . 5⋅( x11−w11 )=0 . 9+0. 5⋅(0 . 8−0. 9 )=0 . 85

Dla dochód:

w21' =w21+0 .5⋅( x12−w21)=0 .8+0 . 5⋅(0 . 8−0 . 8 )=0 . 8

Wagi są kierowane w kierunku rekordu wejściowego. Pozostałe wagi nie są tu zmieniane. To pozwoli neuronowi 1 jeszcze bardziej przyciągać rekordy osób starszych o dużych dochodach.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

21

Algorytm Kohonena - przykład

Rywalizacja Obliczamy odległość między drugim wektorem (x21, x22) = (0.8, 0.1) a neuronami:

1: (w11, w21) = (0.85, 0.8)

2: (w12, w22) = (0.9, 0.2)

3: (w13, w23) = (0.1, 0.8) 4: (w14, w24) = (0.1, 0.2) .

d ( w1 ,x 2 )=√(0 . 85−0 . 8 )2+(0 . 8−0 . 1)2=0. 78

d ( w2 ,x 2 )=√(0 . 9−0 .8 )2+(0 . 2−0 .1 )2=0 . 14

d ( w3 ,x 2 )=√(0 . 1−0. 8 )2+( 0 .8−0 .1 )2=0 . 99

d ( w4 ,x2 )=√( 0 .1−0 .8 )2+(0 . 2−0 .1 )2=0 . 71Dla drugiego rekordu rywalizację wygrał neuron 2.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

22

Algorytm Kohonena - przykład

Adaptacja Modyfikujemy wagi połączeń z neuronem wyjściowym 2.

Dla wiek:

w ij' =w i2+0 .5⋅( x2−wi 2 )

w12' =w12+0 .5⋅( x21−w12)=0. 9+0 . 5⋅(0 . 8−0 . 9)=0 .85

Dla dochód:

w22' =w22+0 . 5⋅( x22−w22)=0 . 8+0 .5⋅(0 .1−0 . 2)=0 .15

Wagi połączeń z neuronem 2 są kierowane w kierunku drugiego rekordu wejściowego. Waga w22 jest zmniejszana.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

23

Algorytm Kohonena - przykład

Rywalizacja Obliczamy odległość między trzecim wektorem (x31, x32) = (0.2, 0.9) a neuronami:

1: (w11, w21) = (0.85, 0.8)

2: (w12, w22) = (0.85, 0.15)

3: (w13, w23) = (0.1, 0.8)

4: (w14, w24) = (0.1, 0.2) .d ( w1 ,x 3 )=√(0 .85−0 . 2)2+( 0 .8−0 . 9)2=0 .66

d ( w2 ,x 3 )=√(0 .85−0 . 2)2+(0 .15−0 .9 )2=0.99

d ( w3 ,x 3 )=√(0 .1−0. 2 )2+(0 . 8−0 . 9 )2=0 . 14

d ( w4 ,x3 )=√( 0 .1−0 .2)2+( 0 .2−0 . 9 )2=0 . 71

Dla trzeciego rekordu rywalizację wygrał neuron 3.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

24

Algorytm Kohonena - przykład

Adaptacja Modyfikujemy wagi połączeń z neuronem wyjściowym 3.

Dla wiek:

w ij' =w i3+0 . 5⋅( x3−wi3 )

w13' =w13+0 .5⋅( x31−w13 )=0 . 1+0 . 5⋅(0 . 2−0 . 1)=0 .15

Dla dochód:

w23' =w23+0 . 5⋅( x32−w23)=0 .8+0 .5⋅(0 . 9−0 .8)=0 . 85

Wagi połączeń z neuronem 3 są kierowane w kierunku trzeciego rekordu wejściowego.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

25

Algorytm Kohonena - przykład

Rywalizacja Obliczamy odległość między czwartym wektorem (x41, x42) = (0.1, 0.1) a neuronami:

1: (w11, w21) = (0.85, 0.8)

2: (w12, w22) = (0.85, 0.15)

3: (w13, w23) = (0.15, 0.85)

4: (w14, w24) = (0.1, 0.2) .

d ( w1 ,x 4 )=√(0 . 85−0 . 1)2+(0 .8−0 . 1)2=1. 03

d ( w2 ,x 4 )=√(0 . 85−0 . 1)2+( 0 .15−0 .1)2=0 .75

d ( w3 ,x 4 )=√(0 . 1−0. 15 )2+(0 .85−0 .1)2=0 .75

d ( w4 ,x4 )=√( 0 .1−0 . 1)2+(0 . 2−0 . 1)2=0 . 1Dla czwartego rekordu rywalizację wygrał neuron 4.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

26

Algorytm Kohonena - przykład

Adaptacja Modyfikujemy wagi połączeń z neuronem wyjściowym 4.

Dla wiek:

w ij' =w i4+0 .5⋅( x 4−w i4 )

w14' =w 14+0 .5⋅( x41−w14)=0 .1+0 . 5⋅(0 . 1−0 .1 )=0 . 1

Dla dochód:

w24' =w 24+0 .5⋅( x42−w24)=0 . 2+0 . 5⋅(0 . 1−0 .2 )=0 .15

Wagi połączeń z neuronem 4 są kierowane w kierunku czwartego rekordu wejściowego.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

27

Algorytm Kohonena - przykład

Po zakończeniu pierwszej epoki: Początkowe wagi:

Neuron 1: w11=0.9 w21=0.8 Można zmniejszyć η(t)

Neuron 2: w12=0.9 w22=0.2

Neuron 3: w13=0.1 w23=0.8

Neuron 4: w14=0.1 w24=0.2

Końcowe wagi: rozpoznaje: Neuron 1: w11=0.85 w21=0.8 osoby starsze o dużych dochodach

Neuron 2: w12=0.85 w22=0.15 osoby starsze o małych dochodach

Neuron 3: w13=0.15 w23=0.85 osoby młodsze o dużych dochodach

Neuron 4: w14=0.1 w24=0.15 osoby młodsze o małych dochodach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

28

Wizualizacja

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

29

Wizualizacja – U-Matrix

Unified distance matrix – reprezentacja SOM, która koloruje w skali szarości kafelki. Ilustruje różnice w odległości Euklidesowej pomiędzy reprezentantami klastrów a ich sąsiedztwem.

Jaśniejsze kolory symbolizują większą homogeniczność między klastrami Inverted U-Matrix – konstruowany na tej samej zasadzie co U-Matrix, z różnicą,

że im ciemniejszy kolor, to grupa klastrów jest bardziej homogeniczna. Jasne kolory mogą być intepretowane jak granice

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

30

Przykład CHURN

plan międzynarodowy

plan poczty głosowej

czas współpracy

liczba wiadomości

dzień minuty

wieczór minuty

noc minuty

międzynarodowe minuty

liczba rozmów z BOK

Zmienne do analizy

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

31

Diagram projektu

W projekcie An_Clus tworzymy diagram Kohonen. Diagram zawiera trzy węzły:

Input Data (CHURN)ReplacementSOM/Kohonen

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

32

Ustalenie roli zmiennych

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

33

Zastępowanie zmiennych

Dla zmiennych przedziałowych zmienimy domyślną opcję na No. Wybierzmy Replacement Editor.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

34

Zastępowanie zmiennych

Ograniczymy wartości zmiennej L_WIAD do zakresu <=20. Wartości większe przyjmą wartość 20.

Należy wybrać Limit Method = User Specified oraz Upper Limit = 20.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

35

Węzeł SOM/Kohonen – wybór zmiennych

Zmienna churn nie bierze udziału w grupowaniu, więc nadajemy jej status Use = No.

Nowe zmienne utworzone w węźle Replacement otrzymują nazwy REP_zmienna.

Zmienna L_WIAD nie będzie już używana i otrzymuje rolę Rejected.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

36

Węzeł SOM/Kohonen – wybór zmiennych

Zaznaczając zmienną i klikając na przycisk Explore możemy zobaczyć rozkład danej zmiennej, np. zmiennej REP_L_WIAD (liczba wiadomości).

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

37

Węzeł SOM/Kohonen – parametry węzła

Ustalamy: Metoda SOM Kohonen

(domyślnie Batch SOM) Normalizacja do przedziału [0; 1]

Range (domyslnie None). Topologia sieci 2 x 2

(domyślnie 10 x 10) Promień 0 Maksymalna liczba iteracji 10

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

38

Węzeł SOM/Kohonen – wyniki

Domyślnie ukazują się dwa okna z wynikami: Map i Output.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

39

Węzeł SOM/Kohonen – wyniki

Okno Map pokazuje liczebności obiektów na mapie ułożonej w dwóch wymiarach (wierszowy i kolumnowy). Tutaj liczebności wynoszą (1,1)=830, (1,2)=2411, (2,1)=92, (2,2)=0.

Można wybrać też inne statystyki, np. największa odległość od środka ciężkości skupienia, odległość od najbliższego skupienia

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

40

Węzeł SOM/Kohonen – wyniki

Klikając na przycisk i wybierając daną zmienną można zobaczyć jej średnią wartość w skupieniach.

10,15325

10,23957

10,93587

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

41

Węzeł SOM/Kohonen – wyniki

Dla zmiennych binarnych wyświetla się ich udział. Na przykład PLAN_M=1 ma udział 0,095811w skupieniu (1,2), 1 w skupieniu (2,1), tzn. wszystkie elementy w tym skupieniu mają wartość PLAN_M=1 i nie występuje w skupieniu (1,1), tzn. wszystkie elementy w tym skupieniu mają wartość PLAN_M=0.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

42

Węzeł SOM/Kohonen – wyniki

Skupienie (1,1) jest najbardziej jednorodne: Maximum Distance from Cluster Seed = 0,813873.

0,92376

1,39443

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

43

Węzeł SOM/Kohonen – wyniki

Wyniki te możemy zobaczyć w formie tabelarycznej wybierając View | Model | Mean Statistics albo View | Model | Analysis Statistics.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

44

Węzeł SOM/Kohonen – parametry węzła

Analogicznie można przeprowadzić grupowanie z innymi parametrami węzła

Metoda Batch SOM

Standaryzacja zmiennych Standardization

Topologia sieci 4 x 4

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

45

Węzeł SOM/Kohonen – przykładowe wyniki

Najliczniejsze skupienie (2,4) zawiera 1064 elementy. Skupienie (2,3) zawiera tylko 5 elementów.