The Element of Statistical Learning Data Mining, Inference and Prediction

37
The Element of Statistical Learning Data Mining, Inference and Prediction Cluster Analysis and Self- Organizing Maps Analiza skupień i metody SOM Trevor Hastie, Robert Tibshirani Jerome Friedman Marta Leniewska

description

Trevor Hastie, Robert Tibshirani Jerome Friedman. The Element of Statistical Learning Data Mining, Inference and Prediction. Cluster Analysis and Self-Organizing Maps Analiza skupień i metody SOM. Marta Leniewska. Przykład klasteryzacji. Reprezentacja danych x 1 , …, x N. - PowerPoint PPT Presentation

Transcript of The Element of Statistical Learning Data Mining, Inference and Prediction

Page 1: The Element of Statistical Learning Data Mining, Inference  and Prediction

The Element of Statistical LearningData Mining, Inference

and Prediction

Cluster Analysis and Self-Organizing MapsAnaliza skupień i metody SOM

Trevor Hastie, Robert TibshiraniJerome Friedman

Marta Leniewska

Page 2: The Element of Statistical Learning Data Mining, Inference  and Prediction

Przykład klasteryzacji

Page 3: The Element of Statistical Learning Data Mining, Inference  and Prediction

Reprezentacja danych x1, …, xN

Macierze podobieństwa D (N×N) Symetryczne, dij 0, dii = 0,

Obiekty xi Rp

Różnica na atrybucie Atrybut ilościowy:

Porządkowy: zamiana na ilościowy Nominalny: macierze podobieństwa L (M×M) między

wartościami atrybutu

,)( 2' jiij xx

,' jiij xx )),(1(2)( '

2' iij jiij xxxx

),( ' jiijj xxd

Page 4: The Element of Statistical Learning Data Mining, Inference  and Prediction

Różnice między obiektami

Wpływ atrybutu Xj na

(średnia różnica między obiektami)

błąd kwadratowy: - estymator Var(Xj) z próby

Równe wpływy atrybutów: Wyróżnianie pewnych atrybutówBrakujące wartości atrybutów: pomijanie, wprowadzanie, nowa wartość zmiennej

),,(),( '1

' jiij

p

jjjii xxdwxxD

p

jjw

1

1

p

jjj dwD

1

),( 'ii xxD

jjd var2

jvar

jj dw /1

Page 5: The Element of Statistical Learning Data Mining, Inference  and Prediction

Algorytmy kombinatoryczneUstalone z góry K < N klastrów Cel: funkcja k = C(i) minimalizująca rozrzut wewn.

= W(C) + B(C)

Ilość podziałów N danych na K klastrów Liczba Stirlinga 2 rodz. S(10,4) = 34.105 S(19,4) 1010

Algorytmy znajdujące lokalne minima

K

k kiC kiC kiCiiii ddT

1 )( )'( )(''2

1

NK

k

kK kkK

KKNS

1

)1(!

1),(

)1,1(),1(),( kNSkNSkKNS

Page 6: The Element of Statistical Learning Data Mining, Inference  and Prediction

Algorytm K średnichZałożenia: atrybuty ilościowe, miara zróżnicowania: kwadrat odległości euklidesowej, Nk – ilość elementów klastra k

Kryterium:

Znaleźć min centra mk dla wybranych klastrów C

(średnie), koszt ~ (ilość elementów klastra) Znaleźć min podział na klastry C

Do braku zmian C, zbiega do min lokalnego

K

k kiCkik

K

k kiC kiCii xxNxxCW

1 )(

2

1 )( )'(

2'2

1)(

K

k kiCkik

mCmxN

Kk 1

2

)(}{, 1

min

Page 7: The Element of Statistical Learning Data Mining, Inference  and Prediction
Page 8: The Element of Statistical Learning Data Mining, Inference  and Prediction

Inne wersje K średnich

Wersja probabilistyczna: algorytm EM – dopasowanie do modelu mieszaniny rozkładów Gaussa. Wersja ulepszona: żadna pojedyncza zmiana przypisania obserwacji do klastra nie polepszy wyniku.

Page 9: The Element of Statistical Learning Data Mining, Inference  and Prediction

Zastosowanie – kompresja

Podział na bloki po m pixeli – wektory w Rm

Aproksymacja bloków centrami klastrówObraz skompresowany: log2K na blok + mK

czyli log2K/8m oryginału

Lepiej przy zastosowaniu teorii ShannonaDziała bo wiele bloków wygląda tak samoMiara deformacji obrazu - straty

Page 10: The Element of Statistical Learning Data Mining, Inference  and Prediction

Przykład

Sir Ronald A. Fisher(1890-1962)oryginał

K = 200,m = 4,0,239 oryginału,Deformacja: 0,89

K = 4,m = 4,0,063 oryginału,Deformacja: 16,95

Page 11: The Element of Statistical Learning Data Mining, Inference  and Prediction

Rozmyte K średnich

Rozmyty pseudopodział – rozmyty K podziałP = {A1, ..., AK}

PrzykładN=3, K=2P = {A1, A2}

A1 = 0.6/x1 + 1/x2 + 0.1/x3

A2 = 0.4/x1 + 0/x2 + 0.9/x3

,1)(1

K

kik xA NxA

N

iik

1

)(0

••

0.20.40.60.81.0

••

•x1 x2 x3

0.0

Page 12: The Element of Statistical Learning Data Mining, Inference  and Prediction

Rozmyte K średnichCentrum rozmytego klastra Ai

v R, v > 1

Minimalizacjawskaźnika Znaleźć centra dla wybranych klastrów P(t-1)

Znaleźć podział na klastry P(t)

zmiana Ak(xi)

Kryterium stopu:

N

ii

N

iii

k

kw

xkwm

1

1

)(

)(

viki xAkw )]([)(

N

i

K

kkiiv mxkwPJ

1 1

2)()(

)()(max )1()(

,

)1()(i

tki

tkki

tt xAxAPP

Page 13: The Element of Statistical Learning Data Mining, Inference  and Prediction

C.d.

v 1, uogólnienie K średnichv , bardziej rozmytyzbieżny dla każdego v (1, )

Przykład K = 2 v = 1,25

x1

x2

x3

x4

x5

x6

x7 x8 x9 x11

x10

x12

x13

x14

x15

i

A1(xi)

A2(xi)

xi1

xi2

Page 14: The Element of Statistical Learning Data Mining, Inference  and Prediction

Algorytm K medoidów

Medoid – element centralnyUogólnienie K średnich na dowolne atrybuty i odległości.Kryterium:

Znaleźć min centra xik

dla wybranych klastrów C

(medoidy)koszt dla klastra ~ (ilość elementów klastra)2

Znaleźć min podział na klastry C

K

k kiCii

iC kKk

d1 )(}{, 1

min

Page 15: The Element of Statistical Learning Data Mining, Inference  and Prediction

Przykład K medoidów

12 krajówK = 3USA, ISR, FRA, EGY, BELZAI, IND, BRAYUG, USS, CUB, CHI

Page 16: The Element of Statistical Learning Data Mining, Inference  and Prediction

Inna wersja – CLARA

Kilka (np. m = 5) próbek liczności 40+2K Dla każdej próbki – minimalizacja bezp. przez iteracyjne zmiany medoidów (PAM)Koszt iteracji = O(K(N-K)2)Wybór tego z m układów medoidów który jest najlepszy dla wszystkich danych

Page 17: The Element of Statistical Learning Data Mining, Inference  and Prediction

Kwestie praktyczne

Wybór K* początkowych centrów Podać centra lub indeksy lub koder C Losowo lub krokowo minimalizując kryterium

Estymacja K* Rozrzut w klastrach ~ 1/K Rozrzut dla K<K* i dla K>K* K* odpowiada zgięciu wykresu

Page 18: The Element of Statistical Learning Data Mining, Inference  and Prediction

Statystyka Gap

0,0

0,5

1,0

1,5

Page 19: The Element of Statistical Learning Data Mining, Inference  and Prediction

Metody hierarchiczne

Nie wymagają K, tylko miary odległości między grupami obserwacjiKlastry na poziomie M tworzone przez łączenie klastrów z poziomu M-1Poziom min: N klastrów {xi}, poziom max: {x1, ..., xN}

Strategie aglomeracyjne i dzielące, N poziomówUporządkowany ciąg poziomów ~ podziałówWybór poziomu np. statystyka Gap

Page 20: The Element of Statistical Learning Data Mining, Inference  and Prediction

Dendrogram

Page 21: The Element of Statistical Learning Data Mining, Inference  and Prediction

Dendrogram jako opis danych

Ocena reprezentacyjności: wspólczynnik korelacji między dii’ a Cii’

Cii wysokość pierwszego wspólnego klastra N różnych na N(N-1)/2 Cii’ <= {Cik, Ci’k} (trójkąty równoramienne)

Page 22: The Element of Statistical Learning Data Mining, Inference  and Prediction

Metody aglomeracyjne

Od singletonów, do 1 klastra Miary odległości między klastrami G i H: Single Linkage – najmniejsza odległość Complete Linkage – największa odległość Group Avarage – średnia odległość

'',min),( iiHiGiSL dHGd

'',max),( iiHiGiCL dHGd

Gi Hi

iiHG

GA dNN

HGd'

'1),(

Page 23: The Element of Statistical Learning Data Mining, Inference  and Prediction

GA, CL, SL - dendrogramy

Page 24: The Element of Statistical Learning Data Mining, Inference  and Prediction

Przykład

Page 25: The Element of Statistical Learning Data Mining, Inference  and Prediction

Metody dzieląceGdy chcemy otrzymać mało klastrówCiąg podziałów metodą K=2 średnich/medoidów Zależy od początkowej konfiguracji w każdym kroku Nie zawsze otrzymamy własność monotoniczności

Albo Obiekt najbardziej odległy od reszty w klastrze G

do klastra H Obserwacje bliższe H niż G: najbliższa H do H Klaster do podziału – max średnica, lub średni rozrzut

wewnętrzny Do singletonów lub nierozróżnialności w klastrach

Page 26: The Element of Statistical Learning Data Mining, Inference  and Prediction

Hierarchiczne metody rozmyte

Rozmyta relacja równoważności R na X2

R(x,x) = 1 R(x,y) = R(y,x) x,yXx,zX

-cut rozmytego zbioru A: A = {x | A(x) }

0,2A = {x1, x2}, 0,4A = {x1}

)],(),,(min[max),( zyRyxRzxRXy

•0.20.4

•x1 x2

0.0

A(x)

Page 27: The Element of Statistical Learning Data Mining, Inference  and Prediction

Hierarchiczne metody rozmyte

R to crisp relacja równoważności – pary podobne Znaleźć odpowiednią relację R(lub relację kompatybilności i jej tranzytywne domknięcie)

gdzie q > 0,

Tranzytywne domknięcie R to RT = R(n-1)

qp

j

q

jiijii xxxxR1

1'' )(1),(

),(max '', iiiixxR

Page 28: The Element of Statistical Learning Data Mining, Inference  and Prediction

Przykład dla q=2

xi1

xi2

x1

x2

x3

x4

x5

Page 29: The Element of Statistical Learning Data Mining, Inference  and Prediction

Self-Organizing Maps

Wersja K średnich – prototypy na 1 lub 2 wymiarowej rozmaitości w przestrzeni atrybutów, mapowanie obserwacji na rozmaitośćMacierz K prototypów mj Rp,

o współrzędnych lj R2

Inicjalizacja – np. na płaszczyźnie wyznaczonej metodą głównych składowychRegularne rozmieszczenie prototypów na płaszczyźnieWyginanie płaszczyzny

Page 30: The Element of Statistical Learning Data Mining, Inference  and Prediction

Algorytm SOMZnajdź mj najbliższy xi w Rp

Przesuń bliskich sąsiadów mj wg. lj do xi

Wskaźnik uczenia maleje od 1 do 0Próg r maleje od R do 1Albo: przesunięcie zależne od odległości do mj

Sąsiedztwo mj zawiera tylko mj K średnich

)( kikk mxmm

))(( kikjkk mxllhmm

Page 31: The Element of Statistical Learning Data Mining, Inference  and Prediction

1.

2.

3.

Page 32: The Element of Statistical Learning Data Mining, Inference  and Prediction

SOM aproksymacją K średnich

Porównać błędy rekonstrukcji:Przykład: porównanie z K = 25 średnich

2

jmx

k

kkj w

xwm

Page 33: The Element of Statistical Learning Data Mining, Inference  and Prediction

Zastosowanie

http://websom.hut.fi/websom

WEBSOM – rzutowanieartykułów z newsgroupwg. tematyki

artykuł jako wektor wystąpień ustalonych terminów

opcja zoom

Page 34: The Element of Statistical Learning Data Mining, Inference  and Prediction

Średnica zbioru punktów

••

••

••

•• •

• • •

Page 35: The Element of Statistical Learning Data Mining, Inference  and Prediction

Średnia zbioru punktów

••

••

Page 36: The Element of Statistical Learning Data Mining, Inference  and Prediction

Medoid zbioru punktów

••

••

Page 37: The Element of Statistical Learning Data Mining, Inference  and Prediction

Odległość międzygrupowa