ANALIZA SKUPIEŃ

44
ANALIZA SKUPIEŃ (cluster analysis)

description

ANALIZA SKUPIEŃ. (cluster analysis). Założenia. Dane są zbiór obiektów będących przedmiotem klasyfikacji zbiór K cech (zmiennych) charakteryzujących przestrzeń klasyfikacji obserwacje K cech dla N obiektów tworzą macierz. - PowerPoint PPT Presentation

Transcript of ANALIZA SKUPIEŃ

Page 1: ANALIZA SKUPIEŃ

ANALIZA SKUPIEŃ

(cluster analysis)

Page 2: ANALIZA SKUPIEŃ

Założenia

Dane są• zbiór obiektów będących przedmiotem klasyfikacji

• zbiór K cech (zmiennych) charakteryzujących przestrzeń klasyfikacji

• obserwacje K cech dla N obiektów tworzą macierz

NOOO ,...,, 21

KXX ,...,1

KkNixX ik ,...,1;,...,1

Page 3: ANALIZA SKUPIEŃ

Punkt wyjścia procedur klasyfikacji (grupowania) zbioru obiektów

zdefiniowanie miary

nie/podobieństwa obiektów

Najczęstsze rozwiązanie

odległość OBIEKTÓW = miara ich

niepodobieństwa

Page 4: ANALIZA SKUPIEŃ

Odległość miejska (Manhattan)

Odległość Czebyszewa

Odległość (metryka) Mahalanobisa !!!

Odległość euklidesowa

Page 5: ANALIZA SKUPIEŃ

ODLEGŁOŚĆ MIĘDZY ROZŁĄCZNYMI SKUPIENIEM * i **

• Na podstawie odległości „rzeczywistych” obiektów (np. metoda najdalszego sąsiada, najbliższego sąsiada)

• Na podstawie odległości obiektów-reprezentantów (np. metoda środków ciężkości)

Page 6: ANALIZA SKUPIEŃ

METODY KLASYFIKACJI

Metody hierarchiczne (wynik – dendrogram)

Procedury aglomeracyjne

Procedury podziału

Metody niehierarchiczne

• metoda Hartigana

• metoda kul

• metoda kostek

• metoda podziału przestrzennego

• metoda taksonomii stochastycznej

• metoda k-średnich

Page 7: ANALIZA SKUPIEŃ

Etap I: Poszukuje się pary skupień najmniej odległych, tzn.

qpNjiddd jiijji

pq ),,...,1,( ,,min,

Etap II:

Skupienia p oraz q łączy się w jedno skupienie,

zachowując dla niego numer p, czyli p = p q

Etap III:

Z macierzy D usuwane są kolumna i wiersz q (zmienia się wymiar na N-1)

SCHEMAT HIERARCHICZNYCH PROCEDUR GRUPOWANIA

Page 8: ANALIZA SKUPIEŃ

Etap IV:

Obliczane są odległości dpj między „nowym” skupieniem p a pozostałymi skupieniami i wstawiane są do macierzy D w miejsce kolumny/ wiersza p.

Powrót do etapu I.

Koniec procedury – wszystkie obiekty = jedno skupienie.

Page 9: ANALIZA SKUPIEŃ

Wykorzystanie pakietu STATISTICA

Page 10: ANALIZA SKUPIEŃ

Uruchamianie „Analizy skupień” w programie Statistica – wybierane

opcje

• Statystyka

• Wielowymiarowe techniki eksploracyjne

• Analiza skupień

Page 11: ANALIZA SKUPIEŃ

Wybór metody grupowania. Możliwe są dwa zasadnicze warianty:

• Grupowanie metodą k – średnich (metoda „optymalizacyjna”)

• Aglomeracja (czyli wybór metody typu aglomeracyjnego)

Page 12: ANALIZA SKUPIEŃ

OPCJA „AGLOMERACJA” – DOSTĘPNE METODY

Metoda pojedynczego wiązania (najbliższego sąsiada) – łańcuchy obiektów

Metoda pełnego wiązania (najdalszego sąsiada) – naturalne „kępki” obiektów

Metoda średnich połączeń (średnia odległość) – „kępki”

Metoda średnich połączeń ważonych (średnia odległość ważona liczebnością skupień

Metoda środków ciężkości – odległość skupień = odległość środków ciężkości (centroidów)

Metoda ważonych środków ciężkości

Metoda Warda – szacowanie odległości skupień oparte na analizie wariancji (zmienność wewnątrz- i międzygrupowa)

Page 13: ANALIZA SKUPIEŃ

Po wyborze opcji „Aglomeracja”

Opcja więcej

Page 14: ANALIZA SKUPIEŃ

Po przeprowadzeniu obliczeń

Page 15: ANALIZA SKUPIEŃ

W1 W2 W3 W4 W5 W6 W7 W8 W9 W10

Marża zysku netto

Stopa zwrotu z kapitału

własnego

Stopa zwrotu z aktywów

Wskaźnik płynności bieżącej

Rotacja należności

Rotacja zapasów

Rotacja zobowiązań

Cykl konwersji gotówki

Rotacja aktywów

Stopa zadłużenia

AGORA 0,173953 0,185656 0,146215 4,715732 42,6 12,2 56,4 -1,6 428,3 0,212441 D1AMICA 0,054014 0,144399 0,062591 1,312957 56,2 41,8 90,3 7,7 310,7 0,566542 D2

APATOR -0,06608 -0,14414 -0,09858 2,563063 93,4 48,3 55,6 86,1 241,3 0,316047 D3BORYSZEW 0,095637 0,216205 0,173361 2,733441 46,1 44,8 38,6 52,3 198,6 0,198164 D4

BUDIMEX 0,046151 0,063356 0,042277 1,405892 94,7 3,4 99,7 -1,6 393 0,332709 D5COMPLAND 0,036745 0,179994 0,072154 1,579703 100,9 20,2 97,2 23,9 183,3 0,599131 D6

DEBICA 0,067891 0,115578 0,089028 4,009911 52,8 44,8 36,7 60,9 274,5 0,229712 D7KETY 0,085912 0,146131 0,096903 1,690597 95,4 56,9 104,7 47,6 319,2 0,336875 D8KGHM -0,0413 -0,04896 -0,03479 2,647707 33,5 74,7 45,1 63,1 427,4 0,289449 D9ORBIS 0,115218 0,094365 0,077172 3,146802 22 11,1 50,1 -17 537,5 0,18219 D10

PKNORLEN 0,037507 0,108105 0,060601 1,035782 25,6 40,2 67,8 -2 222,8 0,439429 D11PROKOM 0,143999 0,219338 0,170678 3,353862 80,5 52,1 72,7 59,9 303,7 0,221851 D12SWIECIE 0,099228 0,105598 0,087783 2,86967 84,3 21,5 45,2 60,6 406,9 0,168705 D13

TPSA 0,087148 0,107004 0,043481 0,981527 79,5 4,6 140,8 -56,7 721,5 0,593653 D14CERSANIT 0,167806 0,180247 0,113679 1,257928 50 60 120,2 -10,2 531,4 0,369318 D15

IRENA 0,0566 0,066878 0,05093 2,07922 82,1 75,4 82,3 75,2 400,1 0,238472 D16

4MEDIA -0,22861 -0,89505 -0,24517 1,041146 137,3 28,5 139,3 26,5 335,7 0,726084 Z1APEXIM 0,000954 0,002005 0,000533 3,224478 465,7 129,1 175,5 419,3 644,6 0,734331 Z2

BEEFSAN -0,01882 -0,38824 -0,07948 0,819011 18,7 21,1 50,8 -11 85,2 0,795284 Z3BEST -0,57164 -0,61015 -0,39022 0,914175 38,4 0,3 111,6 -72,9 527,4 0,360449 Z4BICK 0,017371 0,089293 0,046327 1,573102 62,2 13,2 60,4 15 135 0,481178 Z5

BYTOM -0,00878 -0,06482 -0,01129 1,158574 71,7 91,9 144,1 19,5 279,9 0,825838 Z6CENTROZAP -0,08339 -0,34152 -0,11644 1,143437 118,8 37,3 151,8 4,3 257,8 0,659041 Z7

CLIF 0,046361 0,197192 0,011822 1,300614 467,2 1 942,2 -474 1411,8 0,940048 Z8

ELEKTROMONTAZ-EXPORT -0,06074 -0,09749 -0,03795 0,880182 166,6 41,8 251,6 -43,2 576,2 0,610691 Z9ELEKTROMONTAZ-W-WA 0,033712 0,072253 0,052998 2,879765 83,2 31 49 65,2 229 0,266502 Z10

ELKOP 0,02443 0,043235 0,024748 1,680043 207,3 42,4 152,4 97,3 355,4 0,427605 Z11ENERGOMONTAZ-POLNOC 0,020527 0,041052 0,025792 2,369938 99,2 75 77,8 96,4 286,5 0,371719 Z12

FAMEG 0,041461 0,069416 0,045936 1,859172 46,7 121,8 94,1 74,4 324,9 0,33825 Z13IBSYSTEM -0,04653 -0,12638 -0,05998 1,024008 82,1 52,2 135,4 -1,1 279,3 0,525368 Z14

LETA 0,068761 0,254119 0,093481 0,676118 53,1 3,5 102,7 -46,1 264,8 0,632139 Z15

PRZYKŁAD

Page 16: ANALIZA SKUPIEŃ

Diagram dla 31 przyp.

Metoda Warda

Odległości euklidesowe

Odl

egło

ść w

iąz.

0

2

4

6

8

10

12

14

16

18 Z

_CLI

F Z

_BE

ST

Z_M

ED

IAZ

_ELE

K_E

Z_I

BS

YS

Z_C

EN

TR

O Z

_BY

TOM

Z_B

EE

FS

A D

_TP

SA

Z_E

LKO

P D

_BU

DIM

Z_L

ETA

Z_B

ICK

D_C

OM

PLA

D_P

KN

OR

L D

_AM

ICA

Z-A

PE

XD

_CE

RS

AN

Z_F

AM

EG

Z_E

NM

ON

T D

_IR

EN

A D

_KE

TY

D_K

GH

MD

_APA

TOR

D_O

RB

ISZ

_ELE

K_W

D_S

WIE

CI

D_D

EB

ICA

D_P

RO

KO

MD

_BO

RY

SZ

D_A

GO

RA

Page 17: ANALIZA SKUPIEŃ

Wykres odległości wiązania względem etapów wiązania

Odległ. euklidesowa

WiązaniaOdległ.

0 3 6 9 12 15 18 21 24 27 30

Krok

-2

0

2

4

6

8

10

12

14

16

18

20O

dle

gło

ść w

iąz.

Page 18: ANALIZA SKUPIEŃ
Page 19: ANALIZA SKUPIEŃ

etap łączenia/ nr krawędzi (i)

Długość krawędzi d(i) / d(i-1) d(i) – d(i-1)

1 ,83968532 ,8832518 1,05 0,043 ,9347008 1,06 0,054 ,9462611 1,01 0,015 1,087814 1,15 0,146 1,289634 1,19 0,207 1,335727 1,04 0,058 1,449247 1,08 0,119 1,507871 1,04 0,06

10 1,556406 1,03 0,0511 1,779411 1,14 0,2212 1,834890 1,03 0,0613 1,902711 1,04 0,0714 2,078074 1,09 0,1815 2,112621 1,02 0,0316 2,257404 1,07 0,1417 2,354639 1,04 0,1018 2,542308 1,08 0,1919 2,569906 1,01 0,0320 2,622067 1,02 0,0521 2,796135 1,07 0,1722 3,159255 1,13 0,3623 3,490557 1,10 0,3324 3,891270 1,11 0,40

25 7,149348 1,84 3,2626 7,863721 1,10 0,7127 9,633989 1,23 1,7728 12,43645 1,29 2,8029 14,50333 1,17 2,0730 17,27562 1,19 2,77

Page 20: ANALIZA SKUPIEŃ

To warto jeszcze wiedzieć o metodach

aglomeracyjnych!

Page 21: ANALIZA SKUPIEŃ

Nr przypadku

ŚrednieOdchylenie standardowe

D_AGORA 1,03557 1,161736

D_AMICA 0,04906 0,527579

D_APATOR -0,32413 0,614082

D_BORYSZ 0,61445 0,696321

D_BUDIM 0,02902 0,329358

D_COMPLAND 0,20430 0,412182

D_DEBICA 0,60701 0,889546

D_KETY 0,30424 0,420864

D_KGHM -0,19881 0,522548

D_ORBIS 0,41486 0,720458

D_PKNORL -0,11900 0,625328

D_PROKOM 0,86890 0,637737

D_SWIECIE 0,48284 0,401776

D_TPSA 0,01563 0,597181

D_CERSANIT 0,31210 0,823914

D_IRENA 0,16845 0,210806

Z_MEDIA -1,62315 1,459039

Z-APEX 0,89489 1,536227

Z_BEEFSAN -0,89224 0,472190

Z_BEST -2,36912 1,598446

Z_BICK -0,01535 0,336894

Z_BYTOM -0,33774 0,233982

Z_CENTRO -0,76281 0,580538

Z_CLIF 0,76733 1,586162

Z_ELEK_EX -0,36082 0,596843

Z_ELEK_WA 0,29904 0,395484

Z_ELKOP 0,21671 0,464600

Z_ENMONT 0,13958 0,171558

Z_FAMEG 0,02986 0,338894

Z_IBSYS -0,53293 0,257612

Z_LETA 0,08226 0,905589

Page 22: ANALIZA SKUPIEŃ

PROCEDURA:1. wstępne losowe przyporządkowanie obiektów do skupień2. iteracyjne przenoszenie obiektów między skupieniami, by

zminimalizować zmienność wewnątrzgrupową i zmaksymalizować zmienność międzygrupową.

Metoda k-średnich

Page 23: ANALIZA SKUPIEŃ
Page 24: ANALIZA SKUPIEŃ

Średnie skup. (SPOLKI_stand)

ZmiennaSkupien.

Nr 1Skupien.

Nr 2Skupien.

Nr 3W1W2W3W4W5W6W7W8W9W10

-1,95663 0,053574 0,67784-1,72146 0,055352 0,57171-1,94247 -0,003163 0,84198-0,81868 -0,351009 1,403891,06434 -0,016117 -0,40779-0,97211 0,249329 -0,331371,71762 -0,090352 -0,46507-1,55382 0,168106 0,161601,55643 -0,161577 -0,182311,04670 0,223698 -1,11968

Odległości euklidesowe skupień (SPOLKI_stand)Odległości pod przekątnąKwadr. odległości nad przekątnąSkupien.

NumerNr 1Nr 2Nr 3Nr 1Nr 2Nr 3

0,0000002,3699594,2892981,5394670,0000000,6886432,0710620,8298450,000000

Odległości euklidesowe skupień Średnie wartości zmiennych w skupieniach

Analiza wariancji

Analiza wariancji (SPOLKI_stand)

ZmiennaMiędzy

SSdf Wewn.

SSdf F Istotn.

pW1W2W3W4W5W6W7W8W9W10

14,761702 15,238302813,562140,00007611,242582 18,7574228 8,391140,00139516,282292 13,717712816,617350,00001718,394432 11,605572822,189530,0000024,568002 25,4320028 2,514630,0989994,909112 25,0908928 2,739140,081946

10,536112 19,4638928 7,578420,0023428,019322 21,9806828 5,107690,0128498,048312 21,9516928 5,132920,012614

13,113362 16,886642810,871740,000321

Page 25: ANALIZA SKUPIEŃ

Analiza wariancji (SPOLKI_stand)

ZmiennaMiędzy

SSdf Wewn.

SSdf F Istotn.

pW1W2W3W4W5W6W7W8W9W10

14,761702 15,238302813,562140,00007611,242582 18,7574228 8,391140,00139516,282292 13,717712816,617350,00001718,394432 11,605572822,189530,0000024,568002 25,4320028 2,514630,0989994,909112 25,0908928 2,739140,081946

10,536112 19,4638928 7,578420,0023428,019322 21,9806828 5,107690,0128498,048312 21,9516928 5,132920,012614

13,113362 16,886642810,871740,000321

Wykr. średnich każd. skupienia

Skupien. 1 Skupien. 2 Skupien. 3

W1 W2 W3 W4 W5 W6 W7 W8 W9 W10

Zmienne

-4

-3

-2

-1

0

1

2

3

4

Analiza wariancji

Page 26: ANALIZA SKUPIEŃ

Statystyki opisowe skupienia 3 (SPOLKI_stand)Skupienie ma 7 przyp

ZmiennaŚrednie Standar.

OdchylenieWarianc.

W1W2W3W4W5W6W7W8W9W10

0,67784 0,3443280,1185620,57171 0,2421540,0586390,84198 0,4204520,1767801,40389 0,7012530,491756-0,40779 0,2296250,052727-0,33137 0,5050670,255093-0,46507 0,0762810,0058190,16160 0,2748790,075558-0,18231 0,5065630,256606-1,11968 0,1516340,022993

Statystyki opisowe skupienia 2 (SPOLKI_stand)Skupienie ma 21 przyp

ZmiennaŚrednie Standar.

OdchylenieWarianc.

W1W2W3W4W5W6W7W8W9W10

0,053574 0,4471640,1999560,055352 0,6471070,418747-0,0031630,5677910,322386-0,3510090,6550830,429134-0,016117 0,8966730,8040220,249329 1,0743601,154250-0,0903520,3088240,0953720,168106 0,7893970,623148-0,1615770,6722390,4519050,223698 0,8064180,650311

Statystyki opisowe skupienia 1 (SPOLKI_stand)Skupienie ma 3 przyp

ZmiennaŚrednie Standar.

OdchylenieWarianc.

W1W2W3W4W5W6W7W8W9W10

-1,95663 2,2943205,263906-1,72146 2,2394915,015322-1,94247 1,7620033,104653-0,81868 0,1901960,0361751,06434 2,1254644,517599-0,97211 0,4875130,2376691,71762 2,9598598,760764-1,55382 2,1288934,5321861,55643 2,3847395,6869801,04670 1,3679311,871235

Page 27: ANALIZA SKUPIEŃ

Elementy skupienia numer 1 (SPOLKI_stand)i odległości od środka właściwego skupieniaSkupienie ma 3 przypOdległ.

Z_MEDIA Z_BEST Z_CLIF

1,1235091,3580232,167671

Elementy skupienia numer 2 (SPOLKI_stand)i odległości od środka właściwego skupieniaSkupienie ma 21 przypOdległ.

D_AMICA D_APATOR D_BUDIM D_COMPLAND D_KETY D_KGHM D_PKNORL D_TPSA D_CERSANIT D_IRENA Z-APEX Z_BEEFSAN Z_BICK Z_BYTOM Z_CENTRO

0,3156670,6222760,5416530,4694150,4057680,6136710,4101400,7752620,6237310,5196871,8015450,9258660,4951500,6706040,712202 Elementy skupienia numer 1 (SPOLKI_stand)

i odległości od środka właściwego skupieniaSkupienie ma 3 przypOdległ.

Z_MEDIA Z_BEST Z_CLIF

1,1235091,3580232,167671

Page 28: ANALIZA SKUPIEŃ

FUNKCJA DYSKRYMINACYJNA

Page 29: ANALIZA SKUPIEŃ

Wyprowadzenie

x

xxZ

2

1

21

2

5.05.0

11

1

5.05.0

5.0exp2

5.0exp2

xx

xxTK

TK

,

,

2

1

2

1

21

2

21

1

N

N

xpf

xpf

xfxfpxpfxfxfp

xpf

Page 30: ANALIZA SKUPIEŃ

101

101

10 2

1 TT xxD

Page 31: ANALIZA SKUPIEŃ

Spółka

Płynność bieżąca

Rotacja należności w

dniach

Rotacja zapasów w dniach

Elkop 0,79 97,3 11,5Elektromontaż-Wwa 0,995 121,1 20Energomontaż-Północ

1,249 135,9 85,2

Mostostal-Zabrze 0,794 45,4 1,5Resbud 0,825 69,5 4,5

Mostostal-Płock 4,235 101,1 8,6Polnord 1,233 153,3 15,9Mostostal-Export 0,917 224,4 26,4Bauma 0,722 161,1 20,9LPP 1,436 47,2 118,8

Page 32: ANALIZA SKUPIEŃ

Równanie funkcji dyskryminacyjnej:

27512,50,01940,0261,2562ˆ321 XXXxD

Płynność bieżącaRotacja należności w dniach

Rotacja zapasów w dniach

Page 33: ANALIZA SKUPIEŃ

Spółka Wskaźnik płynności bieżącej

Rotacja należności w dniach

Rotacja zapasów w dniach

Wartości funkcji

Elkom 0,79 97,3 11,5 1,5298

Elektromontaż-Warszawa 0,995 121,1 20 0,4886

Energomontaż-Północ 1,249 135,9 85,2 -1,4802

Mostostal-Zabrze 0,794 45,4 1,5 3,0682

Resbud 0,825 69,5 4,5 2,3445

Mostostal-Płock 4,235 101,1 8,6 -2,8403

Polnord 1,233 153,3 15,9 -0,5680

Mostostal-Export 0,917 224,4 26,4 -2,2234

Bauma 0,722 161,1 20,9 -0,2259

LPP 1,436 47,2 118,8 -0,0607

1X 2X 3X xD̂

Podstawa klasyfikacji

Page 34: ANALIZA SKUPIEŃ

OCENA JAKOŚCI FUNKCJI DYSKRYMINACYJNEJ

Miara ogólnej zdolności dyskryminacyjnej modelu – współczynnik lambda Wilksa

T

e

S

S

Wpływ dodatkowych zmiennych na zdolność dyskryminacyjną ……

Page 35: ANALIZA SKUPIEŃ

Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (I)

Cząstkowy współczynnik Wilks’a

k

cz 1

0

wartość współczynnika lambda Wilksa dla modelu po wprowadzeniu do niego danej zmiennej

1wartość współczynnika lambda Wilksa dla modelu przed wprowadzeniem danej zmiennej.

o

określa mnożnikową zmianę wartości statystyki lambda, spowodowaną wprowadzeniem do modelu danej zmiennej Xk. Wartość współczynnika zawiera się w przedziale <0, 1>

KrN

KF czk

czk

k

1

1

Page 36: ANALIZA SKUPIEŃ

Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (II)

statystyka k Wilks’a (dla modelu!)

Wartość jaką przyjęłaby statystyka lambda Wilks’a dla ogólnego modelu, gdyby wyłączyć z niego daną zmienną Xk.

k <0, 1> k

ok

kczk

1

Page 37: ANALIZA SKUPIEŃ

Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (III)

współczynnik tolerancji Tk

T Rk k 1 2

Rk oznacza współczynnik korelacji wielorakiej między daną zmienną Xk a pozostałymi zmiennymi w modelu (< 90%)

Page 38: ANALIZA SKUPIEŃ

Macierz klasyfikacji

Rzeczywistaprzynależność obiektu

Populacja, do której obiekt zaklasyfikowano na podstawie funkcji

dyskryminacyjnej

Łączna liczebność próby z danej

populacji

0 1

0 n00 n01 n0

1 n10 n11 n1

Page 39: ANALIZA SKUPIEŃ

Analiza dyskryminacyjna w pakiecie STATISTICA

Page 40: ANALIZA SKUPIEŃ

Podsumowanie – zmienne w modelu

Zmiana Lambdy dla modelu po wprowadzeniu danej X

Lambda dla modelu przed wprowadzeniem danej X

KrN

KF czk

czk

k

1

1

Page 41: ANALIZA SKUPIEŃ
Page 42: ANALIZA SKUPIEŃ

1.   Elkom 2,3866 0,85882.   Elektromontaż-Warszawa 4,2470 3,76123.   Energomontaż-Północ 7,7308 9,21694.   Mostostal-Zabrze -0,5321 -3,59955.   Resbud 0,8271 -1,51616.   Mostostal-Płock 8,8930 11,73547.   Polnord 6,1462 6,71748.   Mostostal-Export

9,4543 11,68249.   Bauma 5,7559 5,985310.        LPP 4,8476 4,9144

Page 43: ANALIZA SKUPIEŃ
Page 44: ANALIZA SKUPIEŃ