ANALIZA SKUPIEŃ
description
Transcript of ANALIZA SKUPIEŃ
ANALIZA SKUPIEŃ
(cluster analysis)
Założenia
Dane są• zbiór obiektów będących przedmiotem klasyfikacji
• zbiór K cech (zmiennych) charakteryzujących przestrzeń klasyfikacji
• obserwacje K cech dla N obiektów tworzą macierz
NOOO ,...,, 21
KXX ,...,1
KkNixX ik ,...,1;,...,1
Punkt wyjścia procedur klasyfikacji (grupowania) zbioru obiektów
zdefiniowanie miary
nie/podobieństwa obiektów
Najczęstsze rozwiązanie
odległość OBIEKTÓW = miara ich
niepodobieństwa
Odległość miejska (Manhattan)
Odległość Czebyszewa
Odległość (metryka) Mahalanobisa !!!
Odległość euklidesowa
ODLEGŁOŚĆ MIĘDZY ROZŁĄCZNYMI SKUPIENIEM * i **
• Na podstawie odległości „rzeczywistych” obiektów (np. metoda najdalszego sąsiada, najbliższego sąsiada)
• Na podstawie odległości obiektów-reprezentantów (np. metoda środków ciężkości)
METODY KLASYFIKACJI
Metody hierarchiczne (wynik – dendrogram)
Procedury aglomeracyjne
Procedury podziału
Metody niehierarchiczne
• metoda Hartigana
• metoda kul
• metoda kostek
• metoda podziału przestrzennego
• metoda taksonomii stochastycznej
• metoda k-średnich
Etap I: Poszukuje się pary skupień najmniej odległych, tzn.
qpNjiddd jiijji
pq ),,...,1,( ,,min,
Etap II:
Skupienia p oraz q łączy się w jedno skupienie,
zachowując dla niego numer p, czyli p = p q
Etap III:
Z macierzy D usuwane są kolumna i wiersz q (zmienia się wymiar na N-1)
SCHEMAT HIERARCHICZNYCH PROCEDUR GRUPOWANIA
Etap IV:
Obliczane są odległości dpj między „nowym” skupieniem p a pozostałymi skupieniami i wstawiane są do macierzy D w miejsce kolumny/ wiersza p.
Powrót do etapu I.
Koniec procedury – wszystkie obiekty = jedno skupienie.
Wykorzystanie pakietu STATISTICA
Uruchamianie „Analizy skupień” w programie Statistica – wybierane
opcje
• Statystyka
• Wielowymiarowe techniki eksploracyjne
• Analiza skupień
Wybór metody grupowania. Możliwe są dwa zasadnicze warianty:
• Grupowanie metodą k – średnich (metoda „optymalizacyjna”)
• Aglomeracja (czyli wybór metody typu aglomeracyjnego)
OPCJA „AGLOMERACJA” – DOSTĘPNE METODY
Metoda pojedynczego wiązania (najbliższego sąsiada) – łańcuchy obiektów
Metoda pełnego wiązania (najdalszego sąsiada) – naturalne „kępki” obiektów
Metoda średnich połączeń (średnia odległość) – „kępki”
Metoda średnich połączeń ważonych (średnia odległość ważona liczebnością skupień
Metoda środków ciężkości – odległość skupień = odległość środków ciężkości (centroidów)
Metoda ważonych środków ciężkości
Metoda Warda – szacowanie odległości skupień oparte na analizie wariancji (zmienność wewnątrz- i międzygrupowa)
Po wyborze opcji „Aglomeracja”
Opcja więcej
Po przeprowadzeniu obliczeń
W1 W2 W3 W4 W5 W6 W7 W8 W9 W10
Marża zysku netto
Stopa zwrotu z kapitału
własnego
Stopa zwrotu z aktywów
Wskaźnik płynności bieżącej
Rotacja należności
Rotacja zapasów
Rotacja zobowiązań
Cykl konwersji gotówki
Rotacja aktywów
Stopa zadłużenia
AGORA 0,173953 0,185656 0,146215 4,715732 42,6 12,2 56,4 -1,6 428,3 0,212441 D1AMICA 0,054014 0,144399 0,062591 1,312957 56,2 41,8 90,3 7,7 310,7 0,566542 D2
APATOR -0,06608 -0,14414 -0,09858 2,563063 93,4 48,3 55,6 86,1 241,3 0,316047 D3BORYSZEW 0,095637 0,216205 0,173361 2,733441 46,1 44,8 38,6 52,3 198,6 0,198164 D4
BUDIMEX 0,046151 0,063356 0,042277 1,405892 94,7 3,4 99,7 -1,6 393 0,332709 D5COMPLAND 0,036745 0,179994 0,072154 1,579703 100,9 20,2 97,2 23,9 183,3 0,599131 D6
DEBICA 0,067891 0,115578 0,089028 4,009911 52,8 44,8 36,7 60,9 274,5 0,229712 D7KETY 0,085912 0,146131 0,096903 1,690597 95,4 56,9 104,7 47,6 319,2 0,336875 D8KGHM -0,0413 -0,04896 -0,03479 2,647707 33,5 74,7 45,1 63,1 427,4 0,289449 D9ORBIS 0,115218 0,094365 0,077172 3,146802 22 11,1 50,1 -17 537,5 0,18219 D10
PKNORLEN 0,037507 0,108105 0,060601 1,035782 25,6 40,2 67,8 -2 222,8 0,439429 D11PROKOM 0,143999 0,219338 0,170678 3,353862 80,5 52,1 72,7 59,9 303,7 0,221851 D12SWIECIE 0,099228 0,105598 0,087783 2,86967 84,3 21,5 45,2 60,6 406,9 0,168705 D13
TPSA 0,087148 0,107004 0,043481 0,981527 79,5 4,6 140,8 -56,7 721,5 0,593653 D14CERSANIT 0,167806 0,180247 0,113679 1,257928 50 60 120,2 -10,2 531,4 0,369318 D15
IRENA 0,0566 0,066878 0,05093 2,07922 82,1 75,4 82,3 75,2 400,1 0,238472 D16
4MEDIA -0,22861 -0,89505 -0,24517 1,041146 137,3 28,5 139,3 26,5 335,7 0,726084 Z1APEXIM 0,000954 0,002005 0,000533 3,224478 465,7 129,1 175,5 419,3 644,6 0,734331 Z2
BEEFSAN -0,01882 -0,38824 -0,07948 0,819011 18,7 21,1 50,8 -11 85,2 0,795284 Z3BEST -0,57164 -0,61015 -0,39022 0,914175 38,4 0,3 111,6 -72,9 527,4 0,360449 Z4BICK 0,017371 0,089293 0,046327 1,573102 62,2 13,2 60,4 15 135 0,481178 Z5
BYTOM -0,00878 -0,06482 -0,01129 1,158574 71,7 91,9 144,1 19,5 279,9 0,825838 Z6CENTROZAP -0,08339 -0,34152 -0,11644 1,143437 118,8 37,3 151,8 4,3 257,8 0,659041 Z7
CLIF 0,046361 0,197192 0,011822 1,300614 467,2 1 942,2 -474 1411,8 0,940048 Z8
ELEKTROMONTAZ-EXPORT -0,06074 -0,09749 -0,03795 0,880182 166,6 41,8 251,6 -43,2 576,2 0,610691 Z9ELEKTROMONTAZ-W-WA 0,033712 0,072253 0,052998 2,879765 83,2 31 49 65,2 229 0,266502 Z10
ELKOP 0,02443 0,043235 0,024748 1,680043 207,3 42,4 152,4 97,3 355,4 0,427605 Z11ENERGOMONTAZ-POLNOC 0,020527 0,041052 0,025792 2,369938 99,2 75 77,8 96,4 286,5 0,371719 Z12
FAMEG 0,041461 0,069416 0,045936 1,859172 46,7 121,8 94,1 74,4 324,9 0,33825 Z13IBSYSTEM -0,04653 -0,12638 -0,05998 1,024008 82,1 52,2 135,4 -1,1 279,3 0,525368 Z14
LETA 0,068761 0,254119 0,093481 0,676118 53,1 3,5 102,7 -46,1 264,8 0,632139 Z15
PRZYKŁAD
Diagram dla 31 przyp.
Metoda Warda
Odległości euklidesowe
Odl
egło
ść w
iąz.
0
2
4
6
8
10
12
14
16
18 Z
_CLI
F Z
_BE
ST
Z_M
ED
IAZ
_ELE
K_E
Z_I
BS
YS
Z_C
EN
TR
O Z
_BY
TOM
Z_B
EE
FS
A D
_TP
SA
Z_E
LKO
P D
_BU
DIM
Z_L
ETA
Z_B
ICK
D_C
OM
PLA
D_P
KN
OR
L D
_AM
ICA
Z-A
PE
XD
_CE
RS
AN
Z_F
AM
EG
Z_E
NM
ON
T D
_IR
EN
A D
_KE
TY
D_K
GH
MD
_APA
TOR
D_O
RB
ISZ
_ELE
K_W
D_S
WIE
CI
D_D
EB
ICA
D_P
RO
KO
MD
_BO
RY
SZ
D_A
GO
RA
Wykres odległości wiązania względem etapów wiązania
Odległ. euklidesowa
WiązaniaOdległ.
0 3 6 9 12 15 18 21 24 27 30
Krok
-2
0
2
4
6
8
10
12
14
16
18
20O
dle
gło
ść w
iąz.
etap łączenia/ nr krawędzi (i)
Długość krawędzi d(i) / d(i-1) d(i) – d(i-1)
1 ,83968532 ,8832518 1,05 0,043 ,9347008 1,06 0,054 ,9462611 1,01 0,015 1,087814 1,15 0,146 1,289634 1,19 0,207 1,335727 1,04 0,058 1,449247 1,08 0,119 1,507871 1,04 0,06
10 1,556406 1,03 0,0511 1,779411 1,14 0,2212 1,834890 1,03 0,0613 1,902711 1,04 0,0714 2,078074 1,09 0,1815 2,112621 1,02 0,0316 2,257404 1,07 0,1417 2,354639 1,04 0,1018 2,542308 1,08 0,1919 2,569906 1,01 0,0320 2,622067 1,02 0,0521 2,796135 1,07 0,1722 3,159255 1,13 0,3623 3,490557 1,10 0,3324 3,891270 1,11 0,40
25 7,149348 1,84 3,2626 7,863721 1,10 0,7127 9,633989 1,23 1,7728 12,43645 1,29 2,8029 14,50333 1,17 2,0730 17,27562 1,19 2,77
To warto jeszcze wiedzieć o metodach
aglomeracyjnych!
Nr przypadku
ŚrednieOdchylenie standardowe
D_AGORA 1,03557 1,161736
D_AMICA 0,04906 0,527579
D_APATOR -0,32413 0,614082
D_BORYSZ 0,61445 0,696321
D_BUDIM 0,02902 0,329358
D_COMPLAND 0,20430 0,412182
D_DEBICA 0,60701 0,889546
D_KETY 0,30424 0,420864
D_KGHM -0,19881 0,522548
D_ORBIS 0,41486 0,720458
D_PKNORL -0,11900 0,625328
D_PROKOM 0,86890 0,637737
D_SWIECIE 0,48284 0,401776
D_TPSA 0,01563 0,597181
D_CERSANIT 0,31210 0,823914
D_IRENA 0,16845 0,210806
Z_MEDIA -1,62315 1,459039
Z-APEX 0,89489 1,536227
Z_BEEFSAN -0,89224 0,472190
Z_BEST -2,36912 1,598446
Z_BICK -0,01535 0,336894
Z_BYTOM -0,33774 0,233982
Z_CENTRO -0,76281 0,580538
Z_CLIF 0,76733 1,586162
Z_ELEK_EX -0,36082 0,596843
Z_ELEK_WA 0,29904 0,395484
Z_ELKOP 0,21671 0,464600
Z_ENMONT 0,13958 0,171558
Z_FAMEG 0,02986 0,338894
Z_IBSYS -0,53293 0,257612
Z_LETA 0,08226 0,905589
PROCEDURA:1. wstępne losowe przyporządkowanie obiektów do skupień2. iteracyjne przenoszenie obiektów między skupieniami, by
zminimalizować zmienność wewnątrzgrupową i zmaksymalizować zmienność międzygrupową.
Metoda k-średnich
Średnie skup. (SPOLKI_stand)
ZmiennaSkupien.
Nr 1Skupien.
Nr 2Skupien.
Nr 3W1W2W3W4W5W6W7W8W9W10
-1,95663 0,053574 0,67784-1,72146 0,055352 0,57171-1,94247 -0,003163 0,84198-0,81868 -0,351009 1,403891,06434 -0,016117 -0,40779-0,97211 0,249329 -0,331371,71762 -0,090352 -0,46507-1,55382 0,168106 0,161601,55643 -0,161577 -0,182311,04670 0,223698 -1,11968
Odległości euklidesowe skupień (SPOLKI_stand)Odległości pod przekątnąKwadr. odległości nad przekątnąSkupien.
NumerNr 1Nr 2Nr 3Nr 1Nr 2Nr 3
0,0000002,3699594,2892981,5394670,0000000,6886432,0710620,8298450,000000
Odległości euklidesowe skupień Średnie wartości zmiennych w skupieniach
Analiza wariancji
Analiza wariancji (SPOLKI_stand)
ZmiennaMiędzy
SSdf Wewn.
SSdf F Istotn.
pW1W2W3W4W5W6W7W8W9W10
14,761702 15,238302813,562140,00007611,242582 18,7574228 8,391140,00139516,282292 13,717712816,617350,00001718,394432 11,605572822,189530,0000024,568002 25,4320028 2,514630,0989994,909112 25,0908928 2,739140,081946
10,536112 19,4638928 7,578420,0023428,019322 21,9806828 5,107690,0128498,048312 21,9516928 5,132920,012614
13,113362 16,886642810,871740,000321
Analiza wariancji (SPOLKI_stand)
ZmiennaMiędzy
SSdf Wewn.
SSdf F Istotn.
pW1W2W3W4W5W6W7W8W9W10
14,761702 15,238302813,562140,00007611,242582 18,7574228 8,391140,00139516,282292 13,717712816,617350,00001718,394432 11,605572822,189530,0000024,568002 25,4320028 2,514630,0989994,909112 25,0908928 2,739140,081946
10,536112 19,4638928 7,578420,0023428,019322 21,9806828 5,107690,0128498,048312 21,9516928 5,132920,012614
13,113362 16,886642810,871740,000321
Wykr. średnich każd. skupienia
Skupien. 1 Skupien. 2 Skupien. 3
W1 W2 W3 W4 W5 W6 W7 W8 W9 W10
Zmienne
-4
-3
-2
-1
0
1
2
3
4
Analiza wariancji
Statystyki opisowe skupienia 3 (SPOLKI_stand)Skupienie ma 7 przyp
ZmiennaŚrednie Standar.
OdchylenieWarianc.
W1W2W3W4W5W6W7W8W9W10
0,67784 0,3443280,1185620,57171 0,2421540,0586390,84198 0,4204520,1767801,40389 0,7012530,491756-0,40779 0,2296250,052727-0,33137 0,5050670,255093-0,46507 0,0762810,0058190,16160 0,2748790,075558-0,18231 0,5065630,256606-1,11968 0,1516340,022993
Statystyki opisowe skupienia 2 (SPOLKI_stand)Skupienie ma 21 przyp
ZmiennaŚrednie Standar.
OdchylenieWarianc.
W1W2W3W4W5W6W7W8W9W10
0,053574 0,4471640,1999560,055352 0,6471070,418747-0,0031630,5677910,322386-0,3510090,6550830,429134-0,016117 0,8966730,8040220,249329 1,0743601,154250-0,0903520,3088240,0953720,168106 0,7893970,623148-0,1615770,6722390,4519050,223698 0,8064180,650311
Statystyki opisowe skupienia 1 (SPOLKI_stand)Skupienie ma 3 przyp
ZmiennaŚrednie Standar.
OdchylenieWarianc.
W1W2W3W4W5W6W7W8W9W10
-1,95663 2,2943205,263906-1,72146 2,2394915,015322-1,94247 1,7620033,104653-0,81868 0,1901960,0361751,06434 2,1254644,517599-0,97211 0,4875130,2376691,71762 2,9598598,760764-1,55382 2,1288934,5321861,55643 2,3847395,6869801,04670 1,3679311,871235
Elementy skupienia numer 1 (SPOLKI_stand)i odległości od środka właściwego skupieniaSkupienie ma 3 przypOdległ.
Z_MEDIA Z_BEST Z_CLIF
1,1235091,3580232,167671
Elementy skupienia numer 2 (SPOLKI_stand)i odległości od środka właściwego skupieniaSkupienie ma 21 przypOdległ.
D_AMICA D_APATOR D_BUDIM D_COMPLAND D_KETY D_KGHM D_PKNORL D_TPSA D_CERSANIT D_IRENA Z-APEX Z_BEEFSAN Z_BICK Z_BYTOM Z_CENTRO
0,3156670,6222760,5416530,4694150,4057680,6136710,4101400,7752620,6237310,5196871,8015450,9258660,4951500,6706040,712202 Elementy skupienia numer 1 (SPOLKI_stand)
i odległości od środka właściwego skupieniaSkupienie ma 3 przypOdległ.
Z_MEDIA Z_BEST Z_CLIF
1,1235091,3580232,167671
FUNKCJA DYSKRYMINACYJNA
Wyprowadzenie
x
xxZ
2
1
21
2
5.05.0
11
1
5.05.0
5.0exp2
5.0exp2
xx
xxTK
TK
,
,
2
1
2
1
21
2
21
1
N
N
xpf
xpf
xfxfpxpfxfxfp
xpf
101
101
10 2
1 TT xxD
Spółka
Płynność bieżąca
Rotacja należności w
dniach
Rotacja zapasów w dniach
Elkop 0,79 97,3 11,5Elektromontaż-Wwa 0,995 121,1 20Energomontaż-Północ
1,249 135,9 85,2
Mostostal-Zabrze 0,794 45,4 1,5Resbud 0,825 69,5 4,5
Mostostal-Płock 4,235 101,1 8,6Polnord 1,233 153,3 15,9Mostostal-Export 0,917 224,4 26,4Bauma 0,722 161,1 20,9LPP 1,436 47,2 118,8
Równanie funkcji dyskryminacyjnej:
27512,50,01940,0261,2562ˆ321 XXXxD
Płynność bieżącaRotacja należności w dniach
Rotacja zapasów w dniach
Spółka Wskaźnik płynności bieżącej
Rotacja należności w dniach
Rotacja zapasów w dniach
Wartości funkcji
Elkom 0,79 97,3 11,5 1,5298
Elektromontaż-Warszawa 0,995 121,1 20 0,4886
Energomontaż-Północ 1,249 135,9 85,2 -1,4802
Mostostal-Zabrze 0,794 45,4 1,5 3,0682
Resbud 0,825 69,5 4,5 2,3445
Mostostal-Płock 4,235 101,1 8,6 -2,8403
Polnord 1,233 153,3 15,9 -0,5680
Mostostal-Export 0,917 224,4 26,4 -2,2234
Bauma 0,722 161,1 20,9 -0,2259
LPP 1,436 47,2 118,8 -0,0607
1X 2X 3X xD̂
Podstawa klasyfikacji
OCENA JAKOŚCI FUNKCJI DYSKRYMINACYJNEJ
Miara ogólnej zdolności dyskryminacyjnej modelu – współczynnik lambda Wilksa
T
e
S
S
Wpływ dodatkowych zmiennych na zdolność dyskryminacyjną ……
Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (I)
Cząstkowy współczynnik Wilks’a
k
cz 1
0
wartość współczynnika lambda Wilksa dla modelu po wprowadzeniu do niego danej zmiennej
1wartość współczynnika lambda Wilksa dla modelu przed wprowadzeniem danej zmiennej.
o
określa mnożnikową zmianę wartości statystyki lambda, spowodowaną wprowadzeniem do modelu danej zmiennej Xk. Wartość współczynnika zawiera się w przedziale <0, 1>
KrN
KF czk
czk
k
1
1
Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (II)
statystyka k Wilks’a (dla modelu!)
Wartość jaką przyjęłaby statystyka lambda Wilks’a dla ogólnego modelu, gdyby wyłączyć z niego daną zmienną Xk.
k <0, 1> k
ok
kczk
1
Ocena zdolności dyskryminacyjnej poszczególnych zmiennych (III)
współczynnik tolerancji Tk
T Rk k 1 2
Rk oznacza współczynnik korelacji wielorakiej między daną zmienną Xk a pozostałymi zmiennymi w modelu (< 90%)
Macierz klasyfikacji
Rzeczywistaprzynależność obiektu
Populacja, do której obiekt zaklasyfikowano na podstawie funkcji
dyskryminacyjnej
Łączna liczebność próby z danej
populacji
0 1
0 n00 n01 n0
1 n10 n11 n1
Analiza dyskryminacyjna w pakiecie STATISTICA
Podsumowanie – zmienne w modelu
Zmiana Lambdy dla modelu po wprowadzeniu danej X
Lambda dla modelu przed wprowadzeniem danej X
KrN
KF czk
czk
k
1
1
1. Elkom 2,3866 0,85882. Elektromontaż-Warszawa 4,2470 3,76123. Energomontaż-Północ 7,7308 9,21694. Mostostal-Zabrze -0,5321 -3,59955. Resbud 0,8271 -1,51616. Mostostal-Płock 8,8930 11,73547. Polnord 6,1462 6,71748. Mostostal-Export
9,4543 11,68249. Bauma 5,7559 5,985310. LPP 4,8476 4,9144