Gradacyjna analiza danych
description
Transcript of Gradacyjna analiza danych
Gradacyjna analiza Gradacyjna analiza danychdanych
Instytut Podstaw Informatyki PANWiesław Szczesny
Emilia Jarochowska
Gradacyjna analiza danychGradacyjna analiza danychGrade Correspondence Analysis
• Pomiar koncentracji, Pomiar koncentracji, nadreprezentacja, GCAnadreprezentacja, GCA
• Przykład analizyPrzykład analizy• Ku kompletnej Ku kompletnej
infrastrukturze pojęć gradacyjnej infrastrukturze pojęć gradacyjnej analizy danychanalizy danych
0
0.2
0.4
0.6
0.8
1
0 0.5 1
0
0.2
0.4
0.6
0.8
1
0 2 4 6 8
W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje się krzywą w kwadracie jednostkowym, która reprezentuje koncentrację jednego rozkładu względem drugiego.
Para rozkładów
Krzywa koncentracji
Pomiar maksymalnej Pomiar maksymalnej koncentracji: krzywa koncentracji: krzywa CCmaxmax
i wskaźnik i wskaźnik ararmaxmax
ar max =
2 ×
pol
e
Cmax
„wielkość obserwowana”
„wielkość wynikająca z modelu”Wskaźnik nadreprezentacji =
NadreprezentacjaNadreprezentacjapi 0.06 0.07 0.081 0.094 0.125 0.127 0.184 0.26
qi 0.022 0.036 0.051 0.071 0.127 0.212 0.217 0.263
hi 0.37 0.51 0.63 0.76 1.02 1.67 1.18 1.01
A B C D
B1
B2
B3
B4
B5
B6
GCAGCA
B A C D
B4
B1
B2
B5
B3
B6
B A C D
B4
B1
B2
B5
B3
B6
B A C D
B4
B1
B2
B5
BB
B3
B60.60.660.710.760.820.880.951.021.091.171.261.351.451.56
GradeStatGradeStat
Przykład analizyWskaźniki Wskaźniki
ekonomiczno-gospodarczeekonomiczno-gospodarcze
Dane z Grzegorek, 2006na podstawie http://epp.eurostat.cec.eu.int
Prz
ykła
d a
nali
zyG
CA
– g
rad
acy
jna a
nali
zaG
CA
– g
rad
acy
jna a
nali
zaod
pow
ied
nio
ści
+ i
mp
uta
cja
od
pow
ied
nio
ści
+ i
mp
uta
cja
zuż.
ene
rgii
PK
B n
a os
/śr
EU
dost
e-a
dm %
emis
ja g
. cie
pl.
dzie
tnos
c
poda
tki %
PK
B
udz.
wyb
.par
l
zatr
udni
enie
M p
rzew
. dł.ż
ycia
F p
rzew
. dł.ż
ycia
inw
est.
%P
KB
bezr
oboc
ie
infla
cja
wzr
. doc
h. z
rol
n.
Luksemburg
Finlandia
Szwecja
AustriaHolandia
Dania
IrlandiaFrancjaBelgia
WłochyWlk Brytania
CyprNiemcy
SłoweniaMalta
GrecjaPortugaliaHiszpania
CzechyWęgry
EstoniaLitwa
SłowacjaPolskaŁotwa
Luksemburg
Finlandia
Szwecja
AustriaHolandiaDania
IrlandiaFrancjaBelgiaWłochyWlk BrytaniaCyprNiemcySłoweniaMaltaGrecjaPortugaliaHiszpaniaCzechyWęgryEstoniaLitwaSłowacjaPolskaŁotwa
Prz
ykła
d a
nali
zyG
CC
A –
gra
dacy
jna a
nali
zaG
CC
A –
gra
dacy
jna a
nali
zask
up
ień
sku
pie
ń
zuż.
ene
rgii
PK
B n
a os
/śr
EU
dost
e-a
dm %
emis
ja g
. cie
pl.
dzie
tnos
c
poda
tki %
PK
B
udz.
wyb
.par
l
zatr
udni
enie
M p
rzew
. dł.ż
ycia
F p
rzew
. dł.ż
ycia
inw
est.
%P
KB
bezr
oboc
ie
infla
cja
wzr
. doc
h. z
rol
n.
Luksemburg
Finlandia
Szwecja
AustriaHolandia
Dania
IrlandiaFrancjaBelgia
WłochyWlk Brytania
CyprNiemcy
SłoweniaMalta
GrecjaPortugaliaHiszpania
CzechyWęgry
EstoniaLitwa
SłowacjaPolskaŁotwa
Luksemburg
Finlandia
Szwecja
AustriaHolandiaDania
IrlandiaFrancjaBelgiaWłochyWlk BrytaniaCyprNiemcySłoweniaMaltaGrecjaPortugaliaHiszpaniaCzechyWęgryEstoniaLitwaSłowacjaPolskaŁotwa
Prz
ykła
d a
nali
zyM
ap
a z
różn
icow
an
ia w
ew
nątr
z M
ap
a z
różn
icow
an
ia w
ew
nątr
z zm
ien
nyc
hzm
ien
nyc
h
zuż.
ene
rgii
PK
B n
a os
/śr
EU
dost
e-a
dm %
emis
ja g
. cie
pl.
dzie
tnos
c
poda
tki %
PK
B
udz.
wyb
.par
l
zatr
udni
enie
M p
rzew
. dł.ż
ycia
F p
rzew
. dł.ż
ycia
inw
est.
%P
KB
bezr
oboc
ie
infla
cja
wzr
. doc
h. z
rol
n.
LuksemburgFinlandiaSzwecja
AustriaHolandia
DaniaIrlandiaFrancjaBelgia
WłochyWlk Brytania
CyprNiemcy
SłoweniaMalta
GrecjaPortugaliaHiszpania
CzechyWęgry
EstoniaLitwa
SłowacjaPolskaŁotwa
LuksemburgFinlandiaSzwecjaAustriaHolandiaDaniaIrlandiaFrancjaBelgiaWłochyWlk BrytaniaCyprNiemcySłoweniaMaltaGrecjaPortugaliaHiszpaniaCzechyWęgryEstoniaLitwaSłowacjaPolskaŁotwa 1%
9%15%21%27%33%39%45%51%57%63%69%75%81%87%93%
Prz
ykła
d a
nali
zyZ
najd
ow
an
ie e
lem
en
tów
Zn
ajd
ow
an
ie e
lem
en
tów
od
stają
cych
od
stają
cych
Przykład analizy
Znajdowanie elementówZnajdowanie elementówodstających odstających
http://gradestat.ipipan.waw.pl
KsiążkiGrade Models and MethodsGrade Models and Methodsfor Data Analysisfor Data AnalysisWith applications for the analysisof data populations
Kowalczyk T., Pleszczyńska E., Ruland F. (red.) 2004
KsiążkiAnaliza danych medycznychAnaliza danych medycznychi demograficznychi demograficznychPrzy użyciu programu GradeStat
Książyk J., Matyja O., Pleszczyńska E., Wiech M. (red.) 2005książka wydana we współpracy Instytutu Podstaw Informatyki z Centrum Zdrowia Dziecka
Ku kompletnej Ku kompletnej infrastrukturze pojęć infrastrukturze pojęć
gradacyjnej analizy danychgradacyjnej analizy danych
Dla pary zmiennych:
Dla tablicy m×k:
Krzywa koncentracji
Krzywa maks. koncentracji
Pomiar asymetrii,spłaszczeniai nierówności
Powierzchniakoncentracji
Powierzchnia maks. koncentracji
Pomiar asymetrii,spłaszczenia
i nierówności;HGCA
Krzywa koncentracji
Krzywa maks. koncentracji
Pomiar asymetrii,spłaszczeniai nierówności
Dla pary zmiennychDla pary zmiennych
Wskaźnikkoncentracji
Krzywa Lorenza
Wskaźnik maks. koncentracji
porządkowaniepunktów
Powierzchniakoncentracji
Powierzchnia maksymalnej koncentracji
Uzgodnieniezwrotów zmiennych.
Pomiar asymetrii,spłaszczenia
i nierówności;
Wskaźnikkoncentracji
Wskaźnik maks. koncentracji
Dla tablicy Dla tablicy mm××kk
Tablica kontyngencji lub macierz danych wielowymiarowych
Ten schemat będzie w przyszłości Ten schemat będzie w przyszłości rozwijany w wielu pracach rozwijany w wielu pracach dotyczących infrastruktury dotyczących infrastruktury pojęciowej analizy danych pojęciowej analizy danych
wielowymiarowychwielowymiarowych
• Powiązania z innymi metodami wizualizacji, np. generalized association plots (Szczesny i Wiech, 2006)
• Dekompozycja obrazów medycznych, np. NMR (Grzegorek, 2005)
• Prace nad uzgadnianiem zwrotu zmiennych• European Economic
Survey – zastosowanie GCA (m.in. praca magisterska)
Zastosowanie w Zastosowanie w monitorowaniu ordynacji monitorowaniu ordynacji lekarskiejlekarskiejwspółpraca z Łódzkim Oddziałem współpraca z Łódzkim Oddziałem NFZNFZ
Przykłady zastosowańPrzykłady zastosowań
Zapraszamy na stronęhttp://gradestat.ipipan.waw.pl
W przygotowaniu książka
Gradacyjna Analiza Danychdla użytkowników na rozmaitych
poziomach zaawansowania
Dziękujemy za uwagęDziękujemy za uwagę
Wiesław Szczesny [email protected] Jarochowska [email protected]
Mapa nadreprezentacji w Mapa nadreprezentacji w kolorzekolorze
zuż.
ene
rgii
PK
B n
a os
/śr
EU
dost
e-a
dm %
emis
ja g
. cie
pl.
dzie
tnos
c
poda
tki %
PK
B
udz.
wyb
.par
l
zatr
udni
enie
M p
rzew
. dł.ż
ycia
F p
rzew
. dł.ż
ycia
inw
est.
%P
KB
bezr
oboc
ie
infla
cja
wzr
. doc
h. z
rol
n
Luksemburg
FinlandiaSzwecja
AustriaHolandia
DaniaIrlandiaFrancjaBelgia
WłochyWlk Brytania
CyprNiemcy
SłoweniaMalta
GrecjaPortugaliaHiszpania
CzechyWęgry
EstoniaLitwa
SłowacjaPolskaŁotwa
Luksemburg
FinlandiaSzwecjaAustriaHolandiaDaniaIrlandiaFrancjaBelgiaWłochyWlk BrytaniaCyprNiemcySłoweniaMaltaGrecjaPortugaliaHiszpaniaCzechyWęgryEstoniaLitwaSłowacjaPolskaŁotwa 0.6
0.650.690.740.790.840.890.951.011.071.141.211.291.371.451.55
Mapa współczynników Mapa współczynników korelacji rangowej Spearmanakorelacji rangowej Spearmana
1 0.85 0.39 0.23 0.62 0.68 0.35 0.53 0.39 0.55 -0.42 -0.34 -0.36 -0.45
0.85 1 0.44 0.46 0.77 0.64 0.44 0.55 0.6 0.59 -0.48 -0.5 -0.4 -0.56
0.39 0.44 1 0.3 0.54 0.46 -0.01 0.49 0.38 0.5 -0.18 -0.3 -0.36 -0.09
0.23 0.46 0.3 1 0.42 0.22 0.42 0.26 0.65 0.64 -0.04 -0.26 -0.14 -0.71
0.62 0.77 0.54 0.42 1 0.48 0.24 0.59 0.47 0.49 -0.49 -0.41 -0.37 -0.48
0.68 0.64 0.46 0.22 0.48 1 0.48 0.29 0.44 0.58 -0.55 -0.13 -0.58 -0.48
0.35 0.44 -0.01 0.42 0.24 0.48 1 0.07 0.45 0.3 -0.29 -0.34 -0.08 -0.62
0.53 0.55 0.49 0.26 0.59 0.29 0.07 1 0.23 0.26 -0.31 -0.6 -0.38 -0.16
0.39 0.6 0.38 0.65 0.47 0.44 0.45 0.23 1 0.82 -0.36 -0.21 -0.4 -0.74
0.55 0.59 0.5 0.64 0.49 0.58 0.3 0.26 0.82 1 -0.4 0.02 -0.41 -0.67
-0.42 -0.48 -0.18 -0.04 -0.49 -0.55 -0.29 -0.31 -0.36 -0.4 1 0.08 0.71 0.32
-0.34 -0.5 -0.3 -0.26 -0.41 -0.13 -0.34 -0.6 -0.21 0.02 0.08 1 0.14 0.21
-0.36 -0.4 -0.36 -0.14 -0.37 -0.58 -0.08 -0.38 -0.4 -0.41 0.71 0.14 1 0.24
-0.45 -0.56 -0.09 -0.71 -0.48 -0.48 -0.62 -0.16 -0.74 -0.67 0.32 0.21 0.24 1
zuż.
ene
rgii
PK
B n
a os
/śr
EU
dost
e-a
dm %
emis
ja g
. ci
epl.
dzie
tnos
c
poda
tki %
PK
B
udz.
wyb
.par
l
zatr
udni
enie
M p
rzew
. dł
.życ
ia
F p
rzew
. dł
.życ
ia
inw
est.
%P
KB
bezr
oboc
ie
infla
cja
wzr
. do
ch.
z ro
ln
zuż. energii
PKB na os/śr
dost e-adm %
wzr. zuż. ga
dzietnosc
podatki %PKB
udz.wyb.parl
zatrudnienie
M przew. dł.
F przew. dł.
inwest. %PKB
bezrobocie
inflacja
wzr. doch. z-0.98-0.9
-0.82
-0.74
-0.66
-0.58
-0.5
-0.42
-0.34
-0.26
-0.18
-0.1
-0.02
0.06
0.14
0.22
0.3
0.38
0.46
0.54
0.62
0.7
0.78
0.86
0.94