Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8...

29
Gradacyjna analiza Gradacyjna analiza danych danych Instytut Podstaw Informatyki PAN Wiesław Szczesny Emilia Jarochowska

Transcript of Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8...

Page 1: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Gradacyjna analiza Gradacyjna analiza

danychdanych

Instytut Podstaw Informatyki PAN

Wiesław Szczesny

Emilia Jarochowska

Page 2: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Gradacyjna analiza danychGradacyjna analiza danychGrade Correspondence Analysis

•• Pomiar koncentracji, Pomiar koncentracji,

nadreprezentacjanadreprezentacja, GCA, GCA

•• Przykład analizyPrzykład analizy

•• Ku kompletnej Ku kompletnej

infrastrukturze pojęć gradacyjnej infrastrukturze pojęć gradacyjnej

analizy danychanalizy danych

Page 3: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

0

0.2

0.4

0.6

0.8

1

0 0.5 1

0

0.2

0.4

0.6

0.8

1

0 2 4 6 8

W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje się krzywą w kwadracie jednostkowym, która reprezentuje koncentrację jednego rozkładu względem drugiego.

Para rozkładów

Krzywa koncentracji

Page 4: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Pomiar maksymalnej Pomiar maksymalnej

koncentracji: krzywa koncentracji: krzywa CCmaxmax

i wskaźnik i wskaźnik ararmaxmax

ar max= 2

× pole

Cmax

Page 5: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

„wielkość obserwowana”

„wielkość wynikająca z modelu”Wskaźnik nadreprezentacji =

NadreprezentacjaNadreprezentacja

1.011.181.671.020.760.630.510.37hi

0.2630.2170.2120.1270.0710.0510.0360.022qi

0.260.1840.1270.1250.0940.0810.070.06pi

Page 6: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

A B C D

B1

B2

B3

B4

B5

B6

GCAGCA

B A C D

B4

B1

B2

B5

B3

B6

B A C D

B4

B1

B2

B5

B3

B6

Page 7: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

B A C D

B4

B1

B2

B5

BB

B3

B60.60.660.710.760.820.880.951.021.091.171.261.351.451.56

Page 8: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

GradeStatGradeStat

Page 9: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Przykład analizyWskaźniki Wskaźniki

ekonomicznoekonomiczno--gospodarczegospodarcze

Dane z Grzegorek, 2006na podstawiehttp://epp.eurostat.cec.eu.int

Page 10: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Prz

ykła

d analizy

GCA

GCA ––

gra

dacy

jna analiza

gra

dacy

jna analiza

odpowiednio

ści + im

puta

cja

odpowiednio

ści + im

puta

cja

zuŜ. e

nerg

ii

PK

B n

a os

/śr

EU

dost

e-a

dm %

emis

ja g

. cie

pl.

dzie

tnos

c

poda

tki %

PK

B

udz.

wyb

.par

l

zatr

udni

enie

M p

rzew

. dł.Ŝ

ycia

F p

rzew

. dł.Ŝ

ycia

inw

est.

%P

KB

bezr

oboc

ie

infla

cja

wzr

. doc

h. z

rol

n.

Luksemburg

Finlandia

SzwecjaAustria

HolandiaDania

IrlandiaFrancjaBelgia

WłochyWlk Brytania

CyprNiemcy

SłoweniaMalta

GrecjaPortugaliaHiszpania

CzechyWęgry

EstoniaLitwa

SłowacjaPolskaŁotwa

Luksemburg

Finlandia

SzwecjaAustriaHolandiaDaniaIrlandiaFrancjaBelgiaWłochyWlk BrytaniaCyprNiemcySłoweniaMaltaGrecjaPortugaliaHiszpaniaCzechyWęgryEstoniaLitwaSłowacjaPolskaŁotwa

Page 11: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Prz

ykła

d analizy

GCCA

GCCA ––

gra

dacy

jna analiza

gra

dacy

jna analiza

skupień

skupień

zuŜ. e

nerg

ii

PK

B n

a os

/śr

EU

dost

e-a

dm %

emis

ja g

. cie

pl.

dzie

tnos

c

poda

tki %

PK

B

udz.

wyb

.par

l

zatr

udni

enie

M p

rzew

. dł.Ŝ

ycia

F p

rzew

. dł.Ŝ

ycia

inw

est.

%P

KB

bezr

oboc

ie

infla

cja

wzr

. doc

h. z

rol

n.

Luksemburg

Finlandia

SzwecjaAustria

HolandiaDania

IrlandiaFrancjaBelgia

WłochyWlk Brytania

CyprNiemcy

SłoweniaMalta

GrecjaPortugaliaHiszpania

CzechyWęgry

EstoniaLitwa

SłowacjaPolskaŁotwa

Luksemburg

Finlandia

SzwecjaAustriaHolandiaDaniaIrlandiaFrancjaBelgiaWłochyWlk BrytaniaCyprNiemcySłoweniaMaltaGrecjaPortugaliaHiszpaniaCzechyWęgryEstoniaLitwaSłowacjaPolskaŁotwa

Page 12: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Prz

ykła

d analizy

Mapa zró

żnicowania

wew

nątrz

Mapa zró

żnicowania

wew

nątrz

zmiennych

zmiennych

zuŜ. e

nerg

ii

PK

B n

a os

/śr

EU

dost

e-a

dm %

emis

ja g

. cie

pl.

dzie

tnos

c

poda

tki %

PK

B

udz.

wyb

.par

l

zatr

udni

enie

M p

rzew

. dł.Ŝ

ycia

F p

rzew

. dł.Ŝ

ycia

inw

est.

%P

KB

bezr

oboc

ie

infla

cja

wzr

. doc

h. z

rol

n.

LuksemburgFinlandiaSzwecja

AustriaHolandia

DaniaIrlandiaFrancjaBelgia

WłochyWlk Brytania

CyprNiemcy

SłoweniaMalta

GrecjaPortugaliaHiszpania

CzechyWęgry

EstoniaLitwa

SłowacjaPolskaŁotwa

LuksemburgFinlandiaSzwecjaAustriaHolandiaDaniaIrlandiaFrancjaBelgiaWłochyWlk BrytaniaCyprNiemcySłoweniaMaltaGrecjaPortugaliaHiszpaniaCzechyWęgryEstoniaLitwaSłowacjaPolskaŁotwa

Page 13: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Przykład analizyZnajdowanie elementówZnajdowanie elementów

odstającychodstających

Page 14: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Przykład analizy

Znajdowanie elementówZnajdowanie elementów

odstających odstających

Page 15: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

http://gradestat.ipipan.waw.pl

Page 16: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

KsiążkiGradeGrade ModelsModels andand MethodsMethods

for Data for Data AnalysisAnalysisWith applications for the analysisof data populations

Kowalczyk T., Pleszczyńska E., Ruland F. (red.) 2004

Page 17: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

KsiążkiAnaliza danych medycznychAnaliza danych medycznych

i demograficznychi demograficznychPrzy użyciu programu GradeStat

Książyk J., Matyja O., Pleszczyńska E., Wiech M. (red.) 2005książka wydana we współpracy Instytutu Podstaw Informatyki z Centrum Zdrowia Dziecka

Page 18: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Ku kompletnej Ku kompletnej

infrastrukturze pojęć infrastrukturze pojęć

gradacyjnej analizy danychgradacyjnej analizy danych

Page 19: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Dla pary zmiennych:

Dla tablicy m×k:

Krzywa koncentracji

Krzywa maks. koncentracji

Pomiar asymetrii,spłaszczeniai nierówności

Powierzchniakoncentracji

Powierzchnia maks. koncentracji

Pomiar asymetrii,spłaszczeniai nierówności;HGCA

Page 20: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Krzywa koncentracji

Krzywa maks. koncentracji

Pomiar asymetrii,spłaszczeniai nierówności

Dla pary zmiennychDla pary zmiennych

Wskaźnikkoncentracji

Krzywa Lorenza

Wskaźnik maks. koncentracji

Page 21: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Powierzchniakoncentracji

Powierzchnia maksymalnej koncentracji

Uzgodnieniezwrotów zmiennych.Pomiar asymetrii,

spłaszczeniai nierówności;

Wskaźnikkoncentracji

Wskaźnik maks. koncentracji

Dla tablicy Dla tablicy mm××kk

Tablica kontyngencji lub macierz danych wielowymiarowych

Page 22: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Ten schemat będzie w przyszłości rozwijany Ten schemat będzie w przyszłości rozwijany

w wielu pracach dotyczących w wielu pracach dotyczących

infrastruktury pojęciowej analizy danych infrastruktury pojęciowej analizy danych

wielowymiarowychwielowymiarowych

Page 23: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

• Powiązania z innymi metodami wizualizacji, np. generalized associationplots (Szczesny i Wiech, 2006)

• Dekompozycja obrazów medycznych, np. NMR (Grzegorek, 2005)

• Prace nad uzgadnianiem zwrotu zmiennych

• European Economic Survey –zastosowanie GCA (m.in. praca magisterska)

Page 24: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Zastosowanie w monitorowaniu Zastosowanie w monitorowaniu

ordynacji lekarskiejordynacji lekarskiejwspółpraca z Łódzkim Oddziałem NFZwspółpraca z Łódzkim Oddziałem NFZ

Page 25: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Przykłady zastosowańPrzykłady zastosowań

Zapraszamy na stronęhttp://gradestat.ipipan.waw.pl

Page 26: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

W przygotowaniu książka

Gradacyjna Analiza Danych

dla użytkowników na rozmaitych poziomach zaawansowania

Page 27: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Dziękujemy za uwagęDziękujemy za uwagę

Wiesław Szczesny [email protected] Jarochowska [email protected]

Page 28: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Mapa Mapa nadreprezentacjinadreprezentacji w kolorzew kolorze

zuŜ. e

nerg

ii

PK

B n

a os

/śr

EU

dost

e-a

dm %

emis

ja g

. cie

pl.

dzie

tnos

c

poda

tki %

PK

B

udz.

wyb

.par

l

zatr

udni

enie

M p

rzew

. dł.Ŝ

ycia

F p

rzew

. dł.Ŝ

ycia

inw

est.

%P

KB

bezr

oboc

ie

infla

cja

wzr

. doc

h. z

rol

n

LuksemburgFinlandiaSzwecja

AustriaHolandia

DaniaIrlandiaFrancjaBelgia

WłochyWlk Brytania

CyprNiemcy

SłoweniaMalta

GrecjaPortugaliaHiszpania

CzechyWęgry

EstoniaLitwa

SłowacjaPolskaŁotwa

LuksemburgFinlandiaSzwecjaAustriaHolandiaDaniaIrlandiaFrancjaBelgiaWłochyWlk BrytaniaCyprNiemcySłoweniaMaltaGrecjaPortugaliaHiszpaniaCzechyWęgryEstoniaLitwaSłowacjaPolskaŁotwa 0.6

0.650.690.740.790.840.890.951.011.071.141.211.291.371.451.55

Page 29: Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje

Mapa współczynników korelacji Mapa współczynników korelacji

rangowej rangowej SpearmanaSpearmana

1 0.85 0.39 0.23 0.62 0.68 0.35 0.53 0.39 0.55 -0.42 -0.34 -0.36 -0.45

0.85 1 0.44 0.46 0.77 0.64 0.44 0.55 0.6 0.59 -0.48 -0.5 -0.4 -0.56

0.39 0.44 1 0.3 0.54 0.46 -0.01 0.49 0.38 0.5 -0.18 -0.3 -0.36 -0.09

0.23 0.46 0.3 1 0.42 0.22 0.42 0.26 0.65 0.64 -0.04 -0.26 -0.14 -0.71

0.62 0.77 0.54 0.42 1 0.48 0.24 0.59 0.47 0.49 -0.49 -0.41 -0.37 -0.48

0.68 0.64 0.46 0.22 0.48 1 0.48 0.29 0.44 0.58 -0.55 -0.13 -0.58 -0.48

0.35 0.44 -0.01 0.42 0.24 0.48 1 0.07 0.45 0.3 -0.29 -0.34 -0.08 -0.62

0.53 0.55 0.49 0.26 0.59 0.29 0.07 1 0.23 0.26 -0.31 -0.6 -0.38 -0.16

0.39 0.6 0.38 0.65 0.47 0.44 0.45 0.23 1 0.82 -0.36 -0.21 -0.4 -0.74

0.55 0.59 0.5 0.64 0.49 0.58 0.3 0.26 0.82 1 -0.4 0.02 -0.41 -0.67

-0.42 -0.48 -0.18 -0.04 -0.49 -0.55 -0.29 -0.31 -0.36 -0.4 1 0.08 0.71 0.32

-0.34 -0.5 -0.3 -0.26 -0.41 -0.13 -0.34 -0.6 -0.21 0.02 0.08 1 0.14 0.21

-0.36 -0.4 -0.36 -0.14 -0.37 -0.58 -0.08 -0.38 -0.4 -0.41 0.71 0.14 1 0.24

-0.45 -0.56 -0.09 -0.71 -0.48 -0.48 -0.62 -0.16 -0.74 -0.67 0.32 0.21 0.24 1

zuŜ. e

nerg

ii

PK

B n

a os

/śr

EU

dost

e-a

dm %

emis

ja g

. cie

pl.

dzie

tnos

c

poda

tki %

PK

B

udz.

wyb

.par

l

zatr

udni

enie

M p

rzew

. dł.Ŝ

ycia

F p

rzew

. dł.Ŝ

ycia

inw

est.

%P

KB

bezr

oboc

ie

infla

cja

wzr

. doc

h. z

rol

n

zuŜ. energii

PKB na os/śr

dost e-adm %

wzr. zuŜ. ga

dzietnosc

podatki %PKB

udz.wyb.parl

zatrudnienie

M przew. dł.

F przew. dł.

inwest. %PKB

bezrobocie

inflacja

wzr. doch. z-0.98-0.9-0.82

-0.74-0.66

-0.58-0.5-0.42-0.34

-0.26-0.18

-0.1-0.020.060.14

0.220.3

0.380.460.540.62

0.70.78

0.860.94