Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8...

Post on 14-Aug-2020

1 views 0 download

Transcript of Gradacyjna analiza danych - IBS PAN · 2006-04-11 · 0 0.2 0.4 0.6 0.8 1 0 0.5 1 0 0.2 0.4 0.6 0.8...

Gradacyjna analiza Gradacyjna analiza

danychdanych

Instytut Podstaw Informatyki PAN

Wiesław Szczesny

Emilia Jarochowska

Gradacyjna analiza danychGradacyjna analiza danychGrade Correspondence Analysis

•• Pomiar koncentracji, Pomiar koncentracji,

nadreprezentacjanadreprezentacja, GCA, GCA

•• Przykład analizyPrzykład analizy

•• Ku kompletnej Ku kompletnej

infrastrukturze pojęć gradacyjnej infrastrukturze pojęć gradacyjnej

analizy danychanalizy danych

0

0.2

0.4

0.6

0.8

1

0 0.5 1

0

0.2

0.4

0.6

0.8

1

0 2 4 6 8

W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje się krzywą w kwadracie jednostkowym, która reprezentuje koncentrację jednego rozkładu względem drugiego.

Para rozkładów

Krzywa koncentracji

Pomiar maksymalnej Pomiar maksymalnej

koncentracji: krzywa koncentracji: krzywa CCmaxmax

i wskaźnik i wskaźnik ararmaxmax

ar max= 2

× pole

Cmax

„wielkość obserwowana”

„wielkość wynikająca z modelu”Wskaźnik nadreprezentacji =

NadreprezentacjaNadreprezentacja

1.011.181.671.020.760.630.510.37hi

0.2630.2170.2120.1270.0710.0510.0360.022qi

0.260.1840.1270.1250.0940.0810.070.06pi

A B C D

B1

B2

B3

B4

B5

B6

GCAGCA

B A C D

B4

B1

B2

B5

B3

B6

B A C D

B4

B1

B2

B5

B3

B6

B A C D

B4

B1

B2

B5

BB

B3

B60.60.660.710.760.820.880.951.021.091.171.261.351.451.56

GradeStatGradeStat

Przykład analizyWskaźniki Wskaźniki

ekonomicznoekonomiczno--gospodarczegospodarcze

Dane z Grzegorek, 2006na podstawiehttp://epp.eurostat.cec.eu.int

Prz

ykła

d analizy

GCA

GCA ––

gra

dacy

jna analiza

gra

dacy

jna analiza

odpowiednio

ści + im

puta

cja

odpowiednio

ści + im

puta

cja

zuŜ. e

nerg

ii

PK

B n

a os

/śr

EU

dost

e-a

dm %

emis

ja g

. cie

pl.

dzie

tnos

c

poda

tki %

PK

B

udz.

wyb

.par

l

zatr

udni

enie

M p

rzew

. dł.Ŝ

ycia

F p

rzew

. dł.Ŝ

ycia

inw

est.

%P

KB

bezr

oboc

ie

infla

cja

wzr

. doc

h. z

rol

n.

Luksemburg

Finlandia

SzwecjaAustria

HolandiaDania

IrlandiaFrancjaBelgia

WłochyWlk Brytania

CyprNiemcy

SłoweniaMalta

GrecjaPortugaliaHiszpania

CzechyWęgry

EstoniaLitwa

SłowacjaPolskaŁotwa

Luksemburg

Finlandia

SzwecjaAustriaHolandiaDaniaIrlandiaFrancjaBelgiaWłochyWlk BrytaniaCyprNiemcySłoweniaMaltaGrecjaPortugaliaHiszpaniaCzechyWęgryEstoniaLitwaSłowacjaPolskaŁotwa

Prz

ykła

d analizy

GCCA

GCCA ––

gra

dacy

jna analiza

gra

dacy

jna analiza

skupień

skupień

zuŜ. e

nerg

ii

PK

B n

a os

/śr

EU

dost

e-a

dm %

emis

ja g

. cie

pl.

dzie

tnos

c

poda

tki %

PK

B

udz.

wyb

.par

l

zatr

udni

enie

M p

rzew

. dł.Ŝ

ycia

F p

rzew

. dł.Ŝ

ycia

inw

est.

%P

KB

bezr

oboc

ie

infla

cja

wzr

. doc

h. z

rol

n.

Luksemburg

Finlandia

SzwecjaAustria

HolandiaDania

IrlandiaFrancjaBelgia

WłochyWlk Brytania

CyprNiemcy

SłoweniaMalta

GrecjaPortugaliaHiszpania

CzechyWęgry

EstoniaLitwa

SłowacjaPolskaŁotwa

Luksemburg

Finlandia

SzwecjaAustriaHolandiaDaniaIrlandiaFrancjaBelgiaWłochyWlk BrytaniaCyprNiemcySłoweniaMaltaGrecjaPortugaliaHiszpaniaCzechyWęgryEstoniaLitwaSłowacjaPolskaŁotwa

Prz

ykła

d analizy

Mapa zró

żnicowania

wew

nątrz

Mapa zró

żnicowania

wew

nątrz

zmiennych

zmiennych

zuŜ. e

nerg

ii

PK

B n

a os

/śr

EU

dost

e-a

dm %

emis

ja g

. cie

pl.

dzie

tnos

c

poda

tki %

PK

B

udz.

wyb

.par

l

zatr

udni

enie

M p

rzew

. dł.Ŝ

ycia

F p

rzew

. dł.Ŝ

ycia

inw

est.

%P

KB

bezr

oboc

ie

infla

cja

wzr

. doc

h. z

rol

n.

LuksemburgFinlandiaSzwecja

AustriaHolandia

DaniaIrlandiaFrancjaBelgia

WłochyWlk Brytania

CyprNiemcy

SłoweniaMalta

GrecjaPortugaliaHiszpania

CzechyWęgry

EstoniaLitwa

SłowacjaPolskaŁotwa

LuksemburgFinlandiaSzwecjaAustriaHolandiaDaniaIrlandiaFrancjaBelgiaWłochyWlk BrytaniaCyprNiemcySłoweniaMaltaGrecjaPortugaliaHiszpaniaCzechyWęgryEstoniaLitwaSłowacjaPolskaŁotwa

Przykład analizyZnajdowanie elementówZnajdowanie elementów

odstającychodstających

Przykład analizy

Znajdowanie elementówZnajdowanie elementów

odstających odstających

http://gradestat.ipipan.waw.pl

KsiążkiGradeGrade ModelsModels andand MethodsMethods

for Data for Data AnalysisAnalysisWith applications for the analysisof data populations

Kowalczyk T., Pleszczyńska E., Ruland F. (red.) 2004

KsiążkiAnaliza danych medycznychAnaliza danych medycznych

i demograficznychi demograficznychPrzy użyciu programu GradeStat

Książyk J., Matyja O., Pleszczyńska E., Wiech M. (red.) 2005książka wydana we współpracy Instytutu Podstaw Informatyki z Centrum Zdrowia Dziecka

Ku kompletnej Ku kompletnej

infrastrukturze pojęć infrastrukturze pojęć

gradacyjnej analizy danychgradacyjnej analizy danych

Dla pary zmiennych:

Dla tablicy m×k:

Krzywa koncentracji

Krzywa maks. koncentracji

Pomiar asymetrii,spłaszczeniai nierówności

Powierzchniakoncentracji

Powierzchnia maks. koncentracji

Pomiar asymetrii,spłaszczeniai nierówności;HGCA

Krzywa koncentracji

Krzywa maks. koncentracji

Pomiar asymetrii,spłaszczeniai nierówności

Dla pary zmiennychDla pary zmiennych

Wskaźnikkoncentracji

Krzywa Lorenza

Wskaźnik maks. koncentracji

Powierzchniakoncentracji

Powierzchnia maksymalnej koncentracji

Uzgodnieniezwrotów zmiennych.Pomiar asymetrii,

spłaszczeniai nierówności;

Wskaźnikkoncentracji

Wskaźnik maks. koncentracji

Dla tablicy Dla tablicy mm××kk

Tablica kontyngencji lub macierz danych wielowymiarowych

Ten schemat będzie w przyszłości rozwijany Ten schemat będzie w przyszłości rozwijany

w wielu pracach dotyczących w wielu pracach dotyczących

infrastruktury pojęciowej analizy danych infrastruktury pojęciowej analizy danych

wielowymiarowychwielowymiarowych

• Powiązania z innymi metodami wizualizacji, np. generalized associationplots (Szczesny i Wiech, 2006)

• Dekompozycja obrazów medycznych, np. NMR (Grzegorek, 2005)

• Prace nad uzgadnianiem zwrotu zmiennych

• European Economic Survey –zastosowanie GCA (m.in. praca magisterska)

Zastosowanie w monitorowaniu Zastosowanie w monitorowaniu

ordynacji lekarskiejordynacji lekarskiejwspółpraca z Łódzkim Oddziałem NFZwspółpraca z Łódzkim Oddziałem NFZ

Przykłady zastosowańPrzykłady zastosowań

Zapraszamy na stronęhttp://gradestat.ipipan.waw.pl

W przygotowaniu książka

Gradacyjna Analiza Danych

dla użytkowników na rozmaitych poziomach zaawansowania

Dziękujemy za uwagęDziękujemy za uwagę

Wiesław Szczesny wsz@ipipan.waw.plEmilia Jarochowska emkaj@hell.pl

Mapa Mapa nadreprezentacjinadreprezentacji w kolorzew kolorze

zuŜ. e

nerg

ii

PK

B n

a os

/śr

EU

dost

e-a

dm %

emis

ja g

. cie

pl.

dzie

tnos

c

poda

tki %

PK

B

udz.

wyb

.par

l

zatr

udni

enie

M p

rzew

. dł.Ŝ

ycia

F p

rzew

. dł.Ŝ

ycia

inw

est.

%P

KB

bezr

oboc

ie

infla

cja

wzr

. doc

h. z

rol

n

LuksemburgFinlandiaSzwecja

AustriaHolandia

DaniaIrlandiaFrancjaBelgia

WłochyWlk Brytania

CyprNiemcy

SłoweniaMalta

GrecjaPortugaliaHiszpania

CzechyWęgry

EstoniaLitwa

SłowacjaPolskaŁotwa

LuksemburgFinlandiaSzwecjaAustriaHolandiaDaniaIrlandiaFrancjaBelgiaWłochyWlk BrytaniaCyprNiemcySłoweniaMaltaGrecjaPortugaliaHiszpaniaCzechyWęgryEstoniaLitwaSłowacjaPolskaŁotwa 0.6

0.650.690.740.790.840.890.951.011.071.141.211.291.371.451.55

Mapa współczynników korelacji Mapa współczynników korelacji

rangowej rangowej SpearmanaSpearmana

1 0.85 0.39 0.23 0.62 0.68 0.35 0.53 0.39 0.55 -0.42 -0.34 -0.36 -0.45

0.85 1 0.44 0.46 0.77 0.64 0.44 0.55 0.6 0.59 -0.48 -0.5 -0.4 -0.56

0.39 0.44 1 0.3 0.54 0.46 -0.01 0.49 0.38 0.5 -0.18 -0.3 -0.36 -0.09

0.23 0.46 0.3 1 0.42 0.22 0.42 0.26 0.65 0.64 -0.04 -0.26 -0.14 -0.71

0.62 0.77 0.54 0.42 1 0.48 0.24 0.59 0.47 0.49 -0.49 -0.41 -0.37 -0.48

0.68 0.64 0.46 0.22 0.48 1 0.48 0.29 0.44 0.58 -0.55 -0.13 -0.58 -0.48

0.35 0.44 -0.01 0.42 0.24 0.48 1 0.07 0.45 0.3 -0.29 -0.34 -0.08 -0.62

0.53 0.55 0.49 0.26 0.59 0.29 0.07 1 0.23 0.26 -0.31 -0.6 -0.38 -0.16

0.39 0.6 0.38 0.65 0.47 0.44 0.45 0.23 1 0.82 -0.36 -0.21 -0.4 -0.74

0.55 0.59 0.5 0.64 0.49 0.58 0.3 0.26 0.82 1 -0.4 0.02 -0.41 -0.67

-0.42 -0.48 -0.18 -0.04 -0.49 -0.55 -0.29 -0.31 -0.36 -0.4 1 0.08 0.71 0.32

-0.34 -0.5 -0.3 -0.26 -0.41 -0.13 -0.34 -0.6 -0.21 0.02 0.08 1 0.14 0.21

-0.36 -0.4 -0.36 -0.14 -0.37 -0.58 -0.08 -0.38 -0.4 -0.41 0.71 0.14 1 0.24

-0.45 -0.56 -0.09 -0.71 -0.48 -0.48 -0.62 -0.16 -0.74 -0.67 0.32 0.21 0.24 1

zuŜ. e

nerg

ii

PK

B n

a os

/śr

EU

dost

e-a

dm %

emis

ja g

. cie

pl.

dzie

tnos

c

poda

tki %

PK

B

udz.

wyb

.par

l

zatr

udni

enie

M p

rzew

. dł.Ŝ

ycia

F p

rzew

. dł.Ŝ

ycia

inw

est.

%P

KB

bezr

oboc

ie

infla

cja

wzr

. doc

h. z

rol

n

zuŜ. energii

PKB na os/śr

dost e-adm %

wzr. zuŜ. ga

dzietnosc

podatki %PKB

udz.wyb.parl

zatrudnienie

M przew. dł.

F przew. dł.

inwest. %PKB

bezrobocie

inflacja

wzr. doch. z-0.98-0.9-0.82

-0.74-0.66

-0.58-0.5-0.42-0.34

-0.26-0.18

-0.1-0.020.060.14

0.220.3

0.380.460.540.62

0.70.78

0.860.94