PODSTAWY STATYSTYKI -...

57
PODSTAWY STATYSTYKI SEMINARIUM 4 Jan E. Zejda Katedra Epidemiologii – WLK, SUM STUDIUM DOKTORANCKIE – KATOWICE, 2011/12

Transcript of PODSTAWY STATYSTYKI -...

Page 1: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

PODSTAWY STATYSTYKISEMINARIUM 4

Jan E. Zejda

Katedra Epidemiologii –

WLK, SUM

STUDIUM DOKTORANCKIE –

KATOWICE, 2011/12

Page 2: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

TRETREŚĆŚĆ

SEMINARIUM 4SEMINARIUM 4

Statystyka Analityczna –

Część

II

-

czynniki zakłócające

-

analiza stratyfikacyjna

-

analiza wielu zmiennych▫

model regresji liniowej

model regresji logistycznej▫

model regresji proporcjonalnego ryzyka

model regresji Poisson’a

-

specyficzne zastosowania analizy wielu zmiennych

Page 3: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

TRETREŚĆŚĆ

SEMINARIUM 3SEMINARIUM 3

Statystyka Analityczna –

Część

II

-

czynniki zakłócające

-

analiza stratyfikacyjna

-

analiza wielu zmiennych▫

model

regresji liniowej

model regresji logistycznej▫

model regresji proporcjonalnego ryzyka

model regresji Poisson’a)

-

specyficzne zastosowania analizy wielu zmiennych

Page 4: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

CZYNNIK RYZYKACZYNNIK RYZYKA

Indywidualna cecha związana ze stylem życia lub narażeniem środowiskowym, lub cecha

wrodzona albo odziedziczona, która -

w świetle dowodów epidemiologicznych -

jest związana ze

stanem zdrowotnym uzasadniającym postępowanie zapobiegawcze

palenie tytoniu przebycie wirusowego zapalenia wątroby typu C

atopia polimorfizm genu X

dodatni wywiad rodzinny w kierunku raka sutka

otyłość

hipercholesterolemia

małą

masa urodzeniowa

stres

Page 5: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

CZYNNIK ZAKCZYNNIK ZAKŁŁÓÓCAJCAJĄĄCYCY

Czynnik związany zarówno z badanym narażeniem jak i badanym efektem zdrowotnym, którego obecność

zniekształca wynik analizy przyczynowo-skutkowej (badany efekt ~

badane narażenie). Zatem:

Cz. Zakłócający jest związany z narażeniemCz. Zakłócający jest niezależnym czynnikiem ryzyka

?

Więź

nie musi mieć

charakteru biologicznego. Może się

zdarzyć przypadkowo (np. palenie tytoniu i narażenie na azbest a rak płuc; płeć

i

nadużywanie fenacetyny a nefropatia). Wpływ na wynik analizy przyczynowo-skutkowej taki sam.

Page 6: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

CZYNNIK ZAKCZYNNIK ZAKŁŁÓÓCAJCAJĄĄCYCY

Czynnik związany zarówno z badanym narażeniem jak i badanym efektem zdrowotnym, którego obecność

zniekształca wynik analizy przyczynowo-skutkowej (badany efekt ~

badane narażenie). Zatem:

Cz. Zakłócający jest związany z narażeniemCz. Zakłócający jest niezależnym czynnikiem ryzyka ?

Więź

nie musi mieć

charakteru biologicznego. Może się

zdarzyć przypadkowo (np. palenie tytoniu i narażenie na azbest a rak płuc; płeć

i

nadużywanie fenacetyny a nefropatia). Wpływ na wynik analizy przyczynowo-skutkowej taki sam.

Page 7: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

METODY ELIMINACJI LUB KONTROLI METODY ELIMINACJI LUB KONTROLI WPWPŁŁYWU CZYNNIKYWU CZYNNIKÓÓW ZAKW ZAKŁŁÓÓCAJCAJĄĄCYCHCYCH

Randomizacja (tylko badania eksperymentalne)•

Restrykcja (np. ocena pulmotoksyczności

pyłu tylko

u niepalaczy, „kryteria włączenia”)•

Parowanie obserwacji (np. zapadalność

na raka

sutka u mężatek i panien w tym samym wieku)•

Stratyfikacja (procedura Mantel-Haenszel)

Statystyczna analiza wielu zmiennych (analiza regresji)

Etap planowania badaniaEtap analizy danych

Page 8: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

TRETREŚĆŚĆ

SEMINARIUM 3SEMINARIUM 3

Statystyka Analityczna –

Część

II

-

czynniki zakłócające

-

analiza stratyfikacyjna

-

analiza wielu zmiennych▫

model

regresji liniowej

model regresji logistycznej▫

model regresji proporcjonalnego ryzyka)

model regresji Poisson’a

-

specyficzne zastosowania analizy wielu zmiennych

Page 9: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

WPWPŁŁYW CZYNNIKA ZAKYW CZYNNIKA ZAKŁŁÓÓCAJCAJĄĄCEGO CEGO PZO a naraPZO a narażżenie na pyenie na pyłł

w warstwach* palacze i w warstwach* palacze i niepalaczeniepalacze

PZO+ PZO- %PZO+N+ 150 80 65%N- 260 220 54%

PZO+ PZO- %PZO+N+ 300 410 42%N- 140 230 38%

PZO+ PZO- %PZO+N+ 300 410 42%N- 140 230 38%

Wszyscy

Badani

Warstwa

„Niepalacze”

Warstwa

„Palacze”

* -

warstwa = stratum

Page 10: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

PROCEDURA MANTEL PROCEDURA MANTEL ––

HAENSZELHAENSZEL

Ai

Di .

Ni

. B1

Ci N1

WAŻONY ILORAZ SZANS M-H

Iloraz Szans wg Mantel-Haenszel

to pojedyncza statystyka, odzwierciedlająca zależność

pomiędzy chorobą

i narażeniem, po

uwzględnieniu jednego lub więcej czynników zakłócających.

Choroba = narażenie + czynnik zakłócający

Jest to średnia ważona ilorazów szans dla każdej z warstw

ΣΣ

ISMH (ORMH

) = A, B, C i D to dane z ‘i’ tabel czteropolowych

Page 11: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

SUROWY A WASUROWY A WAŻŻONY ILORAZ SZANSONY ILORAZ SZANS

SUROWY ILORAZ SZANS

(PZO a NARAŻENIE NA PYŁ)

ISS

= 1,03 (95%PU: 0,85 –

1,25)

WAŻONY ILORAZ SZANS M-H

(PZO a NARAŻENIE NA PYŁ, Z UWZGLĘDNIENIEM NAŁOGU PALENIA)

ISM-H

= 1,34 (95%PU: 1,09 –

2,33)

„Narażenie na pył

organiczny zwiększa ryzyko występowania przewlekłego zapalenia oskrzeli o 34%, po uwzględnieniu wpływu nałogu palenia tytoniu”

Page 12: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

ANALIZA STRATYFIKACYJNA ANALIZA STRATYFIKACYJNA W IDENTYFIKACJI INTERAKCJIW IDENTYFIKACJI INTERAKCJI

interakcja statystyczna ≠

interakcja biologiczna

Interakcja statystyczna ma miejsce, gdy testowany model zależności Y od narażenia nie jest właściwy dla opisu zależności Y

od dwóch lub więcej narażeń

RYZYKO

RAKA

PŁUC

NIEPALACZE PALACZE

tak

narażenie na azbest

nie

Page 13: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

ANALIZA STRATYFIKACYJNA ANALIZA STRATYFIKACYJNA W IDENTYFIKACJI INTERAKCJI W IDENTYFIKACJI INTERAKCJI

(czy fiasko nCPAP

zależy od masy ciała noworodka ?)

Summary Statistics for „fiasko”

by „masa”Controlling for „poród”

Cochran-Mantel-Haenszel

Statistics (Based on Table Scores)Statistic Alternative Hypothesis DF Value Probƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

1 Nonzero Correlation 1 4.6160 0.03172 Row Mean Scores Differ 1 4.6160 0.03173 General Association 1 4.6160 0.0317

Breslow-Day Test for

Homogeneity of the Odds Ratiosƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

Chi-Square 6.1729DF 1Pr > ChiSq

0.0130

H0

: zależności są

homogenne

(takie same w każdej warstwie) –

brak interakcji

Page 14: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

TRETREŚĆŚĆ

SEMINARIUM 3SEMINARIUM 3

Statystyka Analityczna –

Część

II

-

czynniki zakłócające

-

analiza stratyfikacyjna

-

analiza wielu zmiennych▫

analiza regresji liniowej

analiza regresji logistycznej▫

model regresji proporcjonalnego ryzyka

model regresji Poisson’a

-

specyficzne zastosowania analizy wielu zmiennych

Page 15: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

ANALIZY EKSPLORATYWNE ANALIZY EKSPLORATYWNE I KONFORMACYJNEI KONFORMACYJNE

Page 16: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

ANALIZA DANYCHANALIZA DANYCH

A. EKSPLORATYWNA

Hipoteza może być

formułowana na podstawie

wyników

pierwszych analiz; dopuszczalne są

otwarte pytania

„Jakie są

czynniki ryzyka zakażeńszpitalnych u noworodków ?”

A. KONFIRMATYWNA

Konkretna hipoteza, sformułowana przed

rozpoczęciem badania, testowana zgodnie z protokołem

„Częstość

zakażeń

szpitalnych jest podobna u noworodków płci męskiej

i żeńskiej”

Page 17: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

A.E. ~ GENERATOR PRZYPADKOWYCH A.E. ~ GENERATOR PRZYPADKOWYCH ZNAMIENNOZNAMIENNOŚŚCICI

Nawet, gdy analizy są

wykonane zgodnie z wymogami metodologii (właściwy test, kontrola czynników zakłócających) przypadkowe uzyskanie

statystycznie znamiennego wyniku jest prawdopodobne

Page 18: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

PODSTAWY ANALIZY WIELU ZMIENNYCH

Page 19: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

CZTERY POZIOMY ANALIZY DANYCHCZTERY POZIOMY ANALIZY DANYCH --

KONWENCJONALNA STRATEGIA KONWENCJONALNA STRATEGIA --

Analiza Opisowa

Prosta Analiza Różnic/Zależności

Stratyfikacyjna Analiza Różnic/Zależności

Złożona Analiza Wielu Zmiennych

Przykład: wskazanie a sukces nCPAP

(realne dane)

Page 20: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

PORPORÓÓWNANIE % SUKCESWNANIE % SUKCESÓÓWWW 2 GRUPACH O RÓŻNYCH WSKAZANIACH (nCPAP)

Wskazanie RDS + Wskazanie RDS -

Wiek > 30 HBD Wiek < 31 HBD Wiek > 30 HBD Wiek < 30 HBD

Apgar↑ Apgar↓ Apgar↑ Apgar↓ Apgar↑ Apgar↓ Apgar↑ Apgar↓

SN CC SN CC SN CC SN CC SN CC SN CC SN CC SN CC

% % % % % % % % % % % % % % % %

i.t.d.

brak danych do porównań

szum informacyjny

Page 21: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

ANALIZA WIELU ZMIENNYCHANALIZA WIELU ZMIENNYCH

Y = bY = b00

+ b+ b11

XX11

+ b+ b22

XX22

+ + ……

+ + bbkk

XXkk

KLUCZ INTEPRETACYJNY

H0

: b = 0 vs

HA

b ≠

0

b = 0 gdy p>0,05

gdy b = 0 wówczas bX

= 0*X = 0 (to X znika !)

np. FVC = 1,67 + 2,34*Wzrost –

0,92*Papierosy

b1

= 2,34 b2

= 0,92

p = 0,01 p = 0,08

to ‘b’

nie rożni się

w sposób statystycznie znamienny od ‘0’, a więc

Page 22: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

ANALIZA WIELU ZMIENNYCHANALIZA WIELU ZMIENNYCH

Y = bY = b00

+ b+ b11

XX11

+ b+ b22

XX22

+ + ……

+ + bbkk

XXkk

UWAGAMetoda szacowania bi

to metoda najmniejszych kwadratów (znalezienie takich ‘bi

’, które zapewniają

najmniejszą

sumę

kwadratów odległości wszystkich punktów

definiowanych przez X i Y od prostej regresji)

Porównywanie bezwzględnych wartości ‘bi

nie ma sensu bez uwzględnienia jednostek pomiaru odpowiednich ‘Xi

’. Na przykład, nie można stwierdzić, że ‘wzrost’ posiada trzy razy większe znaczenie wyjaśniające ‘FVC’

niż

‘papierosy’

[2,34:0,92]:

FVC = 1,67 + 2,34*Wzrost –

0,92*Papierosy + 1,67

Model zakłada liniową

zależność

(np. zmiana obciążenia paleniem z 1 do 5 pap/dzień

jest tożsama ze zmianą

z 20 do 25 pap/dzień. Analiza podlega

założeniom (dyskutowanym w związku z „diagnostyką

modelu”)

Model analizuje ilościowe lub jakościowe Xi

!!!

Page 23: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

ANALIZA WIELU ZMIENNYCHANALIZA WIELU ZMIENNYCH

Y = bY = b00

+ b+ b11

XX11

+ b+ b22

XX22

+ + ……

+ + bbkk

XXkk

ZASTOSOWANIA

1. badanie zależności Y od Xi

, po uwzględnieniu wpływu

pozostałych X na Y;

2. przewidywanie wartości Y na podstawie wartości

wszystkich X

Page 24: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

ANALIZA WIELU ZMIENNYCHANALIZA WIELU ZMIENNYCH

CZTERY PODSTAWOWE TECHNIKI

1.

model regresji liniowej (Y jest zmienną

ilościową)

2.

model regresji logistycznej (Y jest zmienną

jakościową)

3.

model regresji proporcjonalnego ryzyka (analiza przeżywalności)

4.

model regresji Poisson’a

(analiza zapadalności)

Page 25: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

ANALIZA WIELU ZMIENNYCHANALIZA WIELU ZMIENNYCH

CZTERY PODSTAWOWE TECHNIKI

1.

model regresji liniowej (Y jest zmienną

ilościową)

2.

model regresji logistycznej (Y jest zmienną

jakościową)

3.

model regresji proporcjonalnego ryzyka (analiza przeżywalności)

4.

model regresji Poisson’a

(analiza zapadalności)

Page 26: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJ

Y = bY = b00

+ b+ b11

XX11

+ b+ b22

XX22

+ + ……

+ + bbkk

XXkk

PYTANIA

1.

Jakie zmienne niezależne X ?

2.

Ile zmiennych niezależnych X ?

Page 27: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJ

Y = bY = b00

+ b+ b11

XX11

+ b+ b22

XX22

+ + ……

+ + bbkk

XXkk

PYTANIA

1.

Jakie zmienne niezależne X ?

Koncepcja, model biologiczny (konfirmacja)

Dążenie do ustalenia jakichkolwiek zależności, nawet przy mglistej koncepcji –

po coś

te badania wykonano

(eksploracja)

Page 28: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJ

Y = bY = b00

+ b+ b11

XX11

+ b+ b22

XX22

+ + ……

+ + bbkk

XXkk

PYTANIA

1.

Jakie zmienne niezależne X ?

2.

Ile zmiennych niezależnych X ?

Prosta reguła: liczba X < liczba obserwacji / 10

Page 29: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJKONSTRUKCJA MODELU

MODEL KOMPLETNY DNICPAP1 = LPOPO2

+ WIEKPL1

+ APGAR + CRIB + MASA + DWCPAP1

MODEL

‘p’

R2

DNICPAP1 = LPOPO2

+ WIEKPL1

+ APGAR + CRIB + MASA + DWCPAP1

0,9

0,0001DNICPAP1 = LPOPO2

+ WIEKPL1

+ APGAR + CRIB + MASA + DWCPAP1

0,3

0,03DNICPAP1 = LPOPO2

+ WIEKPL1

+ APGAR + CRIB + MASA + DWCPAP1

0,2

0,06DNICPAP1 = LPOPO2

+ WIEKPL1

+ APGAR + CRIB + MASA + DWCPAP1

0,3

0,08DNICPAP1 = LPOPO2

+ WIEKPL1

+ APGAR + CRIB + MASA + DWCPAP1

0,03

0,20DNICPAP1 = LPOPO2

+ WIEKPL1

+ APGAR + CRIB + MASA + DWCPAP1 <0,0001

0,56

Im więcej zmiennych niezależnych w modelu tym większe R2

Page 30: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJKOMPLETNY MODEL

The REG Procedure -

Dependent Variable: DNICPAP1Number of Observations Read 64Number of Observations Used 58 Number of Observations with Missing Values 6

Analysis of VarianceSum of Mean

Source DF Squares Square F Value Pr > F Model 6 824.53038 137.42173 10.84 <.0001 Error 51 646.77858 12.68193Corrected Total 57 1471.30897Root MSE 3.56117 R-Square 0.5604 !!!Dependent Mean 4.11379 Adj

R-Sq 0.5087Coeff

Var

86.56658

Parameter EstimatesParameter Standard

Variable DF Estimate Error t Value Pr > |t|Intercept 1 15.08566 9.41311 1.60 0.1152LPOPO2 1 -0.00074381 0.02116 -0.04 0.9721WIEKPL1 1 -0.11756 0.31636 -0.37 0.7117APGAR1 1 0.13837 0.27527 0.50 0.6174CRIB 1 -0.19641 0.39131 -0.50 0.6179MASA 1 -0.00815 0.00285 -2.86 0.0061DWCPAP1 1 14.56621 2.27320 6.41 <.0001

Page 31: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJKOMPLETNY MODEL

The REG Procedure -

Dependent Variable: DNICPAP1Number of Observations Read 64Number of Observations Used 58 Number of Observations with Missing Values 6

Analysis of VarianceSum of Mean

Source DF Squares Square F Value Pr > F Model 6 824.53038 137.42173 10.84 <.0001 Error 51 646.77858 12.68193Corrected Total 57 1471.30897Root MSE 3.56117 R-Square 0.5604 !!!Dependent Mean 4.11379 Adj

R-Sq 0.5087Coeff

Var

86.56658

Parameter EstimatesParameter Standard

Variable DF Estimate Error t Value Pr > |t|Intercept 1 15.08566 9.41311 1.60 0.1152LPOPO2 1 -0.00074381 0.02116 -0.04 0.9721WIEKPL1 1 -0.11756 0.31636 -0.37 0.7117APGAR1 1 0.13837 0.27527 0.50 0.6174CRIB 1 -0.19641 0.39131 -0.50 0.6179MASA 1 -0.00815 0.00285 -2.86 0.0061DWCPAP1 1 14.56621 2.27320 6.41 <.0001

UWAGAWynik dla poszczególnych ‘b’

nie zależy od kolejnościzmiennych

(typ III sumy kwadratów)

Intercept 0.1152WIEKPL1 0.7117APGAR1 0.6174CRIB 0.6179DWCPAP1 <.0001MASA 0.0061LPOPO2 0.9721

Page 32: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJKOMPLETNY MODEL

CZAS CPAP = 15.08-0007LPOPO2–0,11WIEKPL1+0,13APGAR1–0,19CRIB–0,008MASA+14,56DWCPAP1

ale ze względu na szereg startystycznie

nieznamiennych

‘b’

ostateczny model to

CZAS CPAP = MASA

+ DWCPAP1

Uwaga: konieczna ponowna parametryzacja

Page 33: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

Parameter

StandardVariable

Estimate

Error

Type

II SS F Value

Pr > F

Intercept 11.31453 2.50493 242.78661 20.40 <.0001

DWCPAP1 14.30623 2.12053 541.63167 45.52 <.0001MASA -0.00741 0.00209 148.93148 12.52 0.0008

MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJOSTATECZNY MODEL (REZULTAT SELEKCJI WSTECZNEJ)

CZASCPAP = 14,306*DWCPAP1 –

0,007*MASA + 11,314

Page 34: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

Y ~ X1

, X2

, ale co gdy X1

~ X2 ?↓

ZJAWISKO WSPÓŁLINIOWOŚCI

Zniekształcenie wyników analizy wielu zmiennych, polegające na uzyskaniu niewłaściwych lub nawet fałszywych (dodatnich/ujemnych) współczynników

regresji, związane z korelacją

dwóch lub więcej zmiennych niezależnych

IDENTYFIKACJA WSPÓŁLINIOWOŚCI

1)

analiza korelacji liniowej pomiędzy wszystkimi Xi

2)

analiza tolerancji

MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJDIAGNOSTYKA MODELU -

WSPÓŁLINIOWOŚĆ

Page 35: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJDIAGNOSTYKA ZAŁOŻEŃ

Model jest trafny (intepretowalny), gdy spełnione są

następujące założenia/warunki:

1.

Brak odległych obserwacji („outliers”);

2.

Niezależność

obserwacji

3.

Normalny rozkład wartości resztowych

(średnia = 0; stała wariancja)

Wartość

resztowa

to odległość

pomiędzy wartością

obserwowaną

(Yi

) i wartością

Yi

wynikającą

z równania regresji:

Y

X

Page 36: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJ

TERMINOLOGIA

CzasCPAP

= 16,02DobaWłącz –

0,004Masa + 7,23↑ ↑ ↑

Zmienna Zależna Zmienne Niezależne

Pytanie: Od czego zależy CzasCPAP

?↑ ↑ ↑

Zmienna Zależna Zmienne Objaśniające

Pytanie: Jaki jest przewidywany CzasCPAP

u noworodka o masie X1

, „podłączonego”

w dobie X2↑ ↑ ↑

Zmienna Zależna Predyktory

Page 37: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

ANALIZA WIELU ZMIENNYCHANALIZA WIELU ZMIENNYCH

CZTERY PODSTAWOWE TECHNIKI

1.

model regresji liniowej (Y jest zmienną

ilościową)

2.

model regresji logistycznej (Y jest zmienną

jakościową)

3.

model regresji proporcjonalnego ryzyka (analiza przeżywalności)

4.

model regresji Poisson’a

(analiza zapadalności)

Page 38: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

MODEL REGRESJI LOGISTYCZNEJMODEL REGRESJI LOGISTYCZNEJ

LOGIT –

FUNKCJA ŁĄCZĄCA W CELU WYKONANIA ANALIZY LINIOWEJ

PRAWDOPODOBIEŃSTWO WYSTĄPIENIA ‘Y’

W ODPOWIEDZI NA ZMIANĘ

‘X’

„uliniowienie

zależności biologicznej”

P LOGIT

P

X X

Page 39: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

MODEL REGRESJI LOGISTYCZNEJMODEL REGRESJI LOGISTYCZNEJ

ZMIENNA ZALEŻNA = ZMIENNA JAKOŚCIOWA

ZMIENNE NIEZALEŻNE = ZMIENNE JAKOŚCIOWE/ILOŚCIOWE

PARAMETRYZACJA MODELU REGRESJI LOGISTYCZNEJ

ANALOGICZNA DO

PARAMETRYZACJI MODELU REGRESJI LINIOWEJ

POPULARNOŚĆ

REGRESJI LOGISTYCZNEJ W BADANIACH MEDYCZNYCH

1.

Odwzorowanie zjawisk (zgon/wyzdrowienie; poprawa/brak poprawy, objaw/brak objawu itd..)

2.

Bezpośrednie obliczenie ilorazu szans (logistycznego ilorazu szans: logIS

lub logOR)

WARTOŚCI ZMIENNYCH ORYGINALNE LUB W WYNIKU TRANSFORMACJI

Page 40: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

MODEL REGRESJI LOGISTYCZNEJMODEL REGRESJI LOGISTYCZNEJ

KONSTRUKCJA MODELU

-

stopniowe („ręczne”) dodawanie zmiennych

-

sformułowanie kompletnego modelu

-

metody automatyczne (eliminacja wsteczna, wstępująca, krokowa na przykład w oparciu o kryterium p<0,05)

Y = b0

+ b1

X1

+ b2

X2

+ …

+ bk-1

Xk-1 + bk

Xk

Page 41: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

MODEL REGRESJI LOGISTYCZNEJMODEL REGRESJI LOGISTYCZNEJ

WYNIK ANALIZY

Logistyczny Iloraz Szans (logIS

= logOR)iloraz szans dla danej zależności ‘Y ~ X’,

po uwzględnieniu wpływu pozostałych ‘X’

na Y

Odds Ratio Estimates

Point 95% WaldEffect

Estimate

Confidence

Limits

masac

1.320 0.332 5.249wiekc

0.901 0.251 3.234

apgarc

1.273 0.357 4.537cribc

1.196 0.230 6.222

dwcpapc

0.549 0.165 1.829po2c 0.554 0.179 1.716

UWAGA

zmieność

zmiennej binarnej to nie to samo co zmienność

zmiennej ilościowej

Page 42: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

MODEL REGRESJI LOGISTYCZNEJMODEL REGRESJI LOGISTYCZNEJ

WYNIK ANALIZY

Logistyczny Iloraz Szans (logIS

= logOR)iloraz szans dla danej zależności ‘Y ~ X’,

po uwzględnieniu wpływu pozostałych ‘X’

na Y

Odds Ratio Estimates

Point 95% WaldEffect

Estimate

Confidence

Limits

masac

1.320 0.332 5.249wiekc

0.901 0.251 3.234

apgarc

1.273 0.357 4.537cribc

1.196 0.230 6.222

dwcpapc

0.549 0.165 1.829po2c 0.554 0.179 1.716

UWAGA

zmieność

zmiennej binarnej to nie to samo co zmienność

zmiennej ilościowej

SUROWY vs

LOGISTYCZNY

ILORAZ SZANS

Page 43: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

MODEL REGRESJI LOGISTYCZNEJMODEL REGRESJI LOGISTYCZNEJDOBÓR MODELU

1.

Definicja zmiennych (znaczenie kliniczne lub statystyczne)

2.

Testowanie interakcji

3.

Automatyczna selekcja zmiennych statystycznie znamiennych

4.

Diagnostyka trafności modelu

5.

Diagnostyka założeń

modelu

INNE MODELE

Generalny Model Liniowy (uniwersalny dla zmiennych ilościowych i jakościowych)

Page 44: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

ANALIZA WIELU ZMIENNYCHANALIZA WIELU ZMIENNYCH

CZTERY PODSTAWOWE TECHNIKI

1.

model regresji liniowej (Y jest zmienną

ilościową)

2.

model regresji logistycznej (Y jest zmienną

jakościową)

3.

model regresji proporcjonalnego ryzyka (analiza przeżywalności)

4.

model regresji Poisson’a

(analiza zapadalności)

Page 45: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

ANALIZA PRZEANALIZA PRZEŻŻYWALNOYWALNOŚŚCICI

(SURVIVAL ANALYSIS)(SURVIVAL ANALYSIS)

Page 46: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

ANALIZA PRZEANALIZA PRZEŻŻYWALNOYWALNOŚŚCI CI ––

OBSZARY ZASTOSOWAOBSZARY ZASTOSOWAŃŃ

historia naturalna chorób ( tym identyfikacja czynników ryzyka);

ocena skuteczności nowych metod terapeutycznych;

ocena skuteczności profilaktyki.

MEDYCYNA KLINICZNA A EPIDEMIOLOGIASkutki Terapii X

Obserwacja Kliniczna Obserwacja Epidemiologiczna

Pacjent A ‘+’Pacjent A ‘+’Pacjent A ‘-‘Pacjent A ‘+’Pacjent A ‘-‘Itd. . .

Odsetek ‘+’Odsetek ‘-’

Obserwacja grupy umożliwia kontrolowanie zakłócającego wpływu zjawiska zmienności międzyosobniczej, ale utrudnia uwzględnienie indywidualnie istotnych okoliczności zdarzeń.

Zgon jako przykład zdarzenia kończącego okres obserwacji (inne zdarzenia to np. pierwsza remisja, normalizacja biochemiczna itp.)

Page 47: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

PORPORÓÓWNANIA UMIERALNOWNANIA UMIERALNOŚŚCI CI --

(DWIE KOHORTY)(DWIE KOHORTY)CZAS OBSERWACJI = 3 LATA

KOHORTA -

A100 CHORYCH

KOHORTA -

B100 CHORYCH

50 zmarło 45 zmarło

Ale

GRUPA A100 CHORYCH

GRUPA B100 CHORYCH

Zgon w 1 roku: 15 Zgon w 1 roku: 5

Zgon w 2 roku: 20 Zgon w 1 roku: 15

Zgon w 3 roku: 15 Zgon w 3 roku: 25

Alew obu grupach wystąpiły także zgony z innych powodów niż

choroba stanowiąca przedmiot obserwacjiAle

w obu grupach „utracono”

z obserwacji część

chorych (np. dobrowolna rezygnacja z udziału w badaniu, zmiana miejsca pobytu) –

ilu „utraconych”

zmarło z powodu choroby X w grupie A, ilu w grupie B ?Ale

chorzy objęci kompletną

obserwacją

trzyletnią żyją

także (różnie długo) po zakończeniu obserwacji

Page 48: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

PORPORÓÓWNANIE PROFILU PRZEWNANIE PROFILU PRZEŻŻYWALNOYWALNOŚŚCICI Dwie Grupy –

Terapia A i Terapia BRADIOTERAPIA-

SCHEMAT ATablica przeżywalności kohorty

(1) (2) (3) (4) (5) (6) (7) (8)

1 X X X X X X X

2 X X X X X X X

3 X X X X X X X

...

N X X X X X X X

Wykres przeżywalności kohorty

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5 6 7 8 9 10 11 12

Oczekiwany czas przeżycia kohorty

T = 6,1 miesięcy

(1) (2) (3) (4) (5) (6) (7) (8)

1 X X X X X X X

2 X X X X X X X

3 X X X X X X X

...

N X X X X X X X

RADIOTERAPIA-

SCHEMAT BTablica przeżywalności kohorty

Wykres przeżywalności kohorty

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5 6 7 8 9 10 11 12

Oczekiwany czas przeżycia kohorty

T = 4,6 miesięcy

Page 49: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

MODEL PROPORCJONALNYCH RYZYKMODEL PROPORCJONALNYCH RYZYK(proportional

hazards

model)

CZYMdla testów parametrycznych jest założenie liniowości

TYMdla testów różnic w zakresie przeżywalności

jest założenie proporcjonalnych ryzyk

(UPROSZCZONA) KONWENCJA STATYSTYCZNA Przebieg ryzyka, jego natężenie i zmiany w czasie obserwacji [t]

dają

się

opisać

matematycznie funkcją

ryzyka

(t)

Gdy porównuje się

ryzyko zgonu w dwóch grupach („Terapia”

i „Kontrola”) wówczas dla grupy kontrolnej (punkt odniesienia) ryzyko opisuje funkcja [K

(t)], a dla grupy terapeutycznej funkcja uwzględniająca badany „efekt terapeutyczny”

[], zatem [

* T

(t)]. Celem badania jest porównanie ryzyk, co opisuje

„model proporcjonalnych ryzyk”:

K

(t) =

* T

(t)gdy efekt terapeutyczny jest „żaden”

(=1) wówczas

= 1, i K

(t) = T

(t)

HIPOTEZĘ

O RÓWNOŚCI RYZYK W PORÓWNYWANYCH GRUPACH „K”

i „T” TESTUJE SIĘ

PRZY UŻYCIU:

TESTU RANG (LOGRANK) –

proste sytuacjeANALIZY REGRESJI COX’A –

złożone sytuacje

Page 50: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

TEST RANG TEST RANG ––

STRATEGIA (B)STRATEGIA (B)Podstawowe Dane

rzeczywista, obserwowana liczbie zgonów w obu grupach (OT i OK);oczekiwana liczba zgonów w obu grupach (ET i EK).

Podstawowy Wynik Testu Rang -

Statystyka χ2χ2 = [(OT –

ET)2 / ET] + [(OK –

EK)2 / EK], a po podstawieniu danych z omawianego scenariusza:

χ2 = [(5-5,39)2/5,39] + [(8-7,57)2/7,57] = 0,028 + 0,024 = 0,052Uzyskany wynik w konfrontacji z rozkładem statystyki χ2 dla jednego stopnia swobody (liczba grup –

1) nie upoważnia do stwierdzenia, że różnica pomiędzy przeżywalnością

w grupie T i K jest statystycznie znamienna. Tym samym można przyjąć, że testowana metoda

terapeutyczna nie jest skuteczna, pod warunkiem, że inne przyczyny nie wpłynęły na wyniki badania.

PROBLEMYWniosek, że różnice w przeżywalności nie zależą

od terapii jest zasadny, gdy w każdym innym aspekcie istotnym dla przeżywalności

porównywane grupy są

podobne:Wiek;Płeć;

Stadium choroby;Wcześniejsze leczenie;

Choroby współistniejące;Itd

! kryteria doboru badanych i randomizacja

Page 51: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

ANALIZA REGRESJI COXANALIZA REGRESJI COX’’A A --

II(Cox D.R.: Regression models and life tables. Journal of the Royal Statistical Society 1972;34:187-220)

MODEL COX’a

= PROCEDURA STATYSTYCZNA UMOŻLIWIAJĄCA ZBADANIE ZALEŻNOŚCI CZASU PRZEŻYCIA OD CZYNNIKÓW PODEJRZEWANYCH O

WPŁYW NA CZAS PRZEŻYCIA, Z UWZGLĘDNIENIEM OBSERWACJI NIEPEŁNYCH

Dane toksykologiczne wykazują, że czas przeżycia dobrze charakteryzuje funkcja wykładnicza:

Y = ax

przekształcenie modelu proporcjonalnych ryzyk [K

(t) = * T

(t)] w model proporcjonalnych przeżyć

[SK

(t) = ST

(t)] –

badany efekt (np. skutek terapii) reprezentuje wówczas funkcja wykładnicza

a dla wielu zmiennych:

Y = a(b1*X

1

+ b2*X

2

+... + bk-1

*Xk-1

+ bk*X

k)

Porównanie dwóch grup (np. terapia A i B) jest porównaniem dwóch profili przeżycia, co umożliwia obliczenie ilorazu ryzyk (RR=risk

ratio)

RR = ryzyko A / ryzyko BJest to możliwe ze względu na założenie, że ryzyko wystąpienia zgonu

rozkłada się

proporcjonalnie w trakcie obserwacji –

stąd pochodzi ogólna nazwa procedury: model proporcjonalnego ryzyka (proportional-hazards

model

w terminologii anglosaskiej).

Page 52: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

ANALIZA REGRESJI COXANALIZA REGRESJI COX’’A (MODEL A (MODEL COXCOX’’aa) ) ––

IIIIII

Gdy model Cox’a

dotyczy prostej analizy (tylko jeden czynnik X –

terapia) wyniki będą

tożsame z wynikiem testu rang.

Pełne wykorzystanie analizy Cox’a

i jej zalety są

widoczne wówczas, gdy w analizie przeżywalności stosuje się

jednoczasowo

wiele zmiennych, np.:

b1

*PŁEĆ

+ b2

*WIEK + b3

*STAN + b4

*TERAPIA

Analizy tego typu są

możliwe przy użyciu procedur dostępnych w programach komputerowych, np. PROC PHREG w programie SAS.

Inne procedury dostarczają

szerokiego spektrum testów stosowanych w analizie przeżywalności

(PROC LIFETEST, PROC LIFEREG w programie SAS).

Page 53: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

ANALIZA PRZEANALIZA PRZEŻŻYWALNOYWALNOŚŚCI CI PODSUMOWANIE IPODSUMOWANIE I

CHARAKTERYSTYKA PROFILU PRZEŻYWALNOŚCI

Metoda Kaplan-Meier’aCel: opis profilu

* * *PORÓWANIA PROFILI PRZEŻYWALNOŚCI

Test rang (logrank

test)Cel: ocena różnic pomiędzy profilami

* * *IDENTYFIKACJA CZYNNIKÓW WPŁYWAJĄCYCH

NA PRZEŻYWALNOŚĆ

Analiza Cox’aCel: analiza czynników determinujących profil lub odpowiedzialnych za

różnice pomiędzy porównywanymi profilami

Page 54: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

ANALIZA WIELU ZMIENNYCHANALIZA WIELU ZMIENNYCH

CZTERY PODSTAWOWE TECHNIKI

1.

model regresji liniowej (Y jest zmienną

ilościową)

2.

model regresji logistycznej (Y jest zmienną

jakościową)

3.

model regresji proporcjonalnego ryzyka (analiza przeżywalności)

4.

model regresji Poisson’a

(analiza zapadalności)

Page 55: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

MODEL REGRESJI MODEL REGRESJI POISSONPOISSON’’AA

WSPÓŁCZYNNIK REGRESJI POISSON’A

: ‘b’

gdy narażenie = ‘tak’

(X1

=1) →

log(wsp.E+

) = b0

+ b1

*1 + …

+ bk

Xk

gdy narażenie = ‘nie’

(X=0) → log (wsp.E-)

= b0

+ b1

*01

+ …

+ bk

Xk

a po rozwiązaniu układu równań

b1

= log(wsp.E+

) –

log(wsp.E-

)

b1 = log(wsp.E+

/ wsp.E-

)

Współczynnik regresji ‘b’

jest logarytmem ilorazu współczynników, a zatem

antylogarytm b, czyli „eb1”

to iloraz współczynnika u narażonych i nienarażonych

! ! !

(wartość

„sprawcza”

danego narażenia po uwzględnieniu innych zmiennych w modelu)

Page 56: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

TRETREŚĆŚĆ

SEMINARIUM 3SEMINARIUM 3

Statystyka Analityczna –

Część

II

-

czynniki zakłócające

-

analiza stratyfikacyjna

-

analiza wielu zmiennych▫

model

regresji liniowej

model regresji logistycznej▫

model regresja proporcjonalnego ryzyka

model regresji Poisson’a

-

specyficzne zastosowania analizy wielu zmiennych

Page 57: PODSTAWY STATYSTYKI - epidemiologia.sum.edu.plepidemiologia.sum.edu.pl/wp-content/uploads/2012/01/Drsem4.pdf · podstawy statystyki. seminarium 4. jan e. zejda. katedra epidemiologii

MODEL REGRESJI WIELU ZMIENNYCHMODEL REGRESJI WIELU ZMIENNYCH

1.

Analiza dyskryminacyjna (SAS-DISCRIM)

2.

Analiza wyników powtarzanych pomiarów (SAS-GLM/REPEATED)

3.

Analiza skupień

(SAS-CLUSTER)

4.

Analiza ścieżek (SAS-CALIS)

5.

-

tematyka wykracza poza zakres kursu -