Analiza przeżycia, teoria i przykład zastosowania w badaniu … · Streszczenie W pracy...

71
Uniwersytet Warszawski Wydzial Matematyki, Informatyki i Mechaniki Aleksandra Urbaniec Nr albumu: 220775 Analiza przeżycia, teoria i przyklad zastosowania w badaniu dlugości życia pacjentek z rakiem piersi Praca magisterska na kierunku MATEMATYKA w zakresie MATEMATYKI OGÓLNEJ Praca wykonana pod kierunkiem dra inż. Przemyslawa Biecka Instytut Matematyki Stosowanej i Mechaniki - Zaklad Statystyki Matematycznej czerwiec 2010

Transcript of Analiza przeżycia, teoria i przykład zastosowania w badaniu … · Streszczenie W pracy...

Uniwersytet WarszawskiWydzia Matematyki, Informatyki i Mechaniki

Aleksandra UrbaniecNr albumu: 220775

Analiza przeycia, teoria i przykadzastosowania w badaniu dugociycia pacjentek z rakiem piersi

Praca magisterskana kierunku MATEMATYKA

w zakresie MATEMATYKI OGLNEJ

Praca wykonana pod kierunkiemdra in. Przemysawa BieckaInstytut Matematyki Stosowanej i Mechaniki - Zakad Statystyki Matematycznej

czerwiec 2010

Owiadczenie kierujcego prac

Potwierdzam, e niniejsza praca zostaa przygotowana pod moim kierunkiem i kwali-fikuje si do przedstawienia jej w postpowaniu o nadanie tytuu zawodowego.

Data Podpis kierujcego prac

Owiadczenie autora (autorw) pracy

wiadom odpowiedzialnoci prawnej owiadczam, e niniejsza praca dyplomowa zosta-a napisana przeze mnie samodzielnie i nie zawiera treci uzyskanych w sposb niezgodnyz obowizujcymi przepisami.

Owiadczam rwnie, e przedstawiona praca nie bya wczeniej przedmiotem proce-dur zwizanych z uzyskaniem tytuu zawodowego w wyszej uczelni.

Owiadczam ponadto, e niniejsza wersja pracy jest identyczna z zaczon wersjelektroniczn.

Data Podpis autora (autorw) pracy

Streszczenie

W pracy przedstawione jest wprowadzenie do analizy przeycia, opis modeli, metody estymacjiparametrw tych modeli oraz przykad zastosowania w medycynie. Praca skada si z czciteoretycznej i praktycznej: przy uyciu danych rzeczywistych modelowana jest dugo yciapacjentek z rakiem piersi. Ponadto zostay przeprowadzone symulacje badajce wasnoci nie-ktrych testw i estymatorw w analizie przeycia.

Sowa kluczowe

Analiza przeycia, Model Coxa, Test log-rank, Estymator Kaplana-Meiera, Estymator Flemingtona-Harringtona

Dziedzina pracy (kody wg programu Socrates-Erasmus)

11.2 Statystyka

Klasyfikacja tematyczna

46N30, 62P10

Tytu pracy w jzyku angielskim

Survival analysis, theory and application in breast cancer study

Spis treci

Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1. Analiza przeycia - wstp teoretyczny . . . . . . . . . . . . . . . . . . . . . . . . 71.1. Podstawowe definicje w analizie przeycia . . . . . . . . . . . . . . . . . . . . . . 71.2. Metody nieparametryczne estymacji funkcji przeycia . . . . . . . . . . . . . . . 8

1.2.1. Estymator Kaplana-Meiera . . . . . . . . . . . . . . . . . . . . . . . . . . 81.2.2. Estymator Flemingtona-Harringtona . . . . . . . . . . . . . . . . . . . . . 9

1.3. Metody parametryczne estymacji funkcji przeycia . . . . . . . . . . . . . . . . . 91.3.1. Rozkad wykadniczy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.3.2. Rozkad Weibulla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.4. Testy statystyczne w analizie przeycia - testowanie istotnoci rnic . . . . . . . 101.5. Parametryczne modele przeycia . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.5.1. Modele z przeskalowanym czasem ycia . . . . . . . . . . . . . . . . . . . 111.5.2. Modele proporcjonalnego hazardu . . . . . . . . . . . . . . . . . . . . . . 121.5.3. Estymacja parametrw w modelu . . . . . . . . . . . . . . . . . . . . . . . 13

1.6. Nieparametryczny model Coxa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.7. Diagnostyka w modelu Coxa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.7.1. Residua Coxa-Snella . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.7.2. Residua martyngaowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.7.3. Residua deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.7.4. Residua Schoenfelda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2. Badanie wasnoci estymatorw i testw w analizie przeycia . . . . . . . . . 232.1. Badanie obcionoci estymatorw funkcji przeycia . . . . . . . . . . . . . . . . 232.2. Badanie mocy testu log-rank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.3. Bootstrapowe badanie modelu parametrycznego . . . . . . . . . . . . . . . . . . . 32

3. Analiza danych rzeczywistych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.1. Opis zbioru danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.2. Estymatory funkcji przeycia dla pacjentek z rakiem piersi . . . . . . . . . . . . . 393.3. Testowanie rnic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.4. Model parametryczny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.4.1. Wybr modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.4.2. Diagnostyka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.4.3. Interpretacja parametrw ryzyko mierci . . . . . . . . . . . . . . . . . . 45

3.5. Nieparametryczny model Coxa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.5.1. Wybr modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.5.2. Badanie odpowiednioci skali parametrw cigych . . . . . . . . . . . . . 473.5.3. Testowanie zaoenia o proporcjonalnej funkcji hazardu . . . . . . . . . . 49

3

3.5.4. Diagnostyka modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.5.5. Zgodno dopasowania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.5.6. Interpretacja parametrw . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

Zakoczenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

A. Kody programu R uyte w pracy . . . . . . . . . . . . . . . . . . . . . . . . . . . 59A.1. Badanie wasnoci estymatorw funkcji przeycia . . . . . . . . . . . . . . . . . . 59A.2. Badanie mocy testu log-rank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61A.3. Bootstrapowe badanie rozkadu estymowanych parametrw . . . . . . . . . . . . 66

4

Wprowadzenie

Tematem prezentowanej pracy s zagadnienia zwizane z analiz przeycia. Analiza przeyciato z definicji zbir metod statystycznych sucy do badania czasu, jaki upynie do wystpieniaokrelonego zdarzenia [2]. Z matematycznego punktu widzenia opiera si ona na teorii rachunkuprawdopodobiestwa (rozkady zmiennych, asymptotyka), statystyki (wasnoci estymatorw)oraz optymalizacji (metody iteracyjne optymalizacji funkcji). Obecnie rozwj analizy przeyciaodbywa si w duej mierze dziki wykorzystaniu procesw stochastycznych. Pozwala to midzyinnymi na modelowanie czasu midzy powtarzajcymi si zdarzeniami.

Pierwotnie analiza przeycia bya uywana do celw aktuarialnych (zagadnienie dugoci y-cia ubezpieczonego) oraz przemysowych (badanie trwaoci produktw) [8]. Obecnie jej technikiwykorzystywane s rwnie w zagadnieniach medycznych, ekonomicznych, demograficznych, czyspoecznych, jak na przykad: przy estymacji kosztw opieki zdrowotnej [3], analizowaniu czasudo zatrudnienia kobiet po urodzeniu dziecka [7], czy dugoci ycia pacjentw po przeszczepie.W czci praktycznej pracy zostao zaprezentowane jedno z zastosowa analizy przeycia - przywyjanianiu zjawisk medycznych.

Wikszo narzdzi statystycznych zawiera zaimplementowane funkcje wykorzystywane wanalizie przeycia. Program R dysponuje pakietem survival, w programie SAS mona korzystam. in. z PROC PHREG sucej do estymacji modelu Coxa, podobnie atwo analiz przeyciaprzeprowadza si za pomoc programw SPSS oraz Statistica. W pracy wszelkie obliczeniawykonuj w programie R, w tekcie oraz w zaczniku ujawnione zostay funkcje uywane przyprzeprowadzanych analizach.

Praca skada si z trzech czci. W rozdziale pierwszym przedstawiona zostaa teoria anali-zy przeycia, poczwszy od podstawowych poj (cenzurowanie zmiennych, funkcja przeycia,hazard, test log-rank ect.) poprzez estymatory funkcji przeycia, modele parametryczne, ko-czc na nieparametrycznym modelu proporcjonalnego hazardu (modelu Coxa). Drugi rozdziazawiera wyniki przeprowadzonych przeze mnie symulacji badajcych wasnoci estymatorw itestw uywanych w analizie przeycia. W krgu zainteresowania znajdywaa si obciononieparametrycznych estymatorw funkcji przeycia, moc testu log-rank i rozkad estymatorwparametrw w modelach parametrycznych. Ostatni rozdzia to analiza danych rzeczywistych, amodelowanym zagadnieniem jest czas do mierci pacjentek chorych na raka piersi.

5

Rozdzia 1

Analiza przeycia - wstpteoretyczny

1.1. Podstawowe definicje w analizie przeycia

Analiza przeycia to w najoglniejszej definicji zbir metod statystycznych, badajcych procesy,w ktrych interesujcy jest czas jaki upynie do (pierwszego) wystpienia pewnego zdarzenia [2].Tym zdarzeniem moe by mier pacjenta, nastpne ocielenie si krowy, czy migracja do innegomiasta. Analiza przeycia ma rwnie zastosowanie w naukach aktuarialnych przy modelowaniumierci ubezpieczonego lub momentu wystpienia szkody.

Pierwszym powanym problemem, ktry napotyka si w tego typu analizach jest cenzurowa-nie danych. Zazwyczaj obserwacje poddaje si badaniu w okrelonym czasie. Dla czci obser-wacji w tym okresie nie zaobserwuje si szukanego zdarzenia. Wiadomo jednak, e to zdarzenienastpi kiedy w przyszoci. Mwimy wtedy o cenzurowaniu prawostronnym. Cenzurowanielewostronne ma miejsce wtedy, gdy wiemy, e dane zdarzenie zaobserwowano wczeniej, lecz niewiemy dokadnie kiedy. Na przykad planujemy przeprowadzi eksperyment badajcy ile czasupotrzebuje krowa po ocieleniu, by znowu znale si w rui i rozpoczynamy badanie 30 dni poocieleniu si krowy. Cz zwierzt moe jednak znale si w rui w cigu tych 30 dni, s onewtedy lewostronnie cenzurowane. W cenzurowaniu przedziaowym wiadomo, e zdarzenie miaomiejsce w jakim przedziale czasowym, jest on nam jednak bliej nieznany.

Rysunek 1.1: Rne rodzaje cenzurowania - opracowanie wasne.

7

Posugujc si nastpujcym przykadem oraz rysunkiem 1.1 przeledmy raz jeszcze rnetypy cenzurowania: Badamy czas ycia pacjenta po operacji przeszczepu serca. Gdy zaobser-wowano mier pacjenta i znana jest data przeszczepu, mona ustali dokadny czas ycia poprzeszczepie, nie ma wic cenzurowania. Z tak sytuacj mamy do czynienia w przykadzie A.Cenzurowanie prawostronne wystpuje wtedy, gdy chory pozostaje przy yciu a do zakoczeniabadania - przypadek B. Obserwacja jest cenzurowana lewostronnie (przypadek C), gdy nieznanyjest czas operacji przeszczepu (pacjent nie pamita, zgina jego dokumentacja medyczna etc.),wiadomo jednak, e operacja nastpia nie wczeniej ni w chwili t0. Jeli wic znany jest czasmierci pacjenta (t1), dugo ycia po operacji jest nie wiksza ni t1 t0.

Wprowadmy teraz kluczowe pojcia w analizie przeycia. Niech czas do wystpienia zda-rzenia bdzie zmienn losow T z rozkadu - f o dystrybuancie F . Funkcja przeycia zadanajest wzorem

S(t) = 1 F (t). (1.1)

Okrela ona jakie jest prawdopodobiestwo, e zdarzenie nie zostanie zaobserwowane do czasu t.Mona rwnie zastanawia si, jaka jest szansa zaobserwowania zdarzenia w chwili t, jelinie zostao ono zaobserwowane do chwili t. Opisuje to funkcja hazardu. Gdy czas jest cigyfunkcja hazardu zadana jest wzorem

h(t) = lim4t0

P(t T < t+4t |T t)4t

. (1.2)

Skumulowany hazard jest natomiast sum hazardu do chwili t, czyli dla czasu cigego jestpostaci

(t) =t

0

h(u) du, (1.3)

a dla czasu dyskretnego(t) =

j:tjt

h(tj). (1.4)

Z powyszych wzorw mona wyprowadzi zaleno midzy skumulowan funkcj hazardu afunkcj przeycia. Dla czasu cigego mamy bowiem

h(t) = lim4t0

P(t T < t+4t |T t)4t

=lim4t0

P(tT

Czas Start Zdarzenia Cenzurowane Zbir ryzyk Pr. przeycia Funkcja przeyciatj nj dj wj = nj nj+1 dj rj Pj = (rj dj)/rj Sj = Pj Pj1

0 31 2 3 31 3 = 28 (28 2)/28 = 0.93 0.93 1.00 = 0.931 26 1 2 26 2 = 24 (24 1)/24 = 0.96 0.96 0.93 = 0.892 23 1 2 23 2 = 21 (21 1)/21 = 0.95 0.95 0.89 = 0.853 20 1 2 20 2 = 18 (18 1)/18 = 0.94 0.94 0.85 = 0.80

ect.

Tabela 1.1: Przykad liczenia estymatora Kaplana-Meiera, rdo: [12].

jest nastpujcym wzorem:

S(t) =j:tjt

rj djrj

, dla 0 t tn. (1.8)

W powyszej definicji rj oznacza liczb obserwacji objtych ryzykiem, za dj liczb wystpiezdarzenia w chwili tj . Warto rj dla chwili tj jest rnic midzy liczb obserwacji, dla ktrychczas do zdarzenia jest rwny co najmniej tj1 a liczb obserwacji, ktre ulegy cenzurowaniuw przedziale czasowym (tj1, tj ]. Przykad liczenia estymatora Kaplana-Meiera, zaczerpnity zartykuu [12], znajduje si w tabeli 1.1.

1.2.2. Estymator Flemingtona-Harringtona

Innym sposobem estymacji funkcji przeycia metod nieparametryczn jest powizanie jej zeskumulowan funkcj hazardu ((t)). Dla estymatora Flemingtona-Harringtona punktem wyj-cia jest estymator skumulowanej funkcji hazardu NelsonaAalena zadany wzorem

(t) =j:tjt

djrj, (1.9)

gdzie dj i rj to, tak jak w przypadku estymatora Kaplana-Meiera, liczba zdarze i liczba ob-serwacji objtych ryzykiem w chwili tj . Korzystajc z 1.7, estymator Flemingtona-Harringtonajest wic ostatecznie postaci

S(t) = exp((t)). (1.10)

1.3. Metody parametryczne estymacji funkcji przeycia

Moe si zdarzy, e posiadamy dodatkowe informacje na temat badanych zjawisk, na przykadwiemy z jakiej rodziny rozkadw pochodz. Dla potrzeb analizy przeycia jest to sytuacjabardzo dla korzystna, pozwala bowiem na prognozowanie przy uyciu dopasowanego rozkadu.

Majc zatem rodzin rozkadw, z ktrej pochodz obserwacje, wyznacza si dystrybuan-t F (t), a std (t), (t) i S(t), korzystajc z pokazanych wczeniej zalenoci midzy tymifunkcjami. W analizie przeycia najczciej stosowane s nastpujce rozkady: wykadniczy,Weibulla, Gompertza i log-logistyczny. Z dwch pierwszych bd korzystaa w dalszej czcirozdziau, s wic one omwione poniej.

1.3.1. Rozkad wykadniczy

Funkcja gstoci rozkadu wykadniczego jest nastpujcej postaci:

f(t) = exp(t), dla t 0, > 0. (1.11)

9

Dostajemy wich(t) = , (1.12)

(t) = t, (1.13)

S(t) = exp(t). (1.14)

Zauwamy, e dla tego rozkadu funkcja hazardu jest staa h(t) = const, tzn. niebezpiecze-stwo wystpienia zdarzenia nie zaley od czasu. W wielu przypadkach zaoenie to jest dalekieod rzeczywistoci, na przykad przy modelowaniu mierci ubezpieczonego. W modelach aktu-arialnych przyjmuje si zazwyczaj zaoenie, e ryzyko ronie z czasem.

1.3.2. Rozkad Weibulla

Funkcj gstoci dla rozkadu Weibulla zapisuje si jako

f(t) = k(t)k1 exp((t)k

), dla t 0, , k > 0, (1.15)

co dajeh(t) = k(t)k1, (1.16)

(t) = (t)k, (1.17)

S(t) = exp((t)k

). (1.18)

Rozkad Weibulla posiada dwa parametry. Parametr nazywany jest parametrem skali, nato-miast k - parametrem ksztatu. Zauwamy, e rozkad wykadniczy jest szczeglnym przypad-kiem tego rozkadu (dla k = 1). Monotoniczno funkcji hazardu zaley od parametru ksztatu.Gdy k = 1 hazard jest stay (mamy wtedy rozkad wykadniczy), gdy k > 1 rosncy, za dlak < 1 malejcy w czasie.

1.4. Testy statystyczne w analizie przeycia - testowanie istotno-ci rnic

Jednym z podstawowych zagadnie w analizie przeycia jest testowanie, czy dwie prby majte same funkcje przeycia. Podzia na prby moe odbywa si na podstawie jakiej zmiennejobjaniajcej. Na przykad, w pniejszym rozdziale, podczas analizowania danych o pacjent-kach chorych na raka piersi, interesowa mnie bdzie, czy pacjentki z przerzutami yj krcejni te bez przerzutw.

Jeli nie obserwuje si cenzurowania, do powyszego problemu mona stosowa standardo-we testy porwnujce rozkady w prbach, jak test Koomogorowa-Smirnowa, czy Sign Test.W pozostaym (najczstszym) przypadku wykorzystuje si testy uwzgldniajce cenzurowanie.Najpopularniejszym testem tego typu jest test log-rank. Poniej zaprezentowana jest konstrukcjatego testu.

Rozwamy dwie grupy obserwacji w momentach czasu t = 1, 2, . . . , T . Hipoteza zerowazakada, e obie grupy maj takie same funkcje przeycia. Dla kadej chwili t wyznacza sizaobserwowan oraz oczekiwan liczb zdarze w kadej grupie. Niech dalej:

N1t, N2t - liczba obserwacji bdcych w stanie ryzyka w chwili t odpowiednio dla pierwszeji drugiej grupy,

Nt = N1t +N2t - liczba wszystkich obserwacji bdcych w stanie ryzyka w chwili t,

10

O1t, O2t - liczba zaobserwowanych zdarze w chwili t odpowiednio dla pierwszej i drugiejgrupy,

Ot = O1t +O2t - liczba wszystkich zaobserwowanych zdarze w chwili t.

Jeli rzeczywicie obie prby pochodz z tych samych rozkadw, zdarzenia powinny rozkadasi proporcjonalnie do liczby obserwacji z danej grupy w stosunku do cakowitej liczby obserwacji(Ot), czyli dla grupy j (j = 1, 2) oczekiwana liczba zdarze w chwili t wynosi

Ejt = OtNjtNt

, j = 1, 2 (1.19)

za wariancja

Vt =Ot(N1t/Nt)(N2t/Nt)(Nt Ot)

Nt 1. (1.20)

Ostatecznie proponowana statystyka testowa jest postaci

Z =Tt=1(O1t E1t)T

t=1 Vt

. (1.21)

Jeli hipoteza zerowa o rwnoci krzywych przeycia jest prawdziwa statystyka Z jest asymp-totyczna z centralnym twierdzeniem granicznym.

Alternatywn (zaimplementowan m. in. w programie R) statystyk testu log-rank jest sta-tystyka Z zadana jako

Z =kj=1

(Tt=1(Ojt Ejt)

)2Tt=1Ejt

, (1.22)

gdzie definicje Ejk, Ojk dla j = 1, . . . , k rozszerzamy z 2 na k grup. Przy prawdziwoci hipotezyzerowej powinna ona zbiega dla duych N do rozkadu 2 z k 1 stopniami swobody, gdzie k- liczba grup. Statystyka ta jest wic rwnie uyteczna, gdy bada si rwno funkcji przeyciaw wicej ni dwch grupach.

W programie R (pakiet survial) znajduje si funkcja survdiff (), w ktrej zaimplementowanajest caa rodzina testw G-rho, opartych na statystyce 1.22. W testach tych zdarzenia waones wagami S(t)rho, dla S(t) - estymatora Kaplana-Meiera, rho [0, 1].

Test log-rank naley do rodziny tych testw przy rho=0 - wszystkie zdarzenia maj t samwag. Dla rho=1 mamy do czynienia z modyfikacj Peto-Peto testu Gehana-Wilcoxona - wikszwag objte s zdarzenia wczeniejsze.

Porwnujc testy G-rho, test log-rank jest zalecany, gdy miertelno w grupach jest propor-cjonalna - krzywe przeycia nie przecinaj si. W pozostaych przypadkach mona zaobserwowaprzewag testw z obserwacjami waonymi (gdzie zdarzenia wczeniejsze maj wiksze wagi nipniejsze). Testy te mog jednak prowadzi do bdnych wynikw dla duego poziomu cenzu-rowania we wczesnej fazie badania (rdo [11]).

1.5. Parametryczne modele przeycia

1.5.1. Modele z przeskalowanym czasem ycia

Do parametrycznych modeli przeycia nale modele z przeskalowanym czasem ycia(ang.accelerated failure time models). Zakada si w nich rne funkcje przeycia w zalenoci od

11

wektora zmiennych objaniajcych xi. Mwic bardziej obrazowo, funkcja przeycia jest skalo-wana tak, e czas biegnie inaczej w zalenoci od obserwacji. Dla obserwacji i mamy

Si(t) = S0

(t

i

)= S0(t0), i > 0 - const. (1.23)

Zwykle przyjmuje si, ei = exp(Txi), (1.24)

gdzie to wektor parametrw.Niech czas do zdarzenia dla obserwacji i bdzie zmienn losow Ti, wtedy T0 = Tii =

Tiexp(Txi) ma sta dystrybucj oraz

log(T0) = log(Ti) Txi. (1.25)

W oglnoci modele parametryczne s postaci (symbol oznacza rwno rozkadw)

l(T ) Tx+ , (1.26)

gdzie l() jest zwykle transformacj liniow, parametrem skali, a zadan dystrybucj.Zastanwmy si teraz, jakiej postaci jest model parametryczny dla konkretnych rozkadw.

Rozwamy najprostszy przypadek, czyli rozkad wykadniczy. Docelowo T0 powinno by stan-dardowym rozkadem wykadniczym (Exp(1)). Dla i-tej obserwacji Ti jest z rozkadu Exp(i).Przeskalowuje si wic czas o i = 1i

Si (t) = 1 exp(it) = S0(it). (1.27)

Z 1.24 oraz 1.25 dostajemy

log(T ) Tx+ log(), pochodzi z rozkadu wykadniczego z parametrem = 1.1 (1.28)

Podobnie, gdy obserwacje pochodz z rozkadu Weibulla o parametrach i i k

Si (t) = 1 exp( (it)k

)= S0(it), (1.29)

gdzie S0 jest funkcj przeycia dla rozkadu Weibulla(1,k). Model parametryczny z przeskalo-wanym czasem dla rozkadu Weibulla ma wic posta:

log(T ) Tx+ log(), (1.30)

gdzie pochodzi z rozkadu Weibulla, = 1k nazywana jest parametrem skali.

1.5.2. Modele proporcjonalnego hazardu

Innym sposobem estymacji modeli przeycia s modele proporcjonalnego hazardu, do ktrychnaley m. in. model Coxa (patrz podrozdzia 1.6). U ich podstaw ley zaoenie proporcjonalnegohazardu, przy ktrym funkcj hazardu dla i-tej obserwacji definiuje si wzorem

hi(t) = h0(t)exp(Txi), (1.31)

gdzie h0(t) jest bazow funkcj hazardu (jednakow dla wszystkich obserwacji), xi-wektoremzmiennych objaniajcych dla i-tej obserwacji, a -szukanymi parametrami. Zauwamy, e dla1Warto zauway, e posta parametru i zaley od parametryzacji rozkadu. Na przykad, gdy przyjmuje

si, e rozkad wykadniczy jest postaci f(t) = exp( ti

), zachodzi i = i.

12

modeli parametrycznych z rozkadem wykadniczym oraz rozkadem Weibulla, oba podejcias rwnowane z dokadnoci do przeskalowania parametrw wektora . To przedstawieniejest jednak o tyle wygodniejsze, e pozwala na szybk interpretacj parametrw, jako czyn-nikw wpywajcych na funkcj hazardu, czyli na szans zaobserwowania zdarzenia w danymmomencie.

Dla rozkadu wykadniczego mamy

hi(t) = i = h0(t)exp(Txi) = 1 exp(Txi) = exp(Txi). (1.32)

Czyli z powyszego oraz i = 1i dostajemy zaleno midzy dwoma podejciami

exp(Txi) = i =1i

= exp(Txi), (1.33)

co ostatecznie dajexi = xi. (1.34)

Podobnie dla rozkadu Weibulla

hi(t) = h0(t) exp(Txi) = k (ti)k1 = ktk1ki . (1.35)

Podstawiajc h0(t) = ktk1 mamy ki = exp(Txi). W modelu z przeskalowanym czasem ycia

dla rozkadu Weibulla wyprowadzilimy w 1.29, e i = 1i . Zatem

i = exp

(Txik

)=

1i

= exp(Txi), (1.36)

co ostatecznie dajexi = xik =

xi. (1.37)

W programie R (w bibliotece survival) dostpna jest funkcja survreg(), z ktrej bd korzy-sta w nastpnych rozdziaach. Suy ona do estymacji modeli parametrycznych z przeskalowa-nym czasem ycia. Dla rozkadw wykadniczego i Weibulla przyjmuje ona odpowiednio modelepostaci 1.28 oraz 1.30.

1.5.3. Estymacja parametrw w modelu

Parametryczne modele przeycia estymuje si, podobnie jak uoglnione modele liniowe (ang.generalized linear models), stosujc iterowan waon metod najmniejszych kwadratw (ang.iteratively reweighted least squares). Szczeglnym traktowaniem powinny by jednak objte ob-serwacje cenzurowane. Poniej zaprezentowany zostanie sposb estymacji modeli parametrycz-nych (na podstawie [13]) zaimplementowany m. in. we wspomnianej wczeniej funkcji survreg().

Niech y bdzie wektorem danych (np. logarytmem z czasu zaobserwowanego do zajcia zda-rzenia), moe zawiera obserwacje cenzurowane. Zakadamy, e dla i-tej obserwacji (oznaczenia,jak w podrozdziale wyej)

zi =yi Txi

f, (1.38)

gdzie f - zadana dystrybucja. Funkcja wiarygodnoci dla y jest wic postaci

L =

inC

(f(zi)/)

iCl

zi

f(u)du

iCp

zi

f(u)du

iCs

zrizli

f(u)du

, (1.39)13

gdzie nC, Cl, Cp oraz Cs oznaczaj zbiory indeksw odpowiednio dla obserwacji niecenzurowa-

nych, cenzurowanych lewostronnie, prawostronnie oraz przedziaowo, natomiast zli =yli

T xi ,

zri =yli

T xi , a y

li, y

ri - granice przedziau przy cenzurowaniu przedziaowym. Wtedy logarytm

funkcji wiarygodnoci wyraa si jako

l =inC

(g1(zi) log()) +iCl

g2(zi) +iCp

g3(zi) +iCs

g4(zli, zri ), (1.40)

przy oznaczeniach g1 = log(f), g2 = log(F ), g3 = log(1F ) oraz g4 = log(F (zri ) F (zli)

), a F

- dystrybuanta rozkadu f . Niech = X bdzie wektorem predyktorw linowych, - wektoremszukanych parametrw, X - wektorem obserwacji, a N liczb obserwacji. Pochodne logarytmufunkcji wiarygodnoci po j mona zapisa jako

l(, )j

=Ni=1

gi

i

ij

=Ni=1

xijgi

i, (1.41)

l(, )jk

=Ni=1

xijxik2gi

2i, (1.42)

gdzie gi {g1, g2, g3, g4} i zaley od tego, czy oraz ewentualnie jak i-ta obserwacja bya cen-zurowana. Jeli chodzi o dokadne wzory na gi ,

gi(log()) ,

2gi2 ,

2gi(log()) ,

2gi(log())2

znajduj si

one m. in. w [13] str. 72.Potraktujmy na moment parametr jako sta. Iteracyjnie wyznacza si tak, e warto

(n+1) w (n + 1)-tym kroku wynosi (n) + (n+1), gdzie (n) to warto w n-tym kroku, a(n+1) spenia warunek (

XTD(n)X)(n+1) = XTU (n). (1.43)

W powyszym wzorzeD(n) jest macierz diagonalnNN majc na przektnych 2gi

(n)2i

(z

(n)i

)(i = 1, . . . , N), a U (n) to wektor

(g1

(n)1

(z

(n)i

), . . . , g

N

(n)N

(z

(n)i

))T,(z

(n)i

)= yix

Ti (n)

.

Zakada si, e zachodzi X(n) = (n), a std wynika rwno(XTD(n)X

) ((n) + (n+1)

)= XTD(n)(n) +XTU (n) =

(XTD(n)

) ((n) +D(n)

1U (n)

).

(1.44)Powysza procedura (przy staym ) jest rwnowana iterowanej waonej metodzie najmniej-szych kwadratw, dla ktrej

(n+1) =(XTW (n)X

)1W (n)h(n), (1.45)

dla W (n) macierzy wag, w tym przypadku rwniej D(n), oraz zmiennej objanianej rwnejh(n) = (n) + D(n)

1U (n). Przy granicy oczekuje si wyniku bliskiego = y, wic zazwyczaj y

jest dobrym estymatorem dla (0) jako pocztkowa warto dla iteracji.2

Zauwamy, e gdy nie ma obserwacji cenzurowanych i (0) = y to z(0) = yXT (0)

= 0 orazdla rozkadw z mod w zerze3 U (i) = 0 (i = 0, 1, . . . ). Z 1.43 mamy (i) = 0, wic rwnieD(i) = a = const. (i = 0, 1, . . . ) oraz

=(XT (aI)X

)1XT (aI)(0) =

(XTX

)1XT y, (1.46)

2W przypadku, gdy obserwacja l jest cenzurowana przedziaowo yl to rodek przedziau.3Tak wasnoci cechuje si wikszo rozkadw uywanych w analizie przeycia, m. in. rozkad wykadniczy

i rozkad Weibulla o = 1.

14

czyli uzyskuje si metod najmniejszych kwadratw.Jeli chodzi o estymacj parametru , autorzy pakietu survival [13] zdecydowali si na

liczenie pochodnych po log(). Zadanie optymalizacji z ograniczeniami: > 0, zamienia siwtedy na szukanie optimum bez ogranicze: log() R, co upraszcza obliczenia. Pochodnelogarytmu funkcji wiarygodnoci po log(), jak wida poniej, to w wikszoci przeskalowaneprzez pochodne logarytmu funkcji wiarygodnoci po :

l(, ) log()

= l(, )

, (1.47)

2l(, )(log())2

= 22l(, )2

+ l(, )

, (1.48)

2l(, ) log()

= 2l(, )

. (1.49)

Wypisane wyej Hessiany i macierze pierwszych pochodnych su do iteracyjnego szukaniamaksimum logarytmu funkcji wiarygodnoci przy uyciu algorytmu Newtona-Raphsona czyalgorytmu Fisher scoring.

Estymacja parametrw modelu dla rozkadu wykadniczego

W tej czci rozpatrywany jest najprostszy model parametryczny, czyli model z rozkadem wy-kadniczym i jednakowym parametrem dla wszystkich obserwacji. Dopuszczajc cenzurowanieprawostronne wyznaczam estymator maksymalizujcy funkcj wiarygodnoci, jego wariancjoraz przedziay ufnoci dla kwantyli rozkadu. Wyprowadzenia oparam na [16], gdzie monaznale podobne wyniki dla bardziej skomplikowanych przypadkw, takich jak m. in. modele zrozkadem Weibulla czy model dla dwch podprb pochodzcych z rnych rozkadw wykad-niczych. Na mocy 1.39 mamy

L =Ni=1

(f(yi))ci (S(yi))

1ci , (1.50)

gdzie f , S to odpowiednio gsto i funkcja przeycia dla rozkadu wykadniczego, a ci tozmienna binarna przyjmujca warto 1, gdy obserwacja i nie bya cenzurowana, 0 w.p.p. Mamyzatem

L =Ni=1

( exp(yi))ci (exp(yi))1ci =Ni=1

()ci exp(yi). (1.51)

Logarytm funkcji wiarygodnoci jest wic ostatecznie postaci

l =Ni=1

ci log() Ni=1

yi = d log() Ni=1

yi, (1.52)

dla d - liczby obserwacji cenzurowanych (prawostronnie). Pochodna l po jest postaci

l

=d

Ni=1

yi, (1.53)

a przyrwnana do zera daje estymator najwikszej wiarygodnoci wyraony jako

=dNi=1 yi

. (1.54)

15

Parametr w rozkadzie wykadniczym jest wic szacowany procentem cenzurowanych obser-wacji. Asymptotycznie wariacja moe by przybliana jako odwrotno informacji Fishera, czyliprzy

2l

2= d

2(1.55)

dostajemy

V () =2

d. (1.56)

Majc wariancj moemy znajdowa wariancj interesujcych na funkcji od , takich jakmediana, kwantyle, czy funkcja przeycia. Na przykad, stosujc metod delta4 uzyskujemyoszacowanie wariancji p-tego kwantyla wyraon jako

V (tp) (

1

2log(1 p)

)2V (). (1.57)

Korzystajc z wasnoci S(tp) = 1 p tp = log(1p) oraz rwnoci 1.56 dostajemy

V (tp) (tp)2

d. (1.58)

Do konstrukcji przedziaw ufnoci najlepiej uywa logarytmw z kwantyli, std ponowniestosujc metod delta mamy

V(log(tp)

) V (tp)

(tp)2 1d. (1.59)

Ostatecznie otrzymujemy przedziay ufnoci dla tp przy poziomie ufnoci 1 postaci

exp(

log(tp)z/2d

)lub tp exp

(z/2d

). (1.60)

1.6. Nieparametryczny model Coxa

U podstaw modelu Coxa ley zaoenie proporcjonalnego hazardu, zadane wzorem 1.31.Zauwamy, e hazard z definicji to prawdopodobiestwo zdarzenia w chwili t, pod warun-

kiem, e zdarzenie nie nastpio do chwili t

h(t) = lim4t0

P(t T < t+4t |T t)4t

= (1.61)

= lim4t0

F(t+ t |T t)F(t |T t)t

= P(T = t |T t).

Zatem, gdy dla hi(t) = h0(t)exp(Txi), i = 1, 2, . . . , N (rwno 1.31) dany jest estymatorparametru mona powiedzie, o ile bardziej (mniej) prawdopodobne jest badane zdarzenieprzy zmianie o x zmiennych objaniajcych. Dla peniejszego zrozumienia posumy si po-niszym przykadem: Modelujemy dugo ycia pacjentw chorych na raka. Jedn ze zmiennych

4Niekoniecznie dla rozkadw normalnych, ale np. przy maej wariancji, w metodzie delta uywa si

aproksymacji V(h()

)

i

(h

i

)2Var(i)+

i

i 6=j

(h

i

)(h

j

)Cov(i, j), czyli dla jednowymiarowego

V(h()

)(h

)2Var(). Na podstawie [5].

16

objaniajcych jest zmienna zero-jedynkowa: rak w wywiadzie rodzinnym, przyjmujca war-to 1, gdy kto z najbliszej rodziny badanego by chory na raka, 0 w p.p.. Niech i > 0bdzie parametrem przy tej zmiennej objaniajcej w funkcji hazardu. Wtedy szansa mier-ci osb, w ktrych rodzinie kto chorowa na raka jest h0(t) exp(

T x2)h0(t) exp(T x1)

= exp(i) razy wiksza

(x2 = (x1, x2, . . . , xi1, 1, xi+1, . . . , xp)T, x2 = (x1, x2, . . . , xi1, 0, xi+1, . . . , xp)T) ni u pozosta-ych osb.

Funkcja hazardu jest eksponencjaln funkcj zmiennych objaniajcych, nieznana jest na-tomiast posta funkcji bazowej, co bez dalszych zaoe uniemoliwia estymacj standardowmetod najwikszej wiarygodnoci.

Rozwizaniem Coxa jest maksymalizacja tylko tego fragmentu funkcji wiarygodnoci, ktryzaley od estymowanych parametrw. Niech Z(t) oznacza zbir indeksw dla tych obserwacji,dla ktrych zdarzenie wystpio w chwili t (rozwaany model jest modelem z czasem cigym,wic Z(t) nie moe posiada wicej ni jednego indeksu - P (moc(Z(t)) > 1) = 0), R(t) - zbirindeksw tych obserwacji dla ktrych moliwe jest wystpienie zdarzenia w chwili t (zbir indek-sw obserwacji w stanie ryzyka). Rozwamy prawdopodobiestwo zaobserwowania zdarzenia dlazadanego wektora parametrw. Ze wzoru na prawdopodobiestwo warunkowe mona je rozbina dwa czony

P(i Z(t)) = P(moc(Z(t)) > 0)P(i Z(t) | moc(Z(t)) > 0). (1.62)

Mwic obrazowo i Z(t) oznacza, e w chwili t wystpio zdarzenie dla obserwacji i, a warunek(moc(Z(t)) > 0) jest rwnowany temu, e w chwili t wystpio jakie zdarzenie. Pierwszy czonnie zaley od parametrw, wic procedurze maksymalizacji poddawany jest tylko drugi czon.Dalej ze wzoru na prawdopodobiestwo warunkowe mamy

P(i Z(t)| moc(Z(t)) > 0) = P (i Z(t) oraz moc(Z(t)) > 0)P( moc(Z(t)) > 0)

= (1.63)

P(Ti = t|T >= t)jR(t) P(Tj = t|T >= t)

=h0(t)exp(Txi)

jR(t) h0(t)exp(Txj).

Jako, e h0(t) jest w liczniku i mianowniku ostateczne otrzymujemy wyraenie

P(i Z(t)| moc(Z(t)) > 0) = exp(Txi)

jR(t) exp(Txj), (1.64)

ktre nie zaley od hazardu bazowego.Przy wyprowadzaniu powyszych wzorw zakada si, e czas jest cigy. Implikuje to, i

prawdopodobiestwo, e dla dwch obiektw zdarzenie nastpi w tej samej chwili wynosi zero. Wpraktyce moe by jednak inaczej. Czsto pomiary prowadzi si w ograniczonych - dyskretnychmomentach czasowych i dla kadego z czasw t = 0, 1, . . . , T obserwuje si wiele zdarze orazcenzurowanie.

Jednym ze sposobw radzenia sobie z tym problemem jest aproksymacja Breslowa. Jestto najprostsze podejcie i najmniej zoone obliczeniowo [4]. Zakada si w nim, e jeli zda-rzenie i cenzurowanie wystpiy w tym samym czasie, to zdarzenie poprzedza cenzurowanie.Zamy, e w chwili t wystpio d zdarze, a w zbiorze ryzyka jest m obserwacji. Niechi = I(Ti t)exp(Txi). Przenumerujmy obserwacje, tak e obserwacje, dla ktrych w chwilit wystpio zdarzenie maj numery 1, 2, . . . , d. Aproksymacja funkcji czciowej wiarygodnociw tym przypadku jest postaci

L di=1

imj=1 j

. (1.65)

17

Inne rozwizanie zaproponowa Efron. W uproszczeniu zakada ono, e jeli dwa zdarzenia- i oraz j - wystpiy jednoczenie, zdarzenie i znajduje si w stanie ryzyka dla zdarzenia j (ina odwrt) ale z odpowiednio dobran wag. Rozwizanie Efrona jest tak samo skomplikowaneobliczeniowo jak Breslowa [14]. Gdy stosunek liczby zdarze do liczby obserwacji w stanie ryzykanie jest zbyt duy, stanowi za to lepsz aproksymacj

L di=1

imj=1 j i1d

dj=1 j

. (1.66)

Dla czasu dyskretnego mona wykorzysta aproksymacj funkcji wiarygodnoci najbardziej zbli-on do prawdziwej funkcji wiarygodnoci

L 12 . . . dS(d,m) k1k2 . . . kd

. (1.67)

Suma w mianowniku odbywa si po wszystkich rnych kombinacjach d-elementowych z m-elementowego zbioru elementw w stanie ryzyka. Zastosowanie tego wzoru w estymacji wymagajednak duo wikszej mocy obliczeniowej.

W celu lepszego wyjanienia rozwamy poniszy przykad: Niech 5 obserwacji znajduje siw stanie ryzyka w chwili t, a dla obserwacji 1 i 2 w chwili t wystpio badane zdarzenie. Wtedyaproksymacja Breslowa bdzie postaci

11 + 2 + 3 + 4 + 5

21 + 2 + 3 + 4 + 5

, (1.68)

czyli obserwacja 2 bdzie w stanie ryzyka dla obserwacji 1, jak i obserwacja 1 bdzie w stanieryzyka dla obserwacji 2. Przy uyciu aproksymacji Efona sytuacja bdzie przedstawia sinastpujco:

11 + 2 + 3 + 4 + 5

20.51 + 0.52 + 3 + 4 + 5

. (1.69)

Mnoniki w mianowniku przy 1 i 2 w drugiej czci wzoru mona interpretowa tak: obser-wacje 1 i 2 maj 0.5 szansy na znalezienie si w stanie ryzyka dla drugiego mianownika. Przyzastosowaniu waciwej funkcji wiarygodnoci dostaniemy

1212 + 13 + 14 + 15 + 23 + 24 + 25 + 34 + 35 + 45

. (1.70)

W tym przypadku mianownik skada si z 10 czonw - wszystkie moliwe podgrupy dwuelemen-towe zbioru 5-elementowego. Gdyby jednak rozway w danej chwili 10 zdarze w zbiorze ryzykaskadajcym si z 1000 elementw, mianownik w powyszym wyraeniu zawieraby 2.6 1023skadnikw! Wpywa to znacznie na zoono oblicze.

Do estymacji modelu Coxa stosuje si metod najwikszej wiarygodnoci - maksymalizujciteracyjnie funkcj czciowej wiarygodnoci (lub ktr z jej aproksymacji).

W programie R (pakiet survival) zaimplementowana jest funkcja coxph() suca do esty-macji modelu Coxa. Domylnie przeprowadza ona maksymalizacj przy uyciu aproksymacjiBreslowa.

1.7. Diagnostyka w modelu Coxa

Najbardziej naturalnym sposobem liczenia residuw byoby policzenie rnicy midzy rzeczy-wistym czasem do zaobserwowania zdarzenia a tym wynikajcym z modelu, osobno dla kadejobserwacji. Pojawia si tu jednak problem obserwacji cenzurowanych, dla ktrych dokadny czas

18

do zaobserwowania zdarzenia jest nieznany. Zdarza si, e te obserwacje stanowi przewaaj-c cz zbioru danych. W tym podrozdziale omwionych jest kilka najwaniejszych rodzajwresiduw wystpujcych w analizie przeycia, ktre na rne sposoby radz sobie z brakieminformacji wynikajcym z cenzurowania danych.

1.7.1. Residua Coxa-Snella

Residua Coxa-Snella dane s wzorem

rci = exp(Txi)0(yi) = log(Si(t)

). (1.71)

Zamy na pocztek, e nie wystpuje cenzurowanie. Niech T bdzie zmienn losow oznacza-jc czas do zajcia badanego zdarzenia z funkcj gstoci postaci fT (t). Funkcja gstoci dlazmiennej (T ) = log (S(T )) zadana jest przez5

f(t)((T )) = fT(S1 (exp ((T )))

)d ( log (S(t)))

dt1 (1.72)

= fT(S1 (exp ((T )))

) S(t)fT (t)

= fT(S1 (exp ((T )))

) S (S1 (exp ((t))))fT (S1 (exp ((T ))))

= exp((t)).

Zatem (T ) ma rozkad wykadniczy z = 1 bez wzgldu na posta S(t).Jeli model jest waciwy, Si(t) powinno mie rozkad zbliony do Si(t). Std dalej, jeli

spenione jest rci = log(Si(t)

), rci powinno by zblione do rozkadu wykadniczego.

Gdy mamy do czynienia z cenzurowaniem prawostronnym prawdziwy czas do zajcia zda-rzenia jest wikszy ni zaobserwowana warto yi. Std rwnie residuum w modelu bez cen-zurowania powinno by wiksze ni uzyskane z 1.71 (poniewa 0(y1) > 0(y2), gdy y1 > y2).Residua dla waciwego modelu odpowiadaj wic cenzurowanej prawostronnie prbie z rozka-du wykadniczego.

By uchwyci efekt cenzurowania, jako residuw mona uy, zaproponowanej przez Coxa iSnella w [1], nastpujcej modyfikacji wzoru 1.71:

rmci = rci + (1 i), (1.73)

gdzie i zmienna binarna oznaczajca brak cenzurowania (i = 0 - i-ta obserwacja bya cenzu-rowana). Pozostaje jednak problem doboru . Korzystajc z wasnoci braku pamici w modeluwykadniczym, , podobnie jak rci, pochodzi z rozkadu wykadniczego o = 1, std propo-nowane wartoci to E() = 1 lub mediana rozkadu rwna log(2) = 0.693.

Uzyskane tym sposobem residua przyjmuj tylko wartoci wiksze od zera (bo (t) > 0), nies wic symetrycznie rozoone wok zera jak residua standardowych modeli linowych. Ponadtocechuj si skonoci rozkadu (wasno rozkadu wykadniczego).

5Korzystam ze wzoru na zmian funkcji gstoci: Dla monotonicznej funkcji g, takiej e g(X) = Y , rozkad X -fX - niezaleny, zachodzi fy(y) =

(g(g1(y))

)1fx(g1(y)). W tym przypadku X = T oraz g(T ) = log(S(T )),

rdo: [2].

19

1.7.2. Residua martyngaowe

Residua martyngaowe (ang. martingale residuals) s funkcj residuw Coxa-Snella i wyraajsi jako (oznaczenia jak poprzednio)

rmi = i rci. (1.74)

Poniewa rci > 0 to rmi 1, a obserwacje cenzurowane maj wartoci mniejsze od zera.Mona pokaza, e residua martyngaowe s nieskorelowane i maj rednia rwn zero. Nie sjednak symetryczne wok zera.

Residua te mona interpretowa jako rnic midzy zaobserwowan liczb zdarze rwni, a oczekiwan (wynikajc z modelu) - rci.

1.7.3. Residua deviance

W [15] mona znale kolejn propozycj residuw zwanych po angielsku deviance residuals izadanych jako

rdi = sign(rmi)2(rmi + i log(i rmi)). (1.75)

Residua te powizane s ze sposobem badania dopasowania modelu opartym na porwnywaniufunkcji wiarygodnoci. Rozwamy rnic midzy logarytmami funkcji wiarygodnoci dla dwchmodeli, gdzie jeden jest prawdziwym modelem, a drugi si w nim zawiera, zwanej po angielskudeviance

deviance = 2(logL2 logL1), (1.76)

gdzie model 2 (L2) zawiera si w prawdziwym modelu 1 (L1). Sformuowanie model 2 zawierasi w modelu 1 oznacza, e jeli xi1 jest zmienn objaniajc w modelu 2 i estymowanyparametr 2i1 przy tej zmiennej jest rny od zera to zmienna ta jest te zmienn objaniajcdla modelu 1 z niezerowym parametrem 1i1 . Inaczej wyraenie 1.76 mona zapisa jako

deviance =Ni=1

rd2i . (1.77)

W porwnaniu z residuami martygaowymi, deviance residuals s bardziej symetryczne dookoazera.

1.7.4. Residua Schoenfelda

Residua Schoenfelda zostay po raz pierwszy przedstawione przez Schoenfelda w [10]. Dlakadej obserwacji mona wyznaczy p residuw, gdzie p to liczba zmiennych objaniajcych wmodelu. Residuum Schoenfelda dla k-tej zmiennej objaniajcej i i-tej obserwacji jest postaci

rsik = i

(xik

lR(yi) xlk exp(

Txl)lR(yi) exp(

Txl)

). (1.78)

Powysze wyraenie odpowiada rnicy midzy rzeczywist zmienn objaniajc a oczekiwan(wynikajc z modelu) wartoci tej zmiennej w chwili yi.

Zauwamy, e ze wzgldu na wystpowanie zmiennej i we wzorze, tylko obserwacje nie-cenzurowane maj wartoci rsik rne od zera. Ponadto wyraenie

Ni=1 rsik mona otrzyma

przez rniczkowanie logarytmu funkcji wiarygodnoci

l()k

=Ni=1

i

(xik

lR(yi) xlk exp(

Txl)lR(yi) exp(

Txl)

). (1.79)

20

Z warunku maksymalizacji funkcji czciowej wiarygodnoci

l()k

| = 0, (1.80)

std suma residuw Schoenfelda dla kadego parametru k (k = 1, . . . , p) wynosi 0.Residua Schoenfelda su m. in. do testowania zaoenia proporcjonalnego hazardu - przy-

kad analizy opartej na residuach tej postaci znajduje si w podrozdziale 3.5.3.

21

Rozdzia 2

Badanie wasnoci estymatorw itestw w analizie przeycia

Rozdzia ten powicony jest badaniu wasnoci estymatorw i testw w analizie przeycia. Wkrgu zainteresowania znajduj si: obciono estymatorw nieparametrycznych (Kaplana-Meiera i Flemingtona-Harringtona), moc testu log-rank oraz rozkad estymatorw parametrww modelach parametrycznych. Analiza odbywa si na podstawie symulacji przy uyciu progra-mu R. Kody funkcji zaprogramowanych do tego badania wraz z dokadnym opisem dziaaniaznajduj si w dodatku.

2.1. Badanie obcionoci estymatorw funkcji przeycia

Celem tego podrozdziau jest zbadanie wasnoci statystycznych estymatorw nieparametrycz-nych funkcji przeycia. Przeprowadzam symulacje na obserwacjach pochodzcych z rozkadwparametrycznych. Dodatkowo generowane s wartoci zmiennych z innego rozkadu, ktry wdalszej czci pracy nazywam rozkadem cenzurujcym. Tymi wartociami cenzurowane s obser-wacje, a cenzurowanie odbywa si w nastpujcy sposb: Niech X bdzie wektorem wygenerowa-nych obserwacji z danego rozkadu o dugoci rwnej n, za Y to tak samo wygenerowany wektorcenzurujcym zmienne. Wtedy do modelowania uywa si wektora Z: Z[i] = min(X[i], Y [i]) dlai = 1, 2, ..., n oraz informacji czy dana zmienna zostaa ocenzurowana, np. wektor binarny C:C[i] = TRUE, gdy X[i] > Y [i] i C[i] = FALSE w p.p., dla i = 1, 2, ..., n. Przy uyciu zapro-jektowanej przez mnie funkcji plot unbiased survival() (dodatek A.1) generowane s wykresypudekowe rozkadu estymatorw nieparametrycznych

Kaplana-Meiera,

oraz Flemingtona-Harringtona.

Wektory obserwacji oraz zmiennych cenzurujcych s 30-elementowe i pochodz z nastpujcychrozkadw:

wykadniczego - Exp(0.05),

oraz Weibulla(0.05,0.5).

A1=plot_unbiased_survival(30, 0.05, 0.05, N=10000, xlab=60)A2=plot_unbiased_survival(30, 0.05, 0.05, N=10000, xlab=100, p1=0.5, p2=0.5)A3=plot_unbiased_survival(30, 0.05, 0.05, N=10000, xlab=60,method="fleming-harrington")A4=plot_unbiased_survival(30, 0.05, 0.05, N=10000, xlab=100,method="fleming-harrington",p1=0.5, p2=0.5)A5=plot_unbiased_survival(30, 0.05, 0.05, N=10000, xlab=60, p2=0.5)

23

A6=plot_unbiased_survival(30, 0.05, 0.05, N=10000, xlab=60, p1=0.5)A7=plot_unbiased_survival(30, 0.05, 0.05, N=10000, xlab=60, p2=0.5,method="fleming-harrington")A8=plot_unbiased_survival(30, 0.05, 0.05, N=10000, xlab=60, p1=0.5,method="fleming-harrington")

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58

0.0

0.2

0.4

0.6

0.8

1.0

czas

S(t

)

0 10 20 30 40 50 60

0.01

0.02

0.03

0.04

czas

gest

osc

0 10 20 30 40 50 60

0.2

0.4

0.6

0.8

czas

funk

cja

prze

zyci

a

Rysunek 2.1: Na grze: Estymator Kaplana-Meiera i rzeczywista funkcja przeycia dla zmien-nych z rozkadu wykadniczego Exp(0.05) z cenzurowaniem wykadniczym Exp(0.05) na podsta-wie 10000-krotnej symulacji, przy liczbie generowanych obserwacji rwnej 30. Na dole: Gstoi funkcja przeycia dla rozkadu Exp(0.05).

Rysunki 2.1 - 2.8 prezentuj wyniki dla przeprowadzonych symulacji. Podstawowym celem bada-nia bya weryfikacja hipotezy o obcionoci estymatorw nieparametrycznych. Przy przyjtychzaoeniach (odnonie generowanych rozkadw, sposobu cenzurowania) otrzymaam nastpu-jce wyniki (podsumowanie znajduje si rwnie w tabelce 2.1):

1. Estymatory funkcji przeycia S(t) dla duych wartoci t (od t1) s niedoszacowane. Dlazmiennych z rozkadu wykadniczego X, t1 w przyblieniu wynosi EX + 34

Var(X)

24

1 5 9 14 19 24 29 34 39 44 49 54 59 64 69 74 79 84 89 94 99

0.0

0.2

0.4

0.6

0.8

1.0

czas

S(t

)

0 20 40 60 80 100

0.00

0.02

0.04

0.06

0.08

czas

gest

osc

0 20 40 60 80 100

0.1

0.3

0.5

0.7

czas

funk

cja

prze

zyci

a

Rysunek 2.2: Na grze: Estymator Kaplana-Meiera a rzeczywista funkcja przeycia dla zmien-nych z rozkadu Weibulla z = 0.05 i k = 0.5 oraz cenzurowaniem z tego samego rozkadu, napodstawie 10000-krotnej symulacji, n = 30. Na dole: Gsto i funkcja przeycia dla rozkaduWeibull(0.05,0.5).

(dla przyjtych i k: E(X) + 34

Var(X) = 351), dla rozkadu Weibulla Y (EY = 40,V ar(Y ) 90) t1 = cEY , gdzie c (34 ,

32). Przedstawione wzory zostay dopasowane

do konkretnego przypadku i nie musz by ogln wasnoci.

2. Estymator Flemingtona-Harringtona dodatkowo przeszacowuje watroci S(t) mniejsze odt1 i wiksze od t0 (4, 5).

3. Estymator Kaplana-Meiera zachowuje si lepiej dla maych wartoci t ni estymator

1Dla rozkadu wykadniczego EX = 1

, Var(X) = 12

. Zatem dla X Exp(0.05), EX = 20, VarX = 400. Dlarozkadu Weibulla EY = (1 + 1

k) 1

, Var(Y ) = (1 + 2k

) 12 EY .

25

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58

0.0

0.2

0.4

0.6

0.8

1.0

czas

S(t

)

0 10 20 30 40 50 60

0.01

0.02

0.03

0.04

czas

gest

osc

0 10 20 30 40 50 60

0.2

0.4

0.6

0.8

czas

funk

cja

prze

zyci

a

Rysunek 2.3: Na grze: Estymator Flemingtona-Harringtona i rzeczywista funkcja przeycia dlazmiennych z rozkadu wykadniczego z = 0.05 oraz cenzurowaniem z tego samego rozkadu,na podstawie 10000-krotnej symulacji, n = 30. Na dole: Gsto i funkcja przeycia dla rozkaduExp(0.05).

Flemingtona-Harringtona.

2.2. Badanie mocy testu log-rank

W tej czci pracy badam moc testu log-rank dla konkretnych rozkadw, dugoci podprb istopnia cenzurowania. Moc testu to prawdopodobiestwo nie popenienia bdu drugiego rodza-ju, czyli prawdopodobiestwo odrzucenia hipotezy zerowej, gdy jest ona nieprawdziwa.

Symulacyjnie sprawdzam jak na moc testu log-rank wpywa cenzurowanie. Do badania uy-wam zaimplementowanej przeze mnie funkcji logrankplotdep() (dodatek 2.2). Badanie polega

26

1 5 9 14 19 24 29 34 39 44 49 54 59 64 69 74 79 84 89 94 99

0.0

0.2

0.4

0.6

0.8

1.0

czas

S(t

)

0 20 40 60 80 100

0.00

0.02

0.04

0.06

0.08

czas

gest

osc

0 20 40 60 80 100

0.1

0.3

0.5

0.7

czas

funk

cja

prze

zyci

a

Rysunek 2.4: Na grze: Estymator Flemingtona-Harringtona i rzeczywista funkcja przeyciadla zmiennych z rozkadu Weibulla z = 0.05 i k = 0.5 oraz cenzurowaniem z tego samegorozkadu, na podstawie 10000-krotnej symulacji, n = 30. Na dole: Gsto i funkcja przeyciadla rozkadu Weibull(0.05,0.5).

na tym, e N razy (tutaj N = 10000), dla kadego poziomu cenzurowania, generuje si dwiepodprby o okrelonej dugoci oraz rozkad cenzurujcy (ktry jest zmienn losow z rozkaduWeibulla lub wykadniczego). Ponadto losowo wybiera si zmienne, ktre poddawane s cenzu-rowaniu. Wyniki testu log-rank, na poziomie istotnoci 0.05, dla tak wygenerowanych podprbpozwalaj na obliczenie mocy testu w zalenoci od procentu cenzurowania danych. Symulacje(S1) przeprowadzam dla (szczegy rwnie w tabeli 2.2)

podprb, ktre maj po 30 obserwacji,

pochodzcych z rozkadw Exp(0.03) i Exp(0.08),

27

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58

0.0

0.2

0.4

0.6

0.8

1.0

czas

S(t

)

0 10 20 30 40 50 60

0.01

0.02

0.03

0.04

czas

gest

osc

0 10 20 30 40 50 60

0.2

0.4

0.6

0.8

czas

funk

cja

prze

zyci

a

Rysunek 2.5: Na grze: Estymator Kaplana-Meiera i rzeczywista funkcja przeycia dla zmien-nych z rozkadu wykadniczego Exp(0.05) z cenzurowaniem z rozkadu Weibulla = 0.05,k = 0.5 na podstawie 10000-krotnej symulacji, przy liczbie generowanych obserwacji rwnej 30.Na dole: Gsto i funkcja przeycia dla rozkadu Exp(0.05).

oraz rozkadu cenzurujcego z Exp(0.1).

#S1Logrankplotdep(30, 30, 0.03, 0.08, 0.1, m=100, NN=10000, var="censoring")

Wyniki znajduj si na wykresie 2.9. Wraz ze wzrostem cenzurowania w badanym zakresieparametrw, moc testu maleje w tempie 0.62 i dla poziomu cenzurowania 45 50% znajdujesi midzy 70 75%.2Tempo zmiany (a) zostao uzyskane za pomoc regresji liniowej postaci y = at+ const. dla zmiennej y - moc

testu, t - poziom cenzurowania.

28

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58

0.0

0.2

0.4

0.6

0.8

1.0

czas

S(t

)

0 10 20 30 40 50 60

0.00

0.02

0.04

0.06

0.08

czas

gest

osc

0 10 20 30 40 50 60

0.2

0.4

0.6

0.8

czas

funk

cja

prze

zyci

a

Rysunek 2.6: Na grze: Estymator Kaplana-Meiera a rzeczywista funkcja przeycia dla zmien-nych z rozkadu Weibulla z = 0.05 i k = 0.5 z cenzurowaniem z rozkadu wykadniczego = 0.05, na podstawie 10000-krotnej symulacji, n = 30. Na dole: Gsto i funkcja przeyciadla rozkadu Weibull(0.05,0.5).

Interesujce wydaje si rwnie zagadnienie, jak zmienia si moc testu log-rank w zalenociod dugoci podprb. W funkcji logrankplotdep() dostpny jest parametr var=observlength,ktry pozwala na przeprowadzanie tego typu analiz. Generuj wic dane do symulacji S2 (patrzrwnie tabela 2.2) o nastpujcych wasnociach:

podprby (rwnej dugoci) pochodz z rozkadw Exp(0.03) i Exp(0.06),

rozkad cenzurujcy to zmienna losowa z Exp(0.02),

dugo podprb waha si midzy 10 110 dla kadej podprby.

29

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58

0.0

0.2

0.4

0.6

0.8

1.0

czas

S(t

)

0 10 20 30 40 50 60

0.01

0.02

0.03

0.04

czas

gest

osc

0 10 20 30 40 50 60

0.2

0.4

0.6

0.8

czas

funk

cja

prze

zyci

a

Rysunek 2.7: Na grze: Estymator Fleminga-Harringtona i rzeczywista funkcja przeycia dlazmiennych z rozkadu wykadniczego Exp(0.05) z cenzurowaniem z rozkadu Weibulla = 0.5,k = 0.5 na podstawie 10000-krotnej symulacji, przy liczbie generowanych obserwacji rwnej 30.Na dole: Gsto i funkcja przeycia dla rozkadu Exp(0.05).

#S2Logrankplotdep(10, 110, 0.03, 0.06, 0.02, m=100, NN=10000, var="observlength")

Rezultat mona obejrze na rysunku 2.9. Moc testu ronie w tempie logarytmicznym (krzywadopasowania to y = 35.41 log(x) 61.93) i ju dla podprb o dugociach po 70 obserwacjiosiga 90%.

Ostatni zalenoci jak badam jest zaleno midzy moc testu log-rank a rnicami wparametrze rozkadu podprb (S3). W tym przypadku podprby pochodz z rozkadu wykad-niczego oraz

maj po 50 obserwacji,

30

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58

0.0

0.2

0.4

0.6

0.8

1.0

czas

S(t

)

0 10 20 30 40 50 60

0.00

0.02

0.04

0.06

0.08

czas

gest

osc

0 10 20 30 40 50 60

0.2

0.4

0.6

0.8

czas

funk

cja

prze

zyci

a

Rysunek 2.8: Na grze: Estymator Fleminga-Harringtona i rzeczywista funkcja przeycia dlazmiennych z rozkadu Weibulla z = 0.05 i k = 0.5 z cenzurowaniem z rozkadu wykadniczego = 0.05, na podstawie 10000-krotnej symulacji, n = 30. Na dole: Gsto i funkcja przeyciadla rozkadu Weibull(0.05,0.5).

rozkad cenzurujcy to Exp(0.01),

rozkad pierwszy to Exp(0.01), a drugi waha si od Exp(0.011) do Exp(0.1).

#S3Logrankplotdep(50, 50, 0.01, 0.1, 0.01, m=100, NN=10000, var="lambdadistance")

Wykres dla tej symulacji znajduje si na rysunku 2.9. Dla maych rnic w parametrze (mniejszych od 0.02) zaleno jest zbliona do logarytmicznej (dopasowanie: y = 38.44 log(x)+249.33), a dla rnic 0.02 i wikszych moc testu jest w zasadzie 100%.

31

Rozkady: symulowany-cenzurujcy Kaplan-Meier Flemington-Harrington

Exp(0.05)-Exp(0.05) niedoszacowuje dla t > 30 niedoszacowuje dla t > 35przeszacowuje dla t (5, 35)

Exp(0.05)-Weibull(0.05,0.5) niedoszacowuje dla t > 35 niedoszacowuje dla t > 45przeszacowuje dla t (5, 45)

Weibull(0.05,0.5)-Exp(0.05) niedoszacowuje dla t > 35 niedoszacowuje dla t > 40przeszacowuje dla t (4, 40)

Weibull(0.05,0.5)-Weibull(0.05,0.5) niedoszacowuje dla t > 50 niedoszacowuje dla t > 60przeszacowuje dla t < 60

Tabela 2.1: Wyniki symulacji na obciono estymatorw nieparametrycznych.

Nazwa symulacji S1 S2 S3

liczba obserwacji - podprba 1 30 10 110 50liczba obserwacji - podprba 2 30 10 110 50Parametr rozkadu Exp() dla podprby 1 0.03 0.03 0.01Parametr rozkadu Exp() dla podprby 2 0.08 0.06 0.011 0.1Parametr rozkadu Exp() dla rozkadu cenzurujcego 0.1 0.02 0.01Liczba obserwacji porwnywanych z rozkadem cenzurujcym 1 30 wszystkie wszystkie

Tabela 2.2: Charakterystyka danych uytych do symulacji mocy testu log-rank.

2.3. Bootstrapowe badanie modelu parametrycznego

W tej czci rozdziau badam zachowanie si estymatorw w modelu parametrycznym. Estymujmodel na dwch prbach pochodzcych z rnych rozkadw wykadniczych:

prba pierwsza z Exp(1),

oraz prba druga z Exp(2).

Zmienn objaniajc jest zmienna binarna rnicujca obie prby (prba 2 jest prb bazow).Dodatkowo w modelu wystpuje staa. Model jest wic nastpujcej postaci:

log(T ) 0 + 1x+ log(), (2.1)

gdzie pochodzi z rozkadu Exp(1), a prawdziwymi wartociami parametrw s

1 = log(21

), 0 = log(2). (2.2)

Analiz przeprowadzam metod bootstrap. Losuj ze zwracaniem podprb ze zbioru danych(tu zbiorem danych s obie prby) i tylko na tej podprbie estymuj model 2.1. Powtarzajct czynno N razy (przyjmuj N = 999) otrzymuj rozkad estymatorw parametrw modelu.W ten sposb badam zachowanie 1 w zalenoci od stopnia cenzurowania i liczby obserwacjiw kadej z prb.

Zakadam, e zmienne cenzurujce pochodz z rozkadu wykadniczego Exp(3). Symulacjeprzeprowadzam dla rnych wartoci 3 oraz na nastpujcych danych:

prby maj po 300 obserwacji,

prba pierwsza pochodzi z rozkadu Exp(0.08), a druga z Exp(0.04),

32

Dlugosc proby

Moc

test

u

20

40

60

80

20 40 60 80 100

Roznica miedzy parametrem lambda

Moc

test

u

20

40

60

80

0.01 0.02 0.03

Procent obserwacji cenzurowanych

Moc

test

u20

40

60

80

10 20 30 40 50 60

Rysunek 2.9: Moc testu w zalenoci od procentu obserwacji cenzurowanych (S1), dugoci prby(S2) i rnicy midzy parametrem lambda w podprbach (S3) na podstawie symulacji (N =10000 dla kadego poziomu zmiennej). Charakterystyki danych generowanych do wykresw S1,S2, S3 znajduj si w tabeli 2.2.

moliwe wartoci 3 to 0.01, 0.05, 0.08 oraz 0.1.

W tym celu uywam zaimplementowanej przeze mnie funkcji bootBeta() (dodatek A.3).

a1=bootBeta(300,0.08,0.04,0.01, p1=1, p3=1)a2=bootBeta(300,0.08,0.04,0.05)a3=bootBeta(300,0.08,0.04,0.08)a4=bootBeta(300,0.08,0.04,0.10)

Przeprowadzam cztery identyczne symulacje - ich wynik znajduje si na rysunku 2.10. Prze-rywan lini zaznaczony jest prawdziwy parametr 1, ktry dla tych symulacji wynosi 1 =log

(21

)= 0.69. Wnioski z dowiadczenia s nastpujce:

33

1. Im wikszy jest parametr 3 (rozkad cenzurujcy ma mniejsz redni), tym rozkad 1jest bardziej rozproszony.

2. Rozkad 1 jest niestabilny - raz estymator jest przeszacowany, raz niedoszacowany. Modydopasowanych rozkadw zazwyczaj nie pokrywaj si z prawdziw wartoci estymatora,bez wzgldu na rozkad cenzurujcy.

W drugiej czci badania bootstrapowego, sprawdzam, jak na rozkad estymatora 1 wpywaliczba obserwacji w kadej z prb. Dane generowane s z rozkadw wykadniczych tak, e

prba pierwsza jest z Exp(0.08), druga z Exp(0.06),

rozkad cenzurujcy to Exp(0.01),

obie prby s rwnej dugoci i moliwe liczby obserwacji dla kadej z prb to 50, 100,400 oraz 1000.

a1=bootBeta(50,0.08,0.06,0.01)a2=bootBeta(100,0.08,0.06,0.01)a3=bootBeta(400,0.08,0.06,0.01)a4=bootBeta(1000,0.08,0.06,0.01)

Rysunek 2.11 przedstawia wyniki czterech takich symulacji. Wynikaj z nich nastpujce wa-snoci:

1. Im wiksza liczba obserwacji w kadej z prb, tym rozkad 1 jest bardziej skupiony wokprawdziwej wartoci 1.

2. Dla 1000 obserwacji w kadej z prb rozkad ma mod w 1 oraz jest symetryczny i ostosunkowo maej wariancji. W pozostaych przypadkach rozkady odznaczaj si wiksznieregularnoci, bywaj zarwno przeszacowane i niedoszacowane w zalenoci od symu-lacji.

34

1.2 1.0 0.8 0.6 0.4

01

23

4

Parametr beta

gest

osc

0.010.050.080.1

1.2 1.0 0.8 0.6 0.4

01

23

4

Parametr beta

gest

osc

1.2 1.0 0.8 0.6 0.4

01

23

4

Parametr beta

gest

osc

1.2 1.0 0.8 0.6 0.4

01

23

4

Parametr beta

gest

osc

Rysunek 2.10: Rozkad parametru 1 dla rnych poziomw cenzurowania. Cztery identycznesymulacje przeprowadzone metod bootstrap na danych o nastpujcych charakterystykach:dwie prby 300 elementowe z rozkadw Exp(0.08) oraz Exp(0.04).

35

1.5 1.0 0.5 0.0 0.5

02

46

8

Parametr beta

gest

osc Dlugosc proby

501004001000

1.5 1.0 0.5 0.0 0.50

24

68

Parametr beta

gest

osc

1.5 1.0 0.5 0.0 0.5

02

46

8

Parametr beta

gest

osc

1.5 1.0 0.5 0.0 0.5

02

46

8

Parametr beta

gest

osc

Rysunek 2.11: Rozkad parametru 1 dla rnej liczby obserwacji w prbach. Cztery identycznesymulacje przeprowadzone metod bootstrap na danych o nastpujcych charakterystykach:dwie prby o rwniej dugoci z rozkadw Exp(0.08) oraz Exp(0.06) cenzurowane rozkademExp(0.01).

36

Rozdzia 3

Analiza danych rzeczywistych

3.1. Opis zbioru danych

W tym rozdziale przeprowadziam analiz przeycia na danych rzeczywistych zawierajcychinformacje o pacjentkach chorych na raka piersi. Dane pochodz z Dolnolskiego CentrumOnkologii i s zbierane po 2000 roku. Kada obserwacja dotyczy jednej pacjentki i zawierazarwno informacje zwizane z rozwojem choroby, takie jak np. data rozpoznania choroby,data nawrotu choroby, wielko guza, data mierci - jeli nastpia, jak rwnie informacje zwywiadu rodzinnego i charakterystyki jednostki tj. m. in. wystpowanie raka piersi w wywiadzierodzinnym czy liczba porodw. Mamy zatem do czynienia zarwno ze zmiennymi binarnymi(wystpowanie przerzutw w wzach), jakociowymi (typ raka) oraz ilociowymi (wiek, liczbaporodw). Tabela 3.1 zawiera fragment analizowanego zbioru oraz podstawowe statystyki dlakadej zmiennej.

Dane dotycz pewnego przedziau czasowego. Interesuje nas dugo ycia chorych, wicmodelowanym zdarzeniem jest mier pacjentki. Cz z badanych pacjentek nie umara w ana-lizowanym okresie. Dane dla tych pacjentek stanowi wic obserwacje cenzurowane - przyjmuj,e cenzurowanie nastpio w dniu ostatniej wizyty kontrolnej. Ponadto jedna pacjentka zginaz przyczyn niezwizanych z chorob, tu rwnie przyjmuj, e cenzurowanie nastpio w chwilijej mierci. Konstruuj nowe zmienne:

zmienn czas do zdarzenia, ktra jest dugoci ycia od chwili wykrycia raka (dla zmien-nych cenzurowanych jest to dugo ycia od chwili wykrycia do ostatniej zarejestrowanejwizyty) mierzon w miesicach,

oraz zmienn binarn zdarzenie zawierajc informacje o cenzurowaniu. Zdarzenie=1, gdyobserwacja nie bya cenzurowana, 0 w p.p.

Zbir skada si z 260 obserwacji, z czego tylko 26 pacjentek umaro z powodu raka piersiw okresie badania, 90% wszystkich obserwacji jest wic cenzurowanych prawostronnie! Drugimspostrzeeniem, jakie nasuwa si podczas wstpnej analizy danych (tabela 3.1) jest fakt, etylko u 12 pacjentek wystpiy inne (poza rakiem piersi) nowotwory w wywiadzie rodzinnym iwszystkie te obserwacje byy cenzurowane. Wykluczam wic zmienn odpowiadajca tej cesze zdalszych analiz. Zmienna typ raka jest zmienn jakociow, zawierajc 9 rodzajw raka piersi(m. in. typ d, d+l, metaplastic, papillare, itp.). Wikszo tych rodzajw wystpuje jednakstosunkowo rzadko typ d odnotowano dla 182 obserwacji, pozostae wystpiy cznie u 78pacjentek. Dlatego zdecydowaam si zastpi typ raka now zmienn objaniajc - typ d,przyjmujc warto jeden, jeli typ raka to d i zero w przeciwnym przypadku.

37

Prz

erzu

tyw

wez

ach

Wie

lko

gu

zaw

mm

pT

Typ

raka

wg

WH

OR

akp

iers

iw

wyw

iad

zie

rod

zin

nym

Inn

en

owot

wor

yw

w.r

.O

kres

akty

wn

oci

hor

mon

aln

ejM

enop

auza

011

d0

028

01

45d

10

371

030

l0

036

11

15d

00

381

125

d0

031

00

15l

01

361

Lic

zba

por

odw

Lic

zba

por

onie

W

iek

wm

omen

cie

rozp

ozn

ania

Dat

aro

zpoz

nan

iaD

ata

naw

rotu

Dat

azg

onu

Zd

arze

nie

Cza

sd

ozd

arze

nia

00

4214

.05.

2003

bez

naw

rotu

zyje

070

20

8015

.04.

2005

bez

naw

rotu

zyje

034

30

6409

.06.

2004

bez

naw

rotu

zyje

044

11

7421

.05.

2004

01.1

1.20

0520

06-0

5-11

124

20

4716

.04.

2004

bez

naw

rotu

zyje

059

10

5119

.,3.

2004

bez

naw

rotu

zyje

060

Zd

arze

nie

Zd

arze

nie

Zd

arze

nie

Zd

arze

nie

Zd

arze

nie

Prz

erzu

tyw

wz

ach

01

Rak

pie

rsi

wro

dzi

nie

01

Inn

en

owot

wor

yw

rod

zin

ie0

1M

enop

auza

01

Raz

em0

10

145

40

229

250

222

260

962

234

261

8922

15

11

120

113

824

Zd

arze

nie

Zd

arze

nie

Zda

rzen

ieT

ypra

ka0

1L

iczb

ap

orod

w0

1L

iczb

ap

oron

ie

01

d16

022

023

10

167

16d

+l

30

156

51

525

d+

mu

c2

02

106

72

124

l46

33

3110

32

0m

ed.

70

412

34

00

met

apla

stic

20

55

05

01

mu

c7

06

10

60

0p

apilla

re2

07

00

70

0tu

b5

18

00

81

0

Wie

lko

gu

zaM

in.

1K

w.

Med

ian

a

red

nia

3K

w.

Max

.2.

0013

.00

17.0

020

.12

25.0

080

.00

Wie

kM

in.

1K

w.

Med

ian

a

red

nia

3K

w.

Max

.29

.00

49.7

557

.00

57.9

268

.00

80.0

0O

kres

akty

wn

oci

hor

mon

aln

ejM

in.

1K

w.

Med

ian

a

red

nia

3K

w.

Max

.17

.00

31.0

035

.00

34.2

538

.00

50.0

0

Tab

ela

3.1:

Na

grz

e:Fr

agm

ent

anal

izow

anyc

hda

nych

-in

form

acje

opa

cjen

tkac

hch

oryc

hna

raka

pier

si.

Na

dole

:p

odst

awow

est

atys

tyki

zmie

nnyc

hz

tego

zbio

ruda

nych

-cz

sto

ci

dla

zmie

nnyc

hdy

skre

tnyc

h,r

edni

ei

kwan

tyle

dla

zmie

nnyc

hci

gy

ch.

38

3.2. Estymatory funkcji przeycia dla pacjentek z rakiem piersi

Na pocztek wyznaczam estymatory funkcji przeycia dla analizowanych danych.

library(survival)par(mfrow=c(1,2))km=survfit(Surv(A$time_month,A$event)~1, type="kaplan-meier")fh=survfit(Surv(A$time_month,A$event)~1, type="fleming-harrington")plot(km,col=4, xlab="time",ylab="S(t)", main="Estymator Kaplana-Meiera", ylim=c(0.84,1))plot(fh,col=3, xlab="time",ylab="S(t)", main="Estymator Harringtona-Flemingtona", ylim=c(0.84,1))

Rysunek 3.1 przedstawia wyniki estymacji metodami Kaplana-Meiera i Harringtona-Flemingtona.Interesuje mnie, ktre zmienne dobrze rnicuj rozkad umieralnoci na raka. Rysuj wic do-

0 10 20 30 40 50 60 70

0.85

0.90

0.95

1.00

Estymator KaplanaMeiera

time

S(t

)

0 10 20 30 40 50 60 70

0.85

0.90

0.95

1.00

Estymator HarringtonaFlemingtona

time

S(t

)

Rysunek 3.1: Estymatory funkcji przeycia dla pacjentek z rakiem piersi.

datkowo estymatory funkcji przeycia, osobno dla pacjentek z przerzutami i bez przerzutw -rysunek 3.2.

km=survfit(Surv(A$time_month,A$event)~A$Przerzuty, type="kaplan-meier", conf.type="none")fh=survfit(Surv(A$time_month,A$event)~A$Przerzuty, type="fleming-harrington", conf.type="none")plot(km, col=c(3,2), xlab="time",ylab="S(t)", main="Estymator Kaplana-Meiera", ylim=c(0.75,1))legend(27,0.96, c("Bez przerzutow", "Z przerzutami"), col=c(3,2), lty=1, bty="n")plot(fh, col=c(3,2), xlab="time",ylab="S(t)", main="Estymator Flemigtona-Harringtona", ylim=c(0.75,1))legend(27,0.96, c("Bez przerzutow", "Z przerzutami"), col=c(3,2), lty=1, bty="n")

Wida, e estymator krzywej przeycia dla obserwacji, u ktrych wystpiy przerzuty jest bar-dziej stromy ni dla obserwacji bez przerzutw. Pacjentki z przerzutami odznaczaj si wicwiksz umieralnoci.

Intuicyjne wydaje si, e wiek pacjentki moe by wanym czynnikiem rnicujcym wkontekcie umieralnoci na raka piersi. W zbiorze danych znajduje si zmienna wiek w momencierozpoznania (w skrcie bd j nazywa wiek), ktr mona w zasadzie traktowa jako zmienn

39

0 10 20 30 40 50 60 70

0.75

0.80

0.85

0.90

0.95

1.00

Estymator KaplanaMeiera

time

S(t

)

Bez przerzutowZ przerzutami

0 10 20 30 40 50 60 700.

750.

800.

850.

900.

951.

00

Estymator FlemigtonaHarringtona

time

S(t

)

Bez przerzutowZ przerzutami

Rysunek 3.2: Estymatory funkcji przeycia dla pacjentek z rakiem piersi, osobno dla pacjentek,u ktrych wystpiy przerzuty i dla pacjentek bez przerzutw.

cig. Chcc zobaczy, jak wygldaj estymatory krzywych przeycia dla kobiet w rnymwieku, wprowadzam nastpujcy podzia:

pacjentki do 50 lat,

pacjentki midzy 51-64 rokiem ycia,

pacjentki w wieku 65 lat i starsze.1

Rysunek 3.3 przedstawia te estymatory w oparciu o powyszy podzia. Wida z niego, e osobychorujce na raka w pniejszym wieku podlej wikszemu ryzyku ni pacjentki modsze.

Jako ostatni cech rnicujc estymatory funkcji przeycia wybraam informacj o liczbieporonie u pacjentek. Osobno narysowaam estymatory funkcji przeycia dla obserwacji, u kt-rych wystpio chocia jedno poronienie, osobno dla pacjentek bez poronie. Wyniki znajdujsi na rysunku 3.4. W tym przypadku trudniej jest formuowa jednoznaczne wnioski dotyczcewpywu poronienia na ryzyko mierci - estymatory krzywych przeycia przecinaj si w parumiejscach. W porwnaniu z wiekiem i wystpowaniem przerzutw cecha ta, jeeli jakkolwiek,rnicuje najgorzej.

3.3. Testowanie rnic

We wczeniejszym podrozdziale, na podstawie wykresw estymatorw funkcji przeycia badaamwpyw niektrych zmiennych na miertelno pacjentek. Teraz wykorzystam bardziej formalnepodejcie i przetestuj moje wczeniejsze spostrzeenia testami rnic - przede wszystkim testemlog-rank.

1Zastosowany podzia oparty jest na kwantylach rozkadu wieku, 50 odpowiada kwantylowi 13 , a 65 -23 .

40

0 10 20 30 40 50 60 70

0.70

0.75

0.80

0.85

0.90

0.95

1.00

Estymator KaplanaMeiera

time

S(t

)

wiek

150516465

0 10 20 30 40 50 60 70

0.70

0.75

0.80

0.85

0.90

0.95

1.00

Estymator FlemigtonaHarringtona

time

S(t

)

wiek

150516465

Rysunek 3.3: Estymatory funkcji przeycia dla pacjentek z rakiem piersi, w zalenoci od wiekuw momencie rozpoznania.

Program R udostpnia funkcj survdiff () suc do testowania rnic midzy krzywymiprzeycia. Funkcja ta ma parametr rho z przedziau [0, 1], ktry nadaje wagi dla czasu wyst-powania zdarze, w ten sposb, e kada mier jest przemnaana przez S(t)rho . Dla rho=0survdiff () jest zwykym testem log-rank.

Jako pierwsz cech testuj wystpowanie przerzutw.

survdiff(formula = Surv(A[, 3], A[, 4]) ~ A$Przerzuty, rho = 0)

N Observed Expected (O-E)^2/E (O-E)^2/VA$Przerzuty=0 149 4 15.6 8.6 21.5A$Przerzuty=1 111 22 10.4 12.9 21.5

Chisq= 21.5 on 1 degrees of freedom, p=3.56e-06

P-warto jest w tym przypadku rzdu 106 zdecydowanie odrzucam wic hipotez zerow orwnoci krzywych przeycia dla pacjentek z przerzutami i bez przerzutw. Zauwaam rw-nie, e warto statystyki nie zmienia si znaczco wraz ze zmian rho (tj. gdy wiksz wagprzykada si do zdarze wczeniejszych).

survdiff(formula = Surv(A[, 3], A[, 4]) ~ A$Przerzuty, rho = 1)

N Observed Expected (O-E)^2/E (O-E)^2/VA$Przerzuty=0 149 3.7 14.80 8.33 21.8A$Przerzuty=1 111 21.0 9.92 12.43 21.8

Chisq= 21.8 on 1 degrees of freedom, p= 2.98e-06

41

0 10 20 30 40 50 60 70

0.85

0.90

0.95

1.00

Estymator KaplanaMeiera

time

S(t

)Bez poronienPoronienie

0 10 20 30 40 50 60 70

0.85

0.90

0.95

1.00

Estymator FlemigtonaHarringtona

time

S(t

)

Bez poronienPoronienie

Rysunek 3.4: Estymatory funkcji przeycia dla pacjentek z rakiem piersi, w zalenoci od tego,czy wystpio poronienie.

Std wniosek, e umieralno na raka piersi jest wiksza dla pacjentek z przerzutami ni bezprzerzutw.

Podobnie, test log-rank dla trzech poziomw wieku daje nastpujcy wynik:

survdiff(formula = Surv(A[, 1], A[, 2]) ~ wiek, rho = 0)

N Observed Expected (O-E)^2/E (O-E)^2/Vwiek=0 77 1 8.23 6.35 9.31wiek=1 95 4 9.74 3.39 5.42wiek=2 88 21 8.03 20.97 30.42

Chisq= 30.8 on 2 degrees of freedom, p= 2.06e-07

Silnie przemawia on za odrzuceniem hipotezy zerowej i wiksz miertelnoci pacjentek zapa-dajcych na chorob w pniejszym wieku.

Jeli chodzi o ostatni interesujc mnie cech, czyli wystpienie poronienia, tu wyniki nies ju takie jednoznaczne.

survdiff(formula = Surv(A[, 1], A[, 2]) ~ poronienie, rho = 0)

N Observed Expected (O-E)^2/E (O-E)^2/Vporonienie=0 183 16 18.48 0.332 1.15poronienie=1 77 10 7.52 0.814 1.15

Chisq= 1.1 on 1 degrees of freedom, p= 0.284

Przy p-wartoci na poziomie 0.05 nie ma postaw do odrzucenia hipotezy, e krzywe przeyciadla pacjentek u ktrych wystpio poronienie i bez poronie s takie same.

42

3.4. Model parametryczny

3.4.1. Wybr modelu

Na pocztku estymuj model z rozkadem Weibulla postaci 1.30 na wszystkich dostpnychzmiennych.

#Model P1

survreg(formula = Surv(A[, 1], A[, 2]) ~ 1 + przerzuty + wielkosc_guza +rak_piersi_w_rodzinie + okres_aktywnosci_hormonalnej + liczba_porodow +liczba_poronien + wiek + typ_d + menopauza, dist = "weibull")

Value Std.Error z p(Intercept) 10.7594 1.6303 6.5995 4.13e-11przerzuty -1.1077 0.3878 -2.8563 4.29e-03wielkosc_guza -0.0187 0.0120 -1.5579 1.19e-01rak_piersi_w_rodzinie 0.2697 0.7129 0.3783 7.05e-01okres_aktywnosci_hormonalnej 0.0177 0.0243 0.7302 4.65e-01liczba_porodow -0.1129 0.0861 -1.3118 1.90e-01liczba_poronien -0.0842 0.0893 -0.9433 3.46e-01wiek -0.0656 0.0233 -2.8187 4.82e-03typ_d -0.5191 0.3525 -1.4725 1.41e-01menopauza 0.0298 0.6514 0.0457 9.64e-01Log(scale) -0.4946 0.1779 -2.7805 5.43e-03

Scale= 0.61

Weibull distributionLoglik(model)= -157 Loglik(intercept only)= -187.7Chisq= 61.35 on 9 degrees of freedom, p= 7.4e-10

Number of Newton-Raphson Iterations: 10n= 260

Oraz taki sam model dla rozkadu wykadniczego o parametryzacji 1.28.

#Model P2

survreg(formula = Surv(A[, 1], A[, 2]) ~ 1 + przerzuty + wielkosc_guza +rak_piersi_w_rodzinie + okres_aktywnosci_hormonalnej + liczba_porodow +liczba_poronien + wiek + typ_d + menopauza, dist = "exponential")

Value Std.Error z p(Intercept) 14.65418 1.9555 7.49375 6.69e-14przerzuty -1.77552 0.5564 -3.19119 1.42e-03wielkosc_guza -0.02826 0.0190 -1.48425 1.38e-01rak_piersi_w_rodzinie 0.54487 1.1533 0.47244 6.37e-01okres_aktywnosci_hormonalnej 0.02823 0.0389 0.72513 4.68e-01liczba_porodow -0.19941 0.1412 -1.41181 1.58e-01liczba_poronien -0.10344 0.1493 -0.69290 4.88e-01wiek -0.10151 0.0333 -3.05006 2.29e-03typ_d -0.79647 0.5638 -1.41279 1.58e-01menopauza -0.00221 1.0542 -0.00209 9.98e-01

Scale fixed at 1

Exponential distributionLoglik(model)= -160.2 Loglik(intercept only)= -189.3

Chisq= 58.14 on 9 degrees of freedom, p= 3.1e-09

Number of Newton-Raphson Iterations: 7n= 260

Na podstawie logarytmu funkcji wiarygodnoci mona stwierdzi, e model z rozkadem Weibul-la jest lepiej dopasowany do danych ni model z rozkadem wykadniczym. Ponadto parametrskali (w rozkadzie wykadniczym bdcy sta rwn 1) okaza si istotny, w dalszej czcianaliz wykorzystuj wic rozkad Weibulla.

43

Na pocztku usuwam z modelu cz zmiennych nieistotnych, opierajc si na tecie Waldana poziomie istotnoci 0.2. Wynikiem jest nowy model postaci

#Model P3

survreg(formula = Surv(A[, 1], A[, 2]) ~ 1 + przerzuty + wielkosc_guza +liczba_porodow + wiek + typ_d, dist = "weibull")

Value Std.Error z p(Intercept) 11.1064 1.5409 7.21 5.69e-13przerzuty -1.1324 0.3898 -2.90 3.67e-03wielkosc_guza -0.0178 0.0103 -1.72 8.51e-02liczba_porodow -0.1027 0.0855 -1.20 2.30e-01wiek -0.0619 0.0170 -3.64 2.73e-04typ_d -0.5127 0.3458 -1.48 1.38e-01Log(scale) -0.4823 0.1772 -2.72 6.47e-03

Scale= 0.617

Weibull distributionLoglik(model)= -157.9 Loglik(intercept only)= -187.7

Chisq= 59.69 on 5 degrees of freedom, p= 1.4e-11

Number of Newton-Raphson Iterations: 9n= 260

Testem ilorazu wiarygodnoci testuj hipotez cznej istotnoci zmiennych: wielko guza, liczbaporodw oraz typ d.

anova(survreg(formula = Surv(A[, 1], A[, 2]) ~ 1 + wiek + przerzuty,dist = "weibull"), survreg(formula = Surv(A[, 1], A[, 2]) ~ 1 +

przerzuty + wielkosc_guza + liczba_porodow + wiek + typ_d, dist = "weibull"))

Terms Resid. Df1 1 + przerzuty + wiek 2562 1 + przerzuty + wielkosc_guza + liczba_porodow + wiek + typ_d 253

-2*LL Test Df Deviance P(>|Chi|)1 321.7587 NA NA NA2 315.7298+wielkosc_guza+liczba_porodow+typ_d 3 6.028893 0.1102129

P-warto wynosi 0.11, nie ma wic podstaw do odrzucenia hipotezy o zerowej wartoci wsp-czynnikw przy zmiennych: wielko guza, liczba porodw oraz typ d. Dostaj wic ostatecznymodel postaci

#Model P4

survreg(formula = Surv(A[, 1], A[, 2]) ~ 1 + wiek + przerzuty,dist = "weibull")

Coefficients:(Intercept) wiek przerzuty10.63759643 -0.06846531 -1.28940708

Scale= 0.6341682

Loglik(model)= -160.9 Loglik(intercept only)= -187.7Chisq= 53.66 on 2 degrees of freedom, p= 2.2e-12

n= 260

Zmienne wiek oraz przerzuty okazay si istotne. Potwierdzaj to rwnie wyniki testw log-rankoraz wykresy 3.2 i 3.3.

W funkcji survreg(), ktrej uywam do estymacji mog wprowadzi funkcj strata na okre-lonym parametrze. Sprawia ona, e parametr skali jest rny dla rnych wartoci tej zmiennej.Jeszcze raz estymuj model, tym razem jednak zmienna przerzuty suy do rnicowania para-metru skali.

#Model P5

44

survreg(formula = Surv(A[, 1], A[, 2]) ~ 1 + wiek + strata(przerzuty),dist = "weibull")

Coefficients:(Intercept) wiek9.12461526 -0.06275034

Scale:przerzuty=0 przerzuty=10.2385050 0.7303222

Loglik(model)= -158.6 Loglik(intercept only)= -175.5Chisq= 33.81 on 1 degrees of freedom, p= 6.1e-09

n= 260

Dwa ostatnie modele (P4 oraz P5) okazuj si by najlepiej dopasowane do danych. Model zezrnicowanymi parametrami skali (P5) ma najwysz warto logarytmu funkcji wiarygodnoci.Ze wzgldu na atwiejsz interpretacj parametrw w dalszej czci podrozdziau bd jednakodwoywa si do modelu P4. Interpretacja wartoci estymatorw znajduje si w podrozdziale3.4.3.

3.4.2. Diagnostyka

Wykres 3.5 zawiera residua martyngaowe (ich charakterystyka znajduje si w podrozdziale1.7.2). Dla wikszoci obserwacji residua te znajduj si w otoczeniu zera, co wiadczy o dobrymdopasowaniu modelu.2

3.4.3. Interpretacja parametrw ryzyko mierci

Na podstawie wzorw 1.31, 1.37 oraz parametrw uzyskanych w estymacji mog wyznaczywpyw poszczeglnych zmiennych na funkcj hazardu.

Przerzuty : exp ((1.28940708/0.6341682)) = 7.64

Wiek : exp ((0.06846531/0.6341682)) = 1.11

Powysze wyniki interpretuje si nastpujco:

Dla osb z przerzutami ryzyko mierci (zdefiniowane jako funkcja hazardu) jest ponad 7.6razy wiksze, ni dla osb bez przerzutw.

Gdy porwnuje si dwie osoby chore na raka piersi, gdzie jedna zachorowaa w wieku m lat,a druga k+m, ryzyko mierci osoby, ktra zachorowaa w pniejszym wieku jest wikszeok. 1.11k razy w porwnaniu z drug osob. Na przykad pacjentka, ktra zachorowaa wwieku 64 lat ma 1.116550 = 4.78 razy wiksze ryzyko mierci od osoby, ktra zachorowaaw wieku 50 lat, przy pozostaych charakterystykach identycznych dla obu kobiet.

3.5. Nieparametryczny model Coxa

W tym podrozdziale dane dotyczce pacjentek chorych na raka piersi estymuj nieparametrycz-nym modelem proporcjonalnego hazardu (modelem Coxa). Podczas przeprowadzania analizywzoruj si na [12].

2W podrozdziale 3.5, dotyczcym modelu Coxa, temat residuw zosta potraktowany bardziej szczegowo ianalizowanych jest wicej rodzajw residuw: residua deviance, residua Schoenfelda. Znajduj si tam rwniekody programu R uyte do liczenia rnych typw residuw, m. in. zaprezentowanych w tym podrozdziale residuwmartyngaowych.

45

Obserwacje

Res

idua

mar

tyng

alow

e

1.5

1.0

0.5

0.0

0.5

1.0

0 50 100 150 200 250

Rysunek 3.5: Residua martyngaowe dla modelu parametrycznego P4.

3.5.1. Wybr modelu

Na pocztku do objanienia zjawiska uywam wszystkich dostpnych zmiennych.

#Model Coxa 1

coxph(formula = Surv(A[, 1], A[, 2]) ~ przerzuty + wielkosc_guza + rak_piersi_w_rodzinie+ okres_aktywnosci_hormonalnej + menopauza + liczba_porodow + liczba_poronien + wiek + typ_d, method = "breslow")

coef exp(coef) se(coef) z pprzerzuty 1.8409 6.302 0.5549 3.317 0.00091wielkosc_guza 0.0319 1.032 0.0191 1.675 0.09400rak_piersi_w_rodzinie -0.5969 0.551 1.1715 -0.509 0.61000okres_aktywnosci_hormonalnej -0.0242 0.976 0.0402 -0.602 0.55000menopauza -0.1752 0.839 1.0656 -0.164 0.87000liczba_porodow 0.1967 1.217 0.1376 1.430 0.15000liczba_poronien 0.1103 1.117 0.1501 0.735 0.46000wiek 0.1120 1.118 0.0344 3.252 0.00110typ_d 0.8105 2.249 0.5683 1.426 0.15000

Likelihood ratio test=61 on 9 df, p=8.63e-10 n= 260

Zmienne rak piersi w rodzinie, menopauza, okres aktywnoci hormonalnej oraz liczba poronienie przechodz testu Walda na poziomie istotnoci 0.2. Estymuj wic model bez tych zmiennych.

#Model Coxa 2

coxph(formula = Surv(A[, 1], A[, 2]) ~ 1 + przerzuty + wielkosc_guza +liczba_porodow + wiek + typ_d, method = "breslow")

coef exp(coef) se(coef) z p

46

przerzuty 1.879 6.55 0.5467 3.44 5.9e-04wielkosc_guza 0.029 1.03 0.0163 1.79 7.4e-02liczba_porodow 0.184 1.20 0.1363 1.35 1.8e-01wiek 0.103 1.11 0.0230 4.46 8.2e-06typ_d 0.779 2.18 0.5514 1.41 1.6e-01

Likelihood ratio test=59.7 on 5 df, p=1.43e-11 n= 260

Testu ilorazu wiarygodnoci uywam do sprawdzenia cznej istotnoci zmiennych wielko guza,liczba porodw i typ d.

x2=2*coxph(Surv(A[,1],A[,2])~1+przerzuty+wiek,method="breslow")$loglik[2]-2*coxph(Surv(A[,1],A[,2])~1+przerzuty+wielkosc_guza+liczba_porodow+wiek+typ_d, method="breslow")$loglik[2]1-pchisq(-x2,3)

Otrzymuj p-warto rwn 0.11 - nie ma wic podstaw do odrzucenia hipotezy zerowej, ei = 0 dla tych zmiennych. Powyszy rezultat potwierdzaj rwnie testy Walda na poziomieistotnoci 0.05 dla poszczeglnych zmiennych. Ostatecznie estymuj wic model Coxa 3 nast-pujcej postaci:

#Model Coxa 3

coxph(formula = Surv(A[, 1], A[, 2]) ~ 1 + przerzuty + wiek, method = "breslow")

coef exp(coef) se(coef) z pprzerzuty 2.06 7.87 0.5451 3.78 1.5e-04wiek 0.11 1.12 0.0239 4.59 4.4e-06

Likelihood ratio test=53.6 on 2 df, p=2.26e-12 n= 260

Podobnie jak w modelu parametrycznym zmiennymi istotnymi okazay si wiek oraz przerzuty.

Badanie interakcji

Sprawdzam rwnie moliwe interakcje: przerzuty:wiek, przerzuty:wielko guza, liczba poro-dw:przerzuty, etc. Wszystkie okazuj si by nieistotne i nie zostaj uwzgldnione w modelu.

3.5.2. Badanie odpowiednioci skali parametrw cigych

Nastpnym krokiem jest zbadanie odpowiednioci skali dla zmiennych cigych znajdujcych siw modelu. W modelu Coxa 3 jest jedna zmienna ciga - wiek. Chc sprawdzi, czy nie wymagaona transformacji.

Jeli skala dla zmiennej cigej jest dobrze dobrana, zaleno midzy t zmienn, a lo-garytmem z funkcji hazardu powinna by liniowa. Odpowiednio skali mona bada na kilkasposobw. Poniej przedstawione s dwie metody, ktre zastosowaam w pracy.

Metoda pierwsza jest nastpujca: Naley zastpi zmienn cig kilkoma zmiennymi bi-narnymi dla rnych poziomw danej zmiennej. Tworzy si nowe zmienne z1, z2, z3, dobierajcodpowiednio Q1 < Q2 < Q3 < Q4 < Q5 (Q1, Q2, Q3, Q4, Q5 to zazwyczaj kwantyle odpowiednio0, 0.25, 0.5, 0.75, 1 rozkadu badanej zmiennej) tak, e zi = 1, gdy warto zmiennej naley doprzedziau [Qi+1, Qi+2), zi = 0 w pp. Ponownie estymuje si model, zastpujc badan zmienncig nowopowstaymi zmiennymi binarnymi. Na wykresie przedstawia si zaleno midzyregresorami dla zmiennych zi (dodatkowo dodajc zero, odpowiadajce regersorowi dla warto-ci zmiennej w [Q1, Q2)) oraz rodkami przedziaw [Q1, Q2), [Q2, Q3), [Q3, Q4), [Q4, Q5). Jeliskala jest liniowa, krzywa czca punkty na wykresie powinna by lini prost.

Drug metod badania odpowiednioci skali s wykresy uwzgldniajce zachowanie residu-w. Generuje si dwa wykresy. Pierwszy to

wykres zmiennej w zalenoci od residuw martyngaowych pochodzcych z modelu nie-uwzgldniajcego badanej zmiennej. Oczekiwan zalenoci jest zaleno linowa.

47

Konstrukcja drugiego wykresu odbywa si nastpujco:

1. Estymuje si model z uwzgldnieniem badanej zmiennej.

2. Zapamituje si residua martyngaowe (rmi) dla tego modelu.

3. Na ich podstawie oblicza si residuum Coxa-Snella: rci = irmi, gdzie zmienna binarnai = 1 przy braku cenzurowania dla obserwacji i.

4. Estymuje si wygadzon zaleno midzy wartociami i i badan zmienn - cLSM (ina osi y).

5. Estymuje si wygadzon zaleno midzy rci i badan zmienn - HLSM (rci na osi y).

6. Wartoci na osi y, uzyskane w dwch poprzednich krokach, s uyte do obliczenia yi, jako

yi = log(cLSMHLSM

)+ zmiennazmiennai (3.1)

7. Pary (yi, zmienna) przedstawia si na wykresie, a zaleno miedzy nimi powinna byliniowa.

Poniej znajduje si implementacja w programie R wyej opisanych metod do badania zmiennejwiek :#Metoda 1quantile(wiek,probs=c(0,0.25,0.5,0.75,1))# 0% 25% 50% 75% 100%# 29.00 49.75 57.00 68.00 80.00wiek.cat=rep(0,m)wiek.cat=rep(0,m)wiek.cat[wiek49.75 & wiek57.00 & wiek68.00]=4wiek.cat=factor(wiek.cat, labels=c("1","2","3","4"))contrasts(wiek.cat)=contr.treatment(4, base=1,contrasts=TRUE)c=coxph(Surv(A[,1],A[,2])~1+przerzuty+wiek.cat, method="breslow")x=c((49.75+min(wiek))/2,(49.75+57.00)/2,(57.00+68.00)/2,(68+max(wiek))/2)y=c(0,c$coefficients[2:4])par(mfrow=c(1,2))plot(x,y,type="l",xlim=c(29,80), xlab="wiek",ylab="regresory",col="forestgreen")

#Metoda2c=coxph(Surv(A[,1],A[,2])~przerzuty+wiek, method="breslow")c.mi=residuals(c,type="martingale")c.hi=A[,2]-c.mic.clsm=lowess(wiek,A[,2])c.hlsm=lowess(wiek, c.hi)c.yi=log(c.clsm$y/c.hlsm$y)+(c$coefficients[2]*wiek)c1=coxph(Surv(A[,1],A[,2])~przerzuty, method="breslow")c.mg=residuals(c1,type="martingale")plot(wiek,c.mg, ylab="rm_i", col="violetred3")lines(lowess(wiek,c.mg), col="steelblue")#plot(c.yi,wiek, xlab="y_i", col="steelblue")

Ostatni z wykresw (z drugiej metody) zosta pominity - nie jest on bowiem wiarygodny, zewzgldu na zbyt duy poziom cenzurowania danych (90%). Pozostae znajduj si na rysunku3.6. Wykres z prawej strony (metoda 1) jest zbliony do liniowego, natomiast wykres residuwmartyngaowych (metoda 2) jest mniej regularny. Moe to by jednak znw efekt wysokiegopoziomu cenzurowania danych. Transformacje zmiennej wiek metod Boxa-Coxa nie polepszajznaczco wynikw.3 Pozostawiam wic t zmienn w jej pierwotnej postaci.3Symulacyjnie wyznaczam tak warto p w przeksztaceniu Boxa-Coxa (x = x

p1p

, dla p 6= 0 i x = log(x),dla p = 0), ktra maksymalizuje funkcj wiarygodnoci. Znaleziona transformacja nie poprawia jednak istotniewykresu residuw matyngaowych vs. wiek, ani logarytmu funkcji wiarygodnoci.

48

30 40 50 60 70 80

0.0

0.5

1.0

1.5

2.0

2.5

3.0

wiek

regr

esor

y

30 40 50 60 70 80

1.

0

0.5

0.0

0.5

1.0

wiek

rm_i

Rysunek 3.6: Badanie odpowiednioci skali dla zmiennej wiek.

3.5.3. Testowanie zaoenia o proporcjonalnej funkcji hazardu

Nastpnym krokiem jest przetestowanie podstawowego zaoenia modelu Coxa - zaoenia, eparametr oraz bazowa funkcja hazardu s stae w czasie.

Jednym ze sposobw testowania proporcjonalnoci hazardu jest badanie wykresu zalenociprzeskalowanych residuw Schoenfelda (s one omwione w podrozdziale 1.7.4) od czasu wrazz dopasowan wygadzon funkcj zalenoci. Funkcja ta powinna by krzyw o nachyleniu ze-rowym (y = a, a = const.), gdzie warto a to w przyblieniu parametr i stojcy przy badanejzmiennej. W programie R (pakiet survival) znajduje si funkcja cox.zph(), ktra suy do testo-wania zaoenia o proporcjonalnym hazardzie, bazujca wanie na tym podejciu. Testuj wichipotez dla wszystkich zmiennych i caego modelu cznie.

cox.zph(c, global=TRUE)

rho chisq pprzerzuty -0.310 2.49 0.1149wiek -0.267 2.17 0.1409GLOBAL NA 4.92 0.0856

P-warto testu dla caego modelu wynosi 0.086, wic na poziomie istotnoci 0.05 nie ma pod-staw do odrzucenia hipotezy zerowej o jednakowym bazowym hazardzie dla wszystkich obser-wacji. Przy uyciu funkcji cox.zph() generuj wykresy Schoenfeld residuw dla zmiennych wieki przerzuty - rysunek 3.7. Krzywe dopasowania nie s do koca rwnolege do osi x.

Dla zmiennych dyskretnych zaoenie o proporcjonalnym hazardzie mona rwnie testowabadajc zaleno log ( log (S(t))) od czasu dla kadego poziomu zmiennej. Krzywe dla r-nych poziomw zmiennej powinny by do siebie rwnolege. W badanym modelu jedyn zmienndyskretn s przerzuty. Wykres log ( log (S(t))) dla pacjentek z przerzutami i bez przerzutw

49

Przerzuty

Time

Bet

a(t)

for

prze

rzut

y

14 23 30 41 53

4

2

02

46

Wiek

Time

Bet

a(t)

for

wie

k

14 23 30 41 53

0.

2

0.1

0.0

0.1

0.2

0.3

Rysunek 3.7: Testowanie zaoenia proporcjonalnego hazardu dla zmiennych wiek i przerzutyza pomoc wykresu residuw Schoenfelda.

znajduje si na rysunku 3.8. Badane krzywe wydaj si by rwnolege - nie ma wic podstawdo odrzucania hipotezy o proporcjonalnym hazardzie. Wynik jest bardziej rozstrzygajcy niwnioski z wykresu 3.7.