problem porównań wielokrotnych w badaniach naukowych dr … · Diagnozowanie chorób –np. 40...

19
© Copyright StatSoft Polska, 2016 Poziom istotności i granica rozsądku - problem porównań wielokrotnych w badaniach naukowych dr Dariusz Danel Instytut Immunologii i Terapii Doświadczalnej Polskiej Akademii Nauk Zastosowania statystyki i data mining w badaniach naukowych Warszawa, 12 października 2016

Transcript of problem porównań wielokrotnych w badaniach naukowych dr … · Diagnozowanie chorób –np. 40...

  • © Copyright StatSoft Polska, 2016

    Poziom istotności i granica rozsądku- problem porównań wielokrotnych

    w badaniach naukowych

    dr Dariusz Danel

    Instytut Immunologii i Terapii DoświadczalnejPolskiej Akademii Nauk

    Zastosowania statystyki i data mining w badaniach naukowych

    Warszawa, 12 października 2016

  • © Copyright StatSoft Polska, 2016

    Testowanie hipotez

    ■ Testowanie statystyczne (Stanisz 2006):

    1. formułowanie hipotezy zerowej (H0) oraz alternatywnej (H1)

    2. określenie poziomu istotności statystycznej,

    3. wyliczenie wartości testu statystycznego dla danych z próby,

    4. porównanie wartości testu z wartościami krytycznymi dla danego poziomu istotności,

    5. podjęcie decyzji o przyjęciu H0 lub jej odrzuceniu i przyjęciu H1na określonym poziomie istotności

  • © Copyright StatSoft Polska, 2016

    Poziom istotności statystycznej α i błąd I rodzaju

    ■ Prawdopodobieństwo uzyskania wyniku testu, który uprawnia do odrzucenia H0 i przyjęcia H1, gdy H0 jest poprawna,

    ■ Maksymalne akceptowalne ryzyko pomyłki (α)

    ■ pomyłka = błąd I rodzaju: nie da się go uniknąć

    ■ P(10 x orzeł na 10 rzutów rzetelną monetą) = 0,001

    ■ Poziom α (np. α = 0,05)

    ■ prawdopodobieństwo pojawienia się określonego (istotnego)wyniku przez czysty przypadek

    ■ prawdopodobieństwo pojawienia się wyniku fałszywieistotnego statystycznie („fałszywie pozytywnego”)

    ■ Poziom p – ryzyko pomyłki określone dla danego testu

    p < α wynik istotny statystycznie

  • © Copyright StatSoft Polska, 2016

    Błąd II rodzaju i wartość β

    ■ błąd II rodzaju = przyjęcie, „podtrzymanie” H0 w sytuacji gdy w rzeczywistości prawdziwą jest H1

    ■ Oznacza przeoczenie prawdziwego zjawiska

    ■ Zwyczajowo ryzyko pomyłki β = 0,20.

    ■ Można zminimalizować, ale bez przebadania całej populacji generalnej nie da się wykluczyć

  • © Copyright StatSoft Polska, 2016

    Błąd I rodzaju vs. Błąd II rodzaju

    ■ Zmniejszenie poziomu α powoduje zwiększenie poziomu β i odwrotnie

    ■ Zwyczajowo uważa się, że błąd I rodzaju jest groźniejszy,ponieważ podważa „bezpieczną” hipotezę zerową

    Grafika; http://grasshopper.com/blog/the-errors-of-ab-testing-your-conclusions-can-make-things-worse/

  • © Copyright StatSoft Polska, 2016

    Porównania wielokrotne – inflacja poziomu α.

    ■ Cel badań naukowych: odrzucić H0 i ogłosić światu nowe odkrycie

    Ryzyko pomylenia się α = 0,05 („zrobienia z siebie głupca” odrzucając prawdziwą H0)

    Prawdopodobieństwo „nie pomylenia się”: Pn = 1–α = 1–0,05 = 0,95

    Tylko dla pojedynczego testu!

    Przy k=2-krotnym testowaniu – koniunkcja zdarzeń:

    Prawdopodobieństwo „nie pomylenia się”: Pn = (1-0,05) x (1–0,05) = 0,952 = 0,9025

    Ryzyko pomylenia się co najmniej raz Pp = 1- 0,952 = 0,0975

    Przy k=6-krotnym testowaniu: Pp = 1-(1- α)k = 1-(1-0,05)6 = 0,265

    Sporo!

  • © Copyright StatSoft Polska, 2016

    Porównanie (testowanie) wielokrotne – praktyka badawcza, którapolega na wykorzystaniu tego samego zbioru danych doprzeprowadzenia więcej niż jednego testu statystycznego (Tukey,1977).

    ■ Przykład: Badanie istotności różnic płciowych w liczbie elementówmorfotycznych krwi

    ■ N=1000 ♀♀ + 1000 ♂♂

    ■ Porównanie liczby:

    ■ erytrocytów - ok

    ■ limfocytów - x

    ■ trombocyty - x

    ■ leukocyty - x

    Porównania wielokrotne – definicja

  • © Copyright StatSoft Polska, 2016

    Metody kontroli błędu I rodzaju

    ■ Eksperymenty czynnikowe typu ANOVA

    ■ Porównania wielokrotne między średnimi przeprowadzane są „z automatu” w ramach analizy post-hoc

    ■ Metody (w większości) pozwalają kontrolować błąd I rodzaju

    ■ Szczegółowy opis: Stanisz, 2007

  • © Copyright StatSoft Polska, 2016

    ■ Gdy brak formalnego modelu statystycznego:

    ■ Typowe porównania wielokrotne

    ■ Poprawka Bonferroniego

    ■ Poprawka Šidák’a

    ■ Poprawka Holm-Bonferroniego (sekwencyjna poprawka Bonferroniego)

    ■ Głowna zasada:

    ■ redukcja poziomu istotności statystycznej w zależności od liczby porównań

    ■ gdy rozpatrywana wartość testowa p jest mniejszaod zredukowanego poziomu α test jest

    istotny statystycznie

    Metody kontroli błędu I rodzaju

  • © Copyright StatSoft Polska, 2016

    ■ Poprawka Bonferroniego

    ■ Najpopularniejsza, najprostsza

    ■ Dla całej rodziny porównań redukuje poziom α według wzoru:

    α’ = α/k,

    gdzie k to liczba porównań wielokrotnych (testowanych hipotez)

    ■ Wynik istotny na poziomie α gdy p< α/k

    ■ Np. dla 5 porównań wielokrotnych zredukowany poziom istotności α=0,05 wynosi α’ = α/k = 0,05/5 = 0,01

    ■ Tylko wartości p

  • © Copyright StatSoft Polska, 2016

    Właściwości poprawek na porównania wielokrotne

    ■ Ze wzrostem liczby porównań znacznie obniża się progowy poziom α

    – są bardziej konserwatywne

    ■ Nie uwzględniają zasady:

    „kilka wartości p niewiele mniejszych niż α może być silniejszym wskaźnikiem istotności niż jedna niska wartość p”

    ■ Groźny „efekt uboczny”:zwiększenie ryzyka błędu II rodzaju

    Liczba porównań k

    Zredukowany poziom α=0,05

    5 α’=0,01

    10 α’=0,005

  • © Copyright StatSoft Polska, 2016

    Konsekwencje nierozsądnego stosowania poprawek

    ■ Filozoficzno-etyczne & finansowe

    ■ Nauki medyczne – zdrowie i życie:

    ■ Wykrycie większej skuteczność leczenia Metody A niż Metody B (p =0,02) zależy… od tego czy do porównań włączono Metodę C (α’ = 0,05/3 = 0,017)

    ■ Większa skuteczność nowego leku X niż leku Y zależy od tego ile innych leków włączono do porównań (ryzyko strat finansowych i szans na opracowanie nowego leku)

  • © Copyright StatSoft Polska, 2016

    ■ Uczciwość i rzetelność naukowa

    ■ „badacz jest karany za rzetelne i dokładne badania”

    ■ Np. 4 testy wielokrotne współczynników korelacji: p1 = 0,03; p2 =0,16; p3 = 0,26; p4 = 0,04

    ■ Zastosowanie poprawek brak wyników istotnych (α’ = 0,0125)

    Konsekwencje nierozsądnego stosowania poprawek

    Co robić???

    ■ Być uczciwym? Opisać rzetelnie badanie i walczyć (latami) o publikację nieistotnych wyników (publication bias)

    ■ Oszukać? Opisać tylko dwa istotne wyniki i zataić nieistotne (data fishing)

    ■ Pokombinować? Dla każdego istotnego wynikunapisać osobny artykuł (data slicing)

  • © Copyright StatSoft Polska, 2016

    1. Zachować zdrowy rozsądek

    ■ Rozsądna kontrola błędu α:

    ■ Diagnozowanie chorób – np. 40 testów, co najmniej 1 test istotny statystycznie: p=0,87

    ■ Badania psychologiczne – baterię testów

    ■ Eksploracja danych bez konkretnych hipotez badawczych

    Dylemat naukowca α czy β? co wybrać, co robić?

  • © Copyright StatSoft Polska, 2016

    2. Rozważyć liczbę testów istotnych stat., a nie tylko wartości p

    Uwaga i koncentracja (test D2 – 15 zmiennych), a aktywność układu autonomicznego (1 zmienna)

    „…kilka wartości p niewiele mniejszych niż α może być silniejszym wskaźnikiem istotności niż jedna niska wartość p…”

    Dylemat naukowca α czy β? co wybrać, co robić?

    7/15 wyników p

  • © Copyright StatSoft Polska, 2016

    3. Obliczyć wielkość efektu (effect size)

    p < α – informuje że badane zjawisko najprawdopodobniej istnieje

    p – nie mówi jak ważny/znaczący jest badany efekt

    Sposoby obliczenia wielkości efektu np. Nakagawa & Cuthill (2007), Sullivan & Fein (2012), STATISTICA

    Dylemat naukowca α czy β? co wybrać, co robić?

  • © Copyright StatSoft Polska, 2016

    4. Oszacować liczbę fałszywie przyjętych hipotezy alternatywnych

    ■ Koncepcja False Discovery Rate (FDR) i q-value

    ■ Podejście klasyczne – kontrola ryzyka odrzucenia przynajmniej 1 prawdziwej H0

    ■ Podejście FDR - kontrola frakcji wyników fałszywie istotnych

    Wynik fałszywie istotny – uznany za istotny gdy w rzeczywistości jest nieistotny (błąd I rodzaju)

    𝐹𝐷𝑅 =nwyników fałszywie istotnych stat.

    n wszystkich wynikówwyananych za istotnte stat.

    Dylemat naukowca α czy β? co wybrać, co robić?

  • © Copyright StatSoft Polska, 2016

    4. Oszacować liczbę fałszywie przyjętych hipotezy alternatywnych c.d.

    ■ Koncepcja False Discovery Rate (FDR) i q-value

    ■ q-value – prawdopodobieństwo, że określony wynik, który został nazwany istotnym jest w rzeczywistości nieistotny

    Gdy q mniejsze od wartości krytycznej np. q

  • © Copyright StatSoft Polska, 2016

    Podsumowanie

    ■ Wykonując porównania wielokrotne, częste w nauce, badacz naraża się na błąd I rodzaju, czyli wyniki przypadkowo istotne statystycznie.

    ■ Błąd I rodzaju jest groźny i należy go kontrolować.

    ■ Ale nie obsesyjne! (można przeoczyć ważnych efekty i zjawiska).

    ■ Istnieje wiele metod ułatwiających rozwiązanie problemu porównań wielokrotnych.

    ■ Nie ma metody uniwersalnej.

    ■ Pozostaje zachowanie zdrowego rozsądku.