Analizy statystyczne w pracach naukowych czego unikać, na...
Transcript of Analizy statystyczne w pracach naukowych czego unikać, na...
Analizy statystyczne w pracach naukowych – czego unikać, na co
zwracać uwagę. Statistics in academic papers, what to avoid and what to focus on.
dr Dominik M. Marciniak
Uniwersytet Medyczny im. Piastów Śląskich we Wrocławiu
Wydział Farmaceutyczny
Katedra i Zakład Technologii Postaci Leku
Najczęściej wykonywane analizy
statystyczne w naukach medycznych
Jednowymiarowe analizy klasyczne:
– Wyznaczanie statystyk opisowych (średnia, odchylenie standardowe, wariancja, mediana, moda, współczynnik zmienności, błąd standardowy, skośność, kurtoza, przedziały ufności, kwartyle, percentyle, itp.), określanie niepewności pomiarowych.
– Porównywanie dwóch średnich – testy t
– Porównywanie wielu średnich – analiza wariancji ANOVA
– Testy Chi-kwadrat
– Regresja linowa i korelacja
– Testy nieparametryczne
Ogólne modele liniowe i nieliniowe:
–Regresja liniowa i wieloraka
–Regresja nieliniowa
–Regresja logistyczna
–Wieloczynnikowa i wielowymiarowa analiza wariancji – MANOVA.
–Analiza kowariancji
–Analiza reszt
Analizy wielowymiarowe i przemysłowe:
–Analiza kanoniczna
–Analiza dyskryminacyjna i analiza głównych składowych
–Analiza czynnikowa
–Analiza skupień
–Analiza log-linowa
–Analiza korespondencji
–Analiza przeżycia
–Estymacja nieliniowa
Obecnie wszyscy jesteśmy
statystykami
dzięki rozbudowanym
programom komputerowym,
które sprowadzają
przeprowadzenie analizy
statystycznej do jednego
kliknięcia myszką.
Podstawowe pojęcia statystyczne Niepewności pomiarowe, cyfry znaczące: Każdy, nawet najprostszy wynik pomiaru powinien być
przedstawiany w następującej formie:
x = xnp +/- δx.
wartość zmierzona = najlepsze przybliżenie +/- niepewność (błąd pomiaru)
Najczęściej popełniane błędy dotyczą zapisów:
Wartość zmierzona = 9,82 +/- 0,03385 - niepoprawnie
Niepewności eksperymentalne powinny być prawie zawsze zaokrąglane do jednej cyfry znaczącej. Jeżeli pierwszą cyfrą znaczącą niepewności δx jest 1 lub 2 to możemy podać dwie cyfry znaczące.
Wartość zmierzona = 9,82 +/- 0,03 – poprawnie
Wartość zmierzona = 6051,78 +/- 30 – niepoprawnie
Ostatnia cyfra znacząca w każdym wyniku powinna zwykle być tego samego rzędu co niepewność.
Wartość zmierzona = 6050 +/- 30 – poprawnie
Wynik 92,8 z niepewnością 0,3 to 92,8 +/- 0,3
Wynik 92,8 z niepewnością 3 to 93 +/- 3
Wynik 92,8 z niepewnością 30 to 90 +/- 30
Liczby używane w obliczeniach powinny mieć zwykle jedną cyfrę znaczącą więcej niż te podawane ostatecznie.
Brak należytego zrozumienia istoty problemu badawczego, przed przystąpieniem do analizy statystycznej:
– Na każde zjawisko działają dwa rodzaje przyczyn: Przyczyny główne – wynikają z istoty problemu, działają w sposób trwały i dobrze ukierunkowany, jednakowo na wszystkie elementy badanej zbiorowości, to one powodują powstanie prawidłowości (są składnikiem systematycznym).
Przyczyny uboczne – czyli losowe, oddziałują różnie na poszczególne elementy zbiorowości, działają różnokierunkowo i w sposób nietrwały. One powodują odchylenia od prawidłowości i są źródłem tzw. składnika losowego.
Dobre zrozumienie problemu to przede wszystkim poprawna identyfikacja przyczyn głównych i ubocznych.
Statystyka to nauka służebna wobec innych nauk. Ma służyć potwierdzaniu hipotez
badawczych, a nie ich kreowaniu.
Brak jednorodności i reprezentowalności badanej próby: Statystyka wykazuje dwupoziomowe działanie – w oparciu o wyliczone konkretne statystyki na podstawie wyników zebranych z części populacji zwanej próbą, wnioskujemy o całej populacji. Zarówno próba jak populacja powinny być jednorodne.
Zbiorowość jest jednorodna wtedy, gdy wszystkie jej elementy pozostają pod wpływem działania tych samych przyczyn głównych. Próba jest reprezentatywna, jeżeli jej
struktura jest identyczna lub bardzo zbliżona do zbiorowości ogólnej.
Brak losowego doboru próby: Próba jest dobrze wylosowana, jeżeli każdy element
zbiorowości ogólnej ma takie samo prawdopodobieństwo wejścia do próby.
Najczęściej w badaniach ankietowych dochodzi do nielosowego doboru próby.
Przekład błędu: wyników ankiet przeprowadzanych na studentach lub ankiet internetowych nie można uogólniać na całe społeczeństwo.
Cechy statystyczne Mylne określanie i wykorzystywanie skal pomiarowych: Zasadniczo rozróżniamy cztery rodzaje skal pomiarowych: nominalna, porządkowa, przedziałowa i ilorazowa. Od przyjętej skali zależy wybór odpowiedniej analizy statystycznej.
Najczęściej mylone są skale przedziałowa bądź ilorazowa (wykorzystywane w większości testów parametrycznych) ze skalą porządkową (na której oparte są z reguły testy nieparametryczne). Rangi, które są efektem pomiaru skali porządkowej, nie pozwalają na liczenie odległości (a więc również różnic) i średnich.
Przykład: Wykorzystując nieparametryczne odpowiedniki testu t takie jak: test U Manna-Whitneya, czy test serii Walda-Wolfowitza nie należy przedstawiać wykresów średnia-błąd_standardowy-1,96*błędu_standardowego tylko mediana-25%/75%-minimum/maksimum.:
Szeregi statystyczne Błędy w budowie szeregów rozdzielczych:
– Szeregi z dziurami:
Wiek: 0-4, 5-9, 10-14, 15-19 itd.
– Szeregi otwarte:
Wiek: (0,5), (5,10), (10,15), (15,20) itd.
Zgodnie z definicją dystrybuanty – poprawnie zdefiniowany szereg rozdzielczy powinien być lewostronnie domknięty, a prawostronnie otwarty:
Wiek: <0,5), <5,10), <10,15), <15,20) itd.
Prawdopodobieństwo
Definicja prawdopodobieństwa wprowadzona mówi, że jest to funkcja o wartościach z przedziału <0,1>.
Częsty błąd to traktowanie prawdopodobieństwa jako liczby z przedziału od 0 do 100.
Liczebność próby
Nie ma prostej i uniwersalnej odpowiedzi na pytanie jaka powinna być minimalna liczebność próby.
Liczebność próby zależy od wielu czynników i często trudno ją określić na początku badań (konieczne jest często przeprowadzanie wstępnych badań pilotażowych na małej grupie). Liczebność próby zależy między innymi od:
– Rodzaju analizy statystycznej
– Rodzaju analizowanego parametru
– Jaka jest zmienność analizowanego zjawiska
– Jak dużą różnicę chcemy wykazać
– Jaki przyjmiemy poziom ufności p
Niczym nieuzasadniony jest strach badaczy przed małą próbą. Większość klasycznych analiz statystycznych można wykonać w oparciu o próby trzyelementowe. Lepiej wykonać analizę statystyczną na małej próbie niż nie wykonywać jej wcale !!!
Kluczem jest uświadomienie sobie jaki wpływ ma liczebność próby na wyniki wnioskowania statystycznego:
Przy małej próbie trudno udowodnić hipotezy badawcze (szczególnie w
przypadku dużej zmienności analizowanej zmiennej i skrajnie małej liczebności próby
– np. 3), natomiast przy bardzo dużej próbie można wykazać istotność
statystyczną dowolnie małej różnicy.
Przykład 1 (porównanie dwóch średnich testem t):
1
Zmienna grupująca
2
Zmienna zależna
1
2
3
4
5
6
a 1
a 2
a 3
b 3
b 4
b 5
Srednia
Srednia±Blad std
Srednia±1,96*Blad std
a b
Zmienna grupująca
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
5,5
Zm
ien
na
za
leżn
a
1
Zmienna grupująca
2
Zmienna zależna
1
2
3
4
5
6
7
8
9
10
11
12
a 1
a 2
a 3
b 3
b 4
b 5
a 1
a 2
a 3
b 3
b 4
b 5
Srednia
Srednia±Blad std
Srednia±1,96*Blad std
a b
Zmienna grupująca
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
5,5
Zm
ien
na
za
leżn
a
Testy t; Grupująca:Zmienna grupująca
Grupa 1: a
Grupa 2 b
Zmienna
Średnia
a
Średnia
b
t df p N ważnyc
a
N ważnych
b
Odch.std
a
Odch.std
b
Zmienna zależna 2,00 4,00 -3,8730 10 0,00309 6 6 0,894 0,894
Testy t; Grupująca:Zmienna grupująca (Temp)
Grupa 1: a
Grupa 2 b
Zmienna
Średnia
a
Średnia
b
t df p N ważnyc
a
N ważnych
b
Odch.std
a
Odch.std
b
Zmienna zależna 2,00 4,00 -2,4495 4 0,07048 3 3 1,000 1,000
Przykład 2 (korelacja linowa): Korelacje
Oznaczone wsp. korelacji są istotne z p < ,05000
Zmn. X &
Zmn. Y
Średnia Odch.st. r(X,Y) r2 t p Ważnych Stała
zal: Y
Nachyle
zal: Y
Stała
zal: X
Nachyle
zal: X
Zmienna X
Zmienna Y
12,30 3,46
7,23 2,76 0,089 0,0079 1,98 0,04856 495 6,363 0,071 11,494 0,111
Y= 6,3631 + ,07085 * X
Korelacja: r = ,08871
4 6 8 10 12 14 16 18 20 22 24 26 28
Zmienna X
-2
0
2
4
6
8
10
12
14
16
18
20
Zm
ien
na
Y
0,95 Prz.Ufn.
Testowanie hipotez statystycznych
Problemy dotyczące właściwego zrozumienia pojęcia
hipoteza statystyczna.
Problemy dotyczące właściwego zrozumienia pojęcia
poziom istotności α.
Problemy dotyczące właściwego doboru testów
statystycznych.
Problemy dotyczące weryfikacji założeń testów
statystycznych.
Problemy dotyczące porównań wielokrotnych „każdy
z każdym”.
Problem związany z istotnością współczynnika
korelacji.
Hipoteza statystyczna i poziom istotności Hipoteza statystyczna to dowolny sąd o populacji sformułowany bez wykonywania pełnego badania całej populacji, tylko przeprowadzany na podstawie analizy danych z próby.
W statystyce formułujemy dwie hipotezy: hipotezą zerową H0 i hipotezę alternatywną H1.
Najczęściej hipoteza badawcza jest wyrażona jako hipoteza alternatywna H1, a nie jako hipoteza zerowa H0, która nie
pozostawia wyboru.
W toku testowania możemy podjąć dwie decyzje:
– Odrzucić hipotezę zerową H0 i przyjąć hipotezę alternatywną H1.
– Nie mamy podstaw do odrzucenia hipotezy zerowej H0.
W toku testowania możemy popełnić dwa błędy:
– Błąd pierwszego rodzaju: odrzucenie prawdziwej hipotezy zerowej H0.
– Błąd drugiego rodzaju: przyjęcie fałszywej hipotezy zerowej H0.
Hipoteza zerowa
Decyzje
Nie ma podstaw do odrzucenia H0
Odrzucić H0
Hipoteza zerowa
prawdziwa
Decyzja prawidłowa Błąd I rodzaju
Hipoteza zerowa
fałszywa
Błąd II rodzaju Decyzja prawidłowa
Poziom istotności α jest to
prawdopodobieństwo popełnienia
błędu pierwszego rodzaju. Zakłada
do sam badacz z góry. Zwykle jest
to 0,05 lub 0,01.
Określanie hipotez statystycznych po przeprowadzeniu doświadczeń. – Hipotezy statystyczne należy jasno określić przed badaniem, na
etapie jego projektowania. Niedopuszczalne jest formułowanie ich w oparciu o otrzymane wyniki.
Nieokreślenie czy hipoteza alternatywna H1 ma być jednostronna (kierunkowa) czy dwustronna (bezkierunkowa). – Dla przykładu porównując testem t dwie średnie hipoteza zerowa H0
brzmi dwie średnie są sobie równe, hipoteza alternatywna H1 może brzmieć jedna średnia jest większa od drugiej (kierunkowa), lub jedna średnia jest różna od drugiej (bezkierunkowa). Często wykonując tego typu testy nie zwraca się uwagi co tak naprawdę wykazano.
Częsty błąd, który można znaleźć w publikacjach naukowych to stwierdzenie, że przyjmujemy hipotezę zerową H0. – Hipotezy zerowej nie można przyjąć H0 (nie można udowodnić
równości średnich czy braku korelacji między zmiennymi), można nie mieć podstaw do jej odrzucenia co w praktyce oznacza tyle że nie udało nam się wykazać słuszności naszych założeń sformułowanych w hipotezie alternatywnej H1.
Właściwy dobór i weryfikacja założeń testów
statystycznych
Niewłaściwy dobór testu statystycznego to najczęściej popełniana grupa błędów przy przeprowadzaniu analiz statystycznych, a najważniejsze z nich to:
Stosowanie testów parametrycznych bez sprawdzenia założeń dotyczących wymaganego rozkładu, jednorodności wariancji itp. Testy parametryczne zawsze oparte są na założeniach o typie rozkładu zmiennej losowej, którą badamy (często i innych założeniach). Ich stosowanie narzuca nam konieczność weryfikacji czy badana zmienna losowa spełnia wszystkie wymagane założenia – co bardzo często nie jest robione lub ignorowane są wyniki testów sprawdzających założenia.
Stosowanie testów dla prób zależnych w sytuacji gdy mamy do czynienia z próbami niezależnymi i na odwrót. Określenie czy mamy do czynienia z próbami zależnymi czy niezależnymi często jest dość trudne. W celu stwierdzenia z jakim powiązaniem zmiennych mamy do czynienia można się kierować jedną bardzo pomocną zasadą: Jeżeli przeprowadzając doświadczenie, porównywane zmienne można teoretycznie pozyskać w jednym i tym samym czasie to zwykle mamy do czynienia ze zmiennymi niezależnymi. Jeżeli natomiast niezbędny jest odstęp czasowy pomiędzy zbieranymi wynikami będącymi następnie analizowanymi zmiennymi losowymi, to z reguły istnieje czynnik uzależniający zmienne od siebie.
Przykład:
Leki A i B podajemy dwóm niezależnym grupą osób – zmienne niezależne.
Leki A i B podajemy tej samej grupie osób – potrzebny jest czas wymycia jednego z leków – zmienne zależne.
Nieprzestrzeganie minimalnej liczebności próby wymaganej dla danego testu.
Wiele testów (test chi-kwadrat, niektóre rodzaje testów t, prawie wszystkie wyrafinowane analizy wielowymiarowe) wymaga minimalnej liczebności próby co, często jest ignorowane. Prawie wszystkie testy nie tolerują 0 i 1, a są bardzo mało precyzyjne dla prób o liczebnościach 2-5.
Przy różnego typu estymacjach parametrów często stosuje się zasadę minimum: liczebność próby musi być większa od ilości
estymowanych parametrów.
Nieodpowiednie dobranie testów do skali pomiarowej, z którą mamy do czynienia.
Częsty błąd dotyczący analizy regresji liniowej i korelacji to wyznaczanie współczynnik korelacji liniowej Pearsona dla zmiennych o charakterze porządkowym, lub odwrotnie, wyznaczanie korelacji Spearmana dla zmiennych w skali przedziałowej lub ilorazowej.
Porównania wielokrotne
„każdy z każdym” Należy pamiętać, że zakładany poziom istotności α dotyczy
pojedynczego testowania, i jeżeli daną procedurę statystyczną wykorzystamy wielokrotnie to zakładane prawdopodobieństwo popełnienia błędu pierwszego rodzaju na poziomie 0,05 dla całej analizy będzie znacznie wyższe, co zwykle jest niedopuszczalne. Tego typu błędy najczęściej są popełniane przy wykonywaniu dwóch typów analiz statystycznych:
Porównywanie wielu średnich ze sobą i wykorzystywanie do tego testu t (porównując „każdy z każdym”) zamiast analizy wariancji ANOVA wraz z testami post-hoc.
Przykład:
Przy poziomie istotności α = 0,05 prawdopodobieństwo, że się nie pomylimy
dla jednego porównania wynosi 1 - 0,05 = 0,95.
Dla dwóch porównań 0,952 = 0,9025.
Dla czterech grup mamy sześć porównań, a wówczas wartość ta wynosi 0,956 = 0,7351.
Prawdopodobieństwo, że pomylimy się co najmniej jeden raz wynosi 1- 0,7351 = 0,265.
Określanie istotności statystycznej współczynników korelacji liniowej r w macierzach korelacji.
Istotność współczynnika korelacji
liniowej r
Błąd szczególnie często występujący w pacach medycznych to sugerowanie się wysoką wartością współczynnika korelacji liniowej Pearsona r bez określenia jego istotności statystycznej.
0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2
Zmienna X
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
2,6
2,8
3,0
3,2
Zm
ien
na
Y
X1a:Y1a: r = 0,9965; p = 0,0529
0 1 2 3 4 5 6 7
Zmienna X
0
1
2
3
4
5
6
7
Zm
ien
na
Y
X1b:Y1b: r = 0,8186; p = 0,0464
Wartość p Mylenie wartości p z poziomem istotności α.
Wartość p to najwyższy możliwy poziom istotności, przy którym możemy odrzucić testowaną hipotezę w oparciu o uzyskane dane empiryczne.
Jeżeli p < α to odrzucamy hipotezę zerową H0.
Mało eleganckie zapisy wartości p.
W publikacjach naukowych można znaleźć zapisy wartości p typu: p = 0,0000 co jest wynikiem bezmyślnego kopiowania tabel z wynikami analiz statystycznych – taki zapis jest nieelegancki i lepiej go zastąpić równoważnym zapisem p < 0,0001.