STATYSTYKA MATEMATYCZNAgen.up.wroc.pl/ddakt/statystyka/wyklad7.pdf · 2012. 10. 15. · STATYSTYKA...
Transcript of STATYSTYKA MATEMATYCZNAgen.up.wroc.pl/ddakt/statystyka/wyklad7.pdf · 2012. 10. 15. · STATYSTYKA...
-
STATYSTYKA MATEMATYCZNA
1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki
2. Zmienne losowe i ich rozkłady3. Populacje i próby danych, estymacja parametrów4. Testowanie hipotez statystycznych5. Testy parametryczne (na przykładzie testu t )6. Testy nieparametryczne (na przykładzie testu 2 )7. Korelacja i regresja liniowa i nieliniowa8. Analiza wariancji
Copyright ©2010, Joanna Szyda
-
KORELACJA
Copyright ©2010, Joanna Szyda
1. Korelacja liniowa Pearsona• obliczanie• testowanie
2. Korelacja rangowa Spearmana• obliczanie• testowanie
WSPÓŁCZYNNIK KORELACJI – miara wielkości (siły)zależności dwóch zmiennych losowych
-
Copyright ©2010, Joanna Szyda
WSPÓŁCZYNNIK KORELACJI PEARSONA
-
WSPÓŁCZYNNIK KORELACJI PEARSONA - definicja
yxyx
xyyxyxr
).cov(),cov(22
Copyright ©2010, Joanna Szyda
gdzie:
1)(
1)( 22
22
nyy
nxx i
yi
x ,
1))((
),cov(
nyyxx
yx
wariancje
kowariancja
(n – liczba par obserwacji w próbie)
-
WSPÓŁCZYNNIK KORELACJI PEARSONA - obliczanie
1. Miara siły zależności dwóch zmiennych (x, y)2. Założenia:
• zmienne x, y - ciągłe• normalny rozkład zmiennych• zależność liniowa
3. rxy przyjmuje wartości z przedziału [ -1, 1 ]
n
i
n
iii
n
iii
yxxy
yyxx
yyxxyxr
1 1
22
1).cov(
Copyright ©2010, Joanna Szyda
-
Copyright ©2010, Joanna Szyda
WSPÓŁCZYNNIK KORELACJI PEARSONA - przykłady
-
Copyright ©2010, Joanna Szyda
WSPÓŁCZYNNIK KORELACJI PEARSONA - przykłady
-
Copyright ©2010, Joanna Szyda
PRÓBA DANYCH
MASACIAŁA
ZAW. TŁUSZCZU
89 28
88 27
66 24
59 23
93 29
73 25
82 29
77 25
100 30
67 23
rmt = 0.94
WSPÓŁCZYNNIK KORELACJI PEARSONA - przykłady
-
Copyright ©2010, Joanna Szyda
WSPÓŁCZYNNIK KORELACJI PEARSONA - testowanie
1. Hipotezy• H0: brak korelacji między masą ciała, a zaw. tłuszczu• H1: istnieje korelacja między masą ciała, a zaw. tłuszczu• H0: rmt = 0 H1: rmt 0
2. Założone maksymalne prawdopodobieństwo błędu MAX = 0.013. Test:
4. Prawdopodobieństwo błędu dla t=7.47 wynosi T=0.00007
5. MAX > T6. H17. Występuje dodatnia korelacja między masą ciała, a zawartością
tłuszczu
22~
1
2
N
mt
mt tr
Nrt
-
WSPÓŁCZYNNIK KORELACJI SPEARMANA
-
Copyright ©2010, Joanna Szyda
WSPÓŁCZYNNIK KORELACJI SPEARMANA - definicja
1. Miara zależności dwóch zmiennych (x,y)
2. Brak założeń dotyczących rozkładu zmiennych
3. Brak założeń dotyczących liniowej zależności
4. Test nieparametryczny
5. Wykorzystuje ranking obserwacji
6. Przyjmuje wartości z przedziału [ -1, 1 ]
16
1 21
2
NN
dn
ii
xy
d - różnica w rankingu
zmiennych x i y
-
Copyright ©2010, Joanna Szyda
WSPÓŁCZYNNIK KORELACJI SPEARMANA - przykłady
-
Copyright ©2010, Joanna Szyda
PRÓBA DANYCH1. 18 samców Fregata magnificens
2. Powiązanie objętości worka z częstotliwością wydawanego dźwięku
objętość[cm3]
częstotliwość[Hz]
1760 529
2040 566
2440 473
2550 461
2730 465
2740 532
3010 484
3080 527
3370 488
3740 485ct = - 0.76
WSPÓŁCZYNNIK KORELACJI SPEARMANA- przykłady
-
Copyright ©2010, Joanna Szyda
1. Hipotezy• H0: brak korelacji między objętością, a częstotliwością• H1: istnieje korelacja między objętością, a częstotliwością• H0: ct = 0 H1: ct 0
2. Założone maksymalne prawdopodob. błędu MAX = 0.013. Test:
4. Prawdopodobieństwo błędu dla t=-4.68 wynosi T=0.00019
5. MAX > T6. H17. Występuje ujemna korelacja między objętością worka, a
częstotliwością dźwięku
22~
12
Nt
Nt
-
KORELACJA → określanie siły zależności(podobieństwa) zmiennych zależnych (przy pomocy współczynnika korelacji)
Jeśli zmienne są zależne → można próbowaćprzewidzieć wartości jednej zmiennej na podstawie wartości przyjmowanych przez drugą
REGRESJA → określanie modelu zależności zmiennych i wykorzystanie tego modelu do przewidywania wartości nieznanych na podstawie wartości obserwowanych (zmierzonych)
Ten matematyczny model to równanie regresji
-
REGRESJA
Regresja liniowa
1. Równanie regresji liniowej
2. Estymacja współczynników prostej regresji
3. Przykłady równań regresji
Regresja nieliniowa
1. Dane pochodzące z rozkładu dwumianowego
2. Transformacje danych dwumianowych
3. Równanie regresji logistycznej
Dopasowanie równania regresji
Copyright ©2010, Joanna Szyda
-
REGRESJA LINIOWA
-
Copyright ©2010, Joanna Szyda
22
2324
2526
27
2829
30
50 60 70 80 90 100
masa ciała
zaw
. tłu
szcz
u
RÓWNANIE REGRESJI
-
Copyright ©2010, Joanna Szyda
RÓWNANIE REGRESJI
xyxxyyxxyy
xxyy
10
11
11
1 )(
2
),cov(
x
yxxy 1
-
Copyright ©2010, Joanna Szyda
22
2324
2526
27
2829
30
50 60 70 80 90 100
masa ciała
zaw
. tłu
szcz
u
22
2324
2526
27
2829
30
50 60 70 80 90 100
masa ciała
zaw
. tłu
szcz
u
nachylenie
błąd
wyraz wolny
RÓWNANIE REGRESJI
xy 10
0
1
-
Copyright ©2010, Joanna Szyda
22
2324
2526
27
2829
30
50 60 70 80 90 100
masa ciała
zaw
. tłu
szcz
u
RÓWNANIE REGRESJI
22
2324
2526
27
2829
30
50 60 70 80 90 100
masa ciała
zaw
. tłu
szcz
uWartość zaobserwowana (y)
Wartość przewidziana (ŷ)
-
Copyright ©2010, Joanna Szyda
METODA NAJMNIEJSZYCH KWADRATÓWJak wyznaczyć parametry równania regresji ?
xy 10 Tak aby odległości obserwacji od prostej były jak najmniejsze:
metoda najmniejszych kwadratów
22
2324
2526
27
2829
30
50 60 70 80 90 100
masa ciała
zaw
. tłu
szcz
u
-
Copyright ©2010, Joanna Szyda
METODA NAJMNIEJSZYCH KWADRATÓW
22
2324
2526
27
2829
30
50 60 70 80 90 100
masa ciała
zaw
. tłu
szcz
u
( )2 → minimum
-
Copyright ©2010, Joanna Szyda
METODA NAJMNIEJSZYCH KWADRATÓW
minˆ1
210
1
2
N
iii
N
iii xyyy
00
1
1
210
0
1
210
N
iii
N
iii xy
ixy
02021
101
10
N
iiii
N
iii xyxixy
-
Copyright ©2010, Joanna Szyda
METODA NAJMNIEJSZYCH KWADRATÓW
xy 10
N
ii
N
iii
x xx
yyxxyx
1
2
12
),cov(
xy 1
-
Copyright ©2010, Joanna Szyda
WSPÓŁCZYNNIK REGRESJI A WSPÓŁCZYNNIK KORELACJI
x
y
x
ryxb
2
),cov(
Współczynnik regresji informuje, o ile zmieni sięwartość zmiennej y, jeśli wartość zmiennej x zmieni się o 1
y – zmienna objaśniana, zmienna zależna, zmienna nieznana (niedostępna, niemierzona, nieobserwowana)
x – zmienna objaśniająca, zmienna niezależna (znana, dostępna, obserwowana, zmierzona)
-
Copyright ©2010, Joanna Szyda
WAŻONA METODA NAJMNIEJSZYCH KWADRATÓW
xy 10
JAK WYZNACZYĆ PARAMETRY RÓWNANIA REGRESJI JEŻELI x MIERZONE SĄ ZE ZRÓŻNICOWANĄ
DOKŁADNOŚCIĄ?
WAŻENIE OBSERWACJI
-
Copyright ©2010, Joanna Szyda
WAŻONA METODA NAJMNIEJSZYCH KWADRATÓW
xy 1
WAŻENIE OBSERWACJI
xy 10
2
),(cov
ixi
ii
wyxw
-
Copyright ©2010, Joanna Szyda
PRZYKŁADY RÓWNAŃ REGRESJI
WIELOMIANY
xy 10 1. stopnia
2. stopnia 3. stopnia2
210 xxy 332
210 xxxy
-
Copyright ©2010, Joanna Szyda
PRZYKŁADY RÓWNAŃ REGRESJI
REGRESJA LOGARYTMICZNA
110 ln xy
-
Copyright ©2010, Joanna Szyda
PRZYKŁADY RÓWNAŃ REGRESJI
REGRESJA WIELOKROTNA
MASACIAŁA WZROST
ZAW. TŁUSZCZU
89 154 28
88 176 27
66 166 24
59 189 23
93 199 29
73 160 25
82 178 29
77 158 25
100 173 30
67 169 23
110 xy ztztzt
110 xy wzwzwz
wz
zt
wz
zt
wz
zt
zt
x
xx
y
yy
1
1
0
0
1
2
1
1
2
1
010............001001
...
-
REGRESJA NIELINIOWA
-
Copyright ©2010, Joanna Szyda
DANE
PRÓBA DANYCHchore zdrowe
gr. badawcza 21 2
gr. kontrolna 19 13
1. Grupa badawcza – staty kontakt z dymem tytoniowym2. Grupa kontrolna – brak kontaktu3. Wynik sekcji po 1 roku badań – zmiany nowotworowe w
płucach
-
Copyright ©2010, Joanna Szyda
DANE
PRÓBA DANYCH
1. Dane nie mają rozkładu normalnego
2. Y { chory, zdrowy } → rozkład dwumianowy
3. Określamy prawdopodobieństwo zachorowania w każdej grupie
choroba [y]
grupa [x]
1 0=b.
1 0
0 0
... ...
1 1=k.
1 1
0 1
-
Copyright ©2010, Joanna Szyda
TRANSFORMACJA DANYCH
0prawdopodobieństwo 1
- funkcja
prawdopodobieństwa +
transformacja
-
Copyright ©2010, Joanna Szyda
TRANSFORMACJA DANYCH
Transformacja logistyczna
p
pp
1
lnlogit
p→0 logit(p)→-
p→1 logit(p)→+
p=0.5 logit(p)=0
-
Copyright ©2010, Joanna Szyda
TRANSFORMACJA DANYCH
Transformacja logistyczna
p
pp
1
lnlogit
zależność nieliniowa
zależność liniowa
-
Copyright ©2010, Joanna Szyda
1. Transformacja logit - najczęściej stosowana
2. Inne transformacje „prawdopodobieństwo → funkcja prawdopodobieństwa”:
• probit (podobna do logit, trudniejsza do obliczenia)
• log-log (stosowana przy niesymetrycznościwzględem p=0.5)
TRANSFORMACJA DANYCH
-
Copyright ©2010, Joanna Szyda
RÓWNANIE REGRESJI LOGISTYCZNEJ
x
xe
ep
xppp
p
p
p
10
10)(logit
)(logit
10
exp1 exp
1
)1ln()ln(1
lnplogit
-
Copyright ©2010, Joanna Szyda
PRÓBA DANYCH
1. Równanie regresjichoroba
[y]grupa
[x]1 0=b.1 00 0... ...1 1=k.1 10 1
xp
p 972.1351.21
lnplogit
3. Prawdopodobieństwo zachorowania w grupie badawczej:
913.00972.1351.2exp10972.1351.2exp
bp
2. Prawdopodobieństwo zachorowania jest mniejsze w grupie kontrolnej
4. Prawdopodobieństwo zachorowania w grupie kontrolnej:
594.01972.1351.2exp1
1972.1351.2exp
kp
PRZYKŁAD
-
PRZYKŁADY
-
Copyright ©2010, Joanna Szyda
INTERPRETACJA WYNIKÓW RÓWNAŃ REGRESJI
-
Copyright ©2010, Joanna Szyda
INTERPRETACJA RÓWNAŃ REGRESJI
temp21.036.8interval
1. Wraz ze wzrostem temperatury czas pomiędzy odgłosami skraca się
2. Wzrost temperatury o 1°C powoduje skrócenie odstępu o 0.21 s.
3. W temperaturze 10°C osobniki wydają dogłosy średnio co 6.26 s. :
26.61021.036.8interval
-
Copyright ©2010, Joanna Szyda
INTERPRETACJA RÓWNAŃ REGRESJI
-
Copyright ©2010, Joanna Szyda
INTERPRETACJA RÓWNAŃ REGRESJI
1. Model:
2. Partnerzy, którzy w 2003 r. mieli średnio 40 lat oraz, u których mąż jest starszy o 15 mają średnio 2.42 dzieci:
3. Partnerzy, którzy w 2003 r. mieli średnio 25 lat oraz, u których mąż jest starszy o 4 mają średnio 2.66 dzieci:
2r_w002.0r_w03.0wiek01.082.2n_dzieci
42.215002.01503.04001.082.2n_dzieci 2
66.24002.0403.02501.082.2n_dzieci 2
-
Copyright ©2010, Joanna Szyda
PRZYKŁAD
-
DOPASOWANIE RÓWNANIA REGRESJI LINIOWEJ
-
Copyright ©2010, Joanna Szyda
RÓWNANIE REGRESJI
BŁĄD → różnica między y a ŷ
22
2324
2526
27
2829
30
50 60 70 80 90 100
masa ciała
zaw
. tłu
szcz
uWartość zaobserwowana (y)
Wartość przewidziana (ŷ)
-
Copyright ©2010, Joanna Szyda
DOPASOWANIE REGRESJI LINIOWEJ
zmienność "y"
wyjaśniona przez równanie regresji
wyjaśniona przez równanie regresji
zaobserwowanazaobserwowana
n
ii yy
1
2ˆ
n
ii yy
1
2
n
ii
n
ii
yy
yyR
1
2
1
2
2
ˆ
-
Copyright ©2010, Joanna Szyda
n
ii
n
ii
yy
yyR
1
2
1
2
2ˆ
DOPASOWANIE REGRESJI LINIOWEJ
jaka częśćobserwowanej
zmienności została wyjaśniona przez równanie regresji
WSPÓŁCZYNNIK DETERMINACJI
przyjmuje wartości od 0 do 1;
im bliższy 1 tym lepsze dopasowanie modelu
regresji
-
Copyright ©2010, Joanna Szyda
DOPASOWANIE REGRESJI LINIOWEJ - przykład
PRÓBA DANYCH
1. Zmienna niezależna
2. Zmienna zależna, rozkład ciągłyMASACIAŁA
ZAW. TŁUSZCZU
89 28
88 27
66 24
59 23
93 29
73 25
82 29
77 25
100 30
67 23
masa_ciała19.057.11tluszcz
R2 = 0.37
-
Copyright ©2010, Joanna Szyda
HISTOGRAM DIAGNOSTYCZNY
2,0~ˆ eiii Neyy Założenie regresji liniowej:
-
KORELACJA - podsumowanie
Copyright ©2010, Joanna Szyda
1. Współczynnik korelacji liniowej Pearsona
• obliczanie
• testowanie
2. Współczynnik korelacji rangowej Spearmana
• obliczanie
• testowanie
-
REGRESJA
Regresja liniowa
1. Równanie regresji liniowej
2. Estymacja współczynników regresji
3. Przykłady równań regresji
Regresja nieliniowa
Regresja logistyczna - przykład
Dopasowanie równania regresji
Copyright ©2010, Joanna Szyda