Zakład Bada ńSystemowych -...
Transcript of Zakład Bada ńSystemowych -...
Korelacja i regresja
Dr Joanna Banaś
Zakład Badań Systemowych
Instytut Sztucznej Inteligencji i Metod Matematycznych
Wykład 12
Wydział Informatyki Politechniki Szczecińskiej
Metody probabilistyczne i statystyka
28. Badanie statystyczne ze względu na dwie
cechy
� X, Y – cechy mierzalne
� n-elementowa próbka – n par (xi, yi), i=1,…,n
� diagram korelacyjny – przedstawienie graficzne próbki w układzie współrzędnych
� wstępne wnioski o ewentualnej zależności cech
Wykład 12
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Rys.28.1. Przykłady diagramów korelacyjnych
0 0
a) b)
x x
yy
0
c)
x
y
silna zależność
liniowa
słaba zależność
hiperboliczna
brak
zależności
Pomiar zależności
� Pojęcia wykorzystywane przy badaniu zależności
� Korelacja
� mierzy siłę (natężenie) zależności między cechami
� miernikiem zależności liniowej jest współczynnik korelacji ρ∈⟨-1,1⟩� |ρ| = 1 – zależność między cechami jest liniowa
� ρ = 0 – cechy są nieskorelowane
� Regresja
� określa rodzaj zależności między cechami (liniowa, krzywoliniowa)
� podaje zależność funkcyjną zależności, tzn. wyznaczana jest funkcja gtaka, że cechę Y można aproksymować przez g(X )
� funkcję regresji g wyznacza się metodą najmniejszych kwadratów, tzn. tak, aby
E [ Y − g(X ) ]2 → min
Wykład 12
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Pomiar zależności
� (28.1) Uwagi
a) Jeżeli | ρ(X,Y ) | = 1, to P ( Y = aX + b ) = 1 ,
ale korelacja nie precyzuje wartości parametrów a i b (poza znakiem współczynnika a)
b) Jeżeli niezależne cechy X i Y mają rozkłady normalne, to wektor (X, Y ) ma dwuwymiarowy rozkład normalny
c) Jeżeli wektor (X, Y ) ma dwuwymiarowy rozkład normalny, to
a) cechy X i Y mają rozkłady normalne
b) funkcja regresji jest liniowa
Wykład 12
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Estymacja współczynnika korelacji� X, Y – dowolne zmienne losowe
Współczynnik korelacji wyznaczamy ze wzoru
� Estymatorem zgodnym współczynnika korelacji ρ cech X i Y jest estymator R z próby
gdzie
są wariancjami z próby
� (28.2) Uwagi
a) Estymator R jest obciążony, gdyż
Wykład 12
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
( )2 2 2 2
( ) ( )cov( , )( , )
E X EX Y EYX YX Y
D X D Y D X D Y
− ⋅ −ρ = =
⋅ ⋅
1
1( ) ( )
n
i in i
X Y
X X Y YR
S S
=− ⋅ −
=⋅
∑
2 2 2 21 1
1 1( ) i ( )
n n
X i Y in ni iS X X S Y Y
= == − = −∑ ∑
( )E R ≠ ρ
Estymacja współczynnika korelacji
� (28.2) Uwagi cd.
b) Realizację r estymatora R, zwaną współczynnikiem korelacji z próbki wyznaczamy ze wzorów
lub
dla danych niezgrupowanych
Wykład 12
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
1
2 2
1 1
( ) ( )
( ) ( )
n
i ii
n n
i ii i
x x y yr
x x y y
=
= =
− ⋅ −=
− ⋅ −
∑∑ ∑
1
1
cov( , ) , gdzie
n
i in ix y x y
x y xy x yr xy x y
s s s s =
− ⋅= = = ⋅
⋅ ⋅∑
Estymacja współczynnika korelacji
� (28.2) Uwagi cd.
c) Dla próbek o liczności od około 30 wzwyż, buduje się tzw. tablicękorelacyjną (dwudzielną, dwudzielczą), która jest dwuwymiarowym odpowiednikiem szeregu rozdzielczego przedziałowego
Wówczas oszacowania parametrów występujących we wzorach oblicza się z próbki za pomocą sum ważonych, np.
Wykład 12
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
nw2
…
n22
n12
y2d −−−− y2g
…
…
…
…
…
nwknw1xwd −−−− xwg
………
n2kn21x2d −−−− x2g
n1kn11x1d −−−− x1g
ykd −−−− ykgy1d −−−− y1gX Y
0 0 0 0
1
1 1 , gdzie , to środki odpowiednich klas
w k
i j ij i jn i jxy x y n x y
= == ∑ ∑
Estymacja współczynnika korelacji� (28.3) Przedział ufności dla współczynnika korelacji
� Model 1 (dwuwymiarowy rozkład normalny, parametr nieznany, n ≥ 10)
(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznany współczynnik korelacji ρ
Jeśli n ≥ 10 , to statystyka Fishera
ma w przybliżeniu rozkład normalny N(m,σ), gdzie
W praktyce stosujemy zmienną
Wykład 12
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
12
1ln , | | 1
1
RZ R
R
+= <
−
12
1 1ln ,
1 2( 1) 3m EZ
n n
+ ρ ρ= ≈ + σ ≈
− ρ − −
12
1ln 3
1U Z n
+ ρ= − − − ρ
Estymacja współczynnika korelacjiWtedy dla α∈(0,1) otrzymujemy
Dla próbki (xi, yi), i=1,…,n otrzymujemy realizację przedziału ufności dla wartości oczekiwanej zmiennej Z na poziomie ufności 1−α:
Wykład 12
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
( )2 2
12 2 2
2 212
1 (1 ) (1 )
1(1 ) ln 3 (1 )
1
(1 ) (1 )1ln
13 3
P u U u
P u Z n u
u uZ Z
n n
α α
α α
α α
− α = − − < < −
+ ρ= − − < − − < − − ρ
− − + ρ= − < < + − ρ− −
2 2 12
(1 ) (1 ) 1, , gdzie ln
13 3
u u rz z z
rn n
α α− − +− + = −− −
Estymacja współczynnika korelacjiOznaczając przez z1 i z2 dolny i górny koniec przedziału, wyznaczamy granice przedziału (ρ1, ρ2) dla współczynnika korelacji ρ rozwiązując równania
� Przykład
� W pewnym doświadczeniu farmakologicznym bada się wpływ leku na przyrost ciśnienia tętniczego krwi
� Podano 10 różnych dawek xi leku i otrzymano następujące przyrosty ciśnienia krwi
Na poziomie ufności 0,9 wyznaczyć przedział ufności dla współczynnika korelacji ρ
Wykład 12
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
1 21 11 22 2
1 2
1 1ln i ln
1 1z z
+ ρ + ρ= =
− ρ − ρ
15
0,1
55656555302535155yi
1,00,90,80,70,60,50,40,30,2xi
Estymacja współczynnika korelacji� Model 2 (dwuwymiarowy rozkład normalny, parametr nieznany, duża
próba n ≥ 100)
(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznany współczynnik korelacji ρ
Jeśli n ≥ 100 , to statystyka
ma w przybliżeniu rozkład normalny N(0,1)
Na poziomie ufności 1−α otrzymujemy realizację przedziału ufności dla ρ
Wykład 12
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
2 , | | 1
1
RU n R
R
− ρ= <
−
2 2
2 2
1 1(1 ) , (1 )
r rr u r u
n n
α α − −− − + −
Testy istotności dla współczynnika korelacji
� (28.4) Weryfikacja hipotezy o (braku) korelacji między dwiema cechami
� Model 1 (2-wymiarowy rozkład normalny, parametr nieznany, n ≥ 3)
(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznany współczynnik korelacji ρ
Jeśli n ≥ 3 , to statystyka
ma rozkład Studenta z n−2 stopniami swobody przy założeniu, że prawdziwa jest hipoteza zerowa H0: ρ = 0
Wykład 12
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
22 , | | 1
1
Rt n R
R= − <
−
Weryfikacja hipotezy dla współczynnika
korelacji – model 1
Tablica 28.1. Tablica testu dla współczynnika korelacji – model 1
Wykład 10
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
H1: ρ < 0
H1: ρ > 0
H1: ρ ≠ 0
H0: ρ = 0
alternatywnazerowaObszar krytyczny KStatystyka testowa t
Hipoteza
22 ,
1
| | 1
Rn
R
R
−−
<
2
2
( ; (1 , 2)
(1 , 2); )
t n
t n
α
α
−∞ − − − ⟩
∪⟨ − − ∞
( ; (1 , 2)t n−∞ − − α − ⟩
(1 , 2); )t n⟨ − α − ∞
Weryfikacja hipotezy dla współczynnika
korelacji – model 1
� Przykład
Wiedząc, że w poprzednim przykładzie (przyrost ciśnienia krwi) współczynnik korelacji z próbki 10-elementowej wyniósł r = 0.9 , zweryfikowaćhipotezę, że cechy (dawka leku i przyrost ciśnienia krwi) są istotnie skorelowane (poziom istotności 0.01)
Wykład 12
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Testy istotności dla współczynnika korelacji
� Model 2 (2-wymiarowy rozkład normalny, parametr nieznany, n ≥ 100)
(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznany współczynnik korelacji ρ
Jeśli n ≥ 100 , to statystyka
ma w przybliżeniu rozkład normalny N(0,1) przy założeniu, że prawdziwa jest hipoteza zerowa H0: ρ = 0
Ze względu na podobieństwo funkcji gęstości, obszary krytyczne dla hipotez alternatywnych H1: ρ ≠ 0, H1: ρ < 0, H1: ρ > 0 wyznaczamy analogicznie do modelu 1 (nie uwzględniamy oczywiści stopni swobody)
Wykład 12
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
, | | 11
RU n R
R= <
−
Testy istotności dla współczynnika korelacji
� Model 3 (2-wymiarowy rozkład normalny, parametr nieznany, n ≥ 10)
(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznany współczynnik korelacji ρ
Jeśli n ≥ 10 , to statystyka
ma w przybliżeniu rozkład normalny N(0,1) przy założeniu, że prawdziwa jest hipoteza zerowa H0: ρ = ρ0
Obszary krytyczne dla hipotez alternatywnych H1: ρ ≠ ρ0, H1: ρ < ρ0, H1: ρ > ρ0 wyznaczamy jak w modelu 2
Wykład 12
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
01 12 2
0
11ln ln 3 , | | 1
1 1
RU n R
R
+ ρ+= − − < − − ρ
Estymacja i testy istotności dla
współczynników regresji
� Diagram korelacyjny pozwala intuicyjnie oszacowaćklasę funkcji regresji (liniowa, potęgowa, wykładnicza itp.) na podstawie koncentracji punktów w bliskim otoczeniu hipotetycznych linii
� Funkcja regresji rzadko jest liniowa, ale jest to zależność najwygodniejsza do oszacowania i jest dobrym punktem wyjścia do dalszych badań (mimo świadomości popełnienia pewnych błędów)
Wykład 12
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Estymacja i testy istotności dla
współczynników regresji
� Z rachunku prawdopodobieństwa wiadomo, że współczynniki liniowej funkcji regresji (II-go rodzaju) y = αx + β wyznaczamy ze wzorów
� Zgodnymi i nieobciążonymi estymatorami parametrów α i β z próby sąodpowiednio
� Realizacje a i b estymatorów A i B odpowiednio wyznaczamy na podstawie próbki ze wzorów
Wykład 12
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
2
2 2
cov( , )( , ) ,
X Y D YX Y EY EX
D X D Xα = = ρ β = − α
,Y
X
SA R B Y X
S= = − α
1
2
1
( )( ),
( )
n
i iy i
nx ii
x x y ysa r b y ax
s x x
=
=
− −= = = −
−
∑∑
Estymacja i testy istotności dla
współczynników regresji
� (28.5) Test istotności dla współczynnika regresji liniowej α
� Model (dwuwymiarowy rozkład normalny, parametr nieznany, n ≥ 3)
(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznane parametry
Jeśli n ≥ 3 , to statystyka
ma rozkład Studenta z n−2 stopniami swobody przy założeniu, że prawdziwa jest hipoteza zerowa H0: α = α0
Obszary krytyczne dla hipotez alternatywnych H1: α ≠ α0 , H1: α < α0 , H1: α > α0 wyznaczamy tak jak w tablicy 28.1 (model 1 dla współczynnika korelacji)
Wykład 12
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
0
2
2
1X
Y
A nt S
S R
− α −=
−
Estymacja i testy istotności dla
współczynników regresji
� Przykład
� Badamy zależność między dawką nawozu X (w kg) a wielkością przyrostu plonu Y
� Dla 7 obserwacji otrzymano wyniki
a) Oszacować liniową funkcję regresji pomiędzy dawką nawozu X, a wielkościąprzyrostu plonu YPodać interpretację współczynnika regresji liniowej
b) Sprawdzić testem serii liniową zależność między zmiennymi (poziom istotności 0.01)
c) Na poziomie istotności 0.01 zweryfikować hipotezę, że współczynnik regresji w populacji jest dodatni
Wykład 12
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
8
1
222018171413yi
765432xi
Wykład 12Metody probabilistyczne i statystyka
Dziękuję za uwagę
Opracowała Joanna Banaś