Zakład Bada ńSystemowych -...

21
Korelacja i regresja Dr Joanna Banaś Zaklad Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wyklad 12 Wydzial Informatyki Politechniki Szczecińskiej Metody probabilistyczne i statystyka

Transcript of Zakład Bada ńSystemowych -...

Page 1: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Korelacja i regresja

Dr Joanna Banaś

Zakład Badań Systemowych

Instytut Sztucznej Inteligencji i Metod Matematycznych

Wykład 12

Wydział Informatyki Politechniki Szczecińskiej

Metody probabilistyczne i statystyka

Page 2: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

28. Badanie statystyczne ze względu na dwie

cechy

� X, Y – cechy mierzalne

� n-elementowa próbka – n par (xi, yi), i=1,…,n

� diagram korelacyjny – przedstawienie graficzne próbki w układzie współrzędnych

� wstępne wnioski o ewentualnej zależności cech

Wykład 12

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Rys.28.1. Przykłady diagramów korelacyjnych

0 0

a) b)

x x

yy

0

c)

x

y

silna zależność

liniowa

słaba zależność

hiperboliczna

brak

zależności

Page 3: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Pomiar zależności

� Pojęcia wykorzystywane przy badaniu zależności

� Korelacja

� mierzy siłę (natężenie) zależności między cechami

� miernikiem zależności liniowej jest współczynnik korelacji ρ∈⟨-1,1⟩� |ρ| = 1 – zależność między cechami jest liniowa

� ρ = 0 – cechy są nieskorelowane

� Regresja

� określa rodzaj zależności między cechami (liniowa, krzywoliniowa)

� podaje zależność funkcyjną zależności, tzn. wyznaczana jest funkcja gtaka, że cechę Y można aproksymować przez g(X )

� funkcję regresji g wyznacza się metodą najmniejszych kwadratów, tzn. tak, aby

E [ Y − g(X ) ]2 → min

Wykład 12

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Page 4: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Pomiar zależności

� (28.1) Uwagi

a) Jeżeli | ρ(X,Y ) | = 1, to P ( Y = aX + b ) = 1 ,

ale korelacja nie precyzuje wartości parametrów a i b (poza znakiem współczynnika a)

b) Jeżeli niezależne cechy X i Y mają rozkłady normalne, to wektor (X, Y ) ma dwuwymiarowy rozkład normalny

c) Jeżeli wektor (X, Y ) ma dwuwymiarowy rozkład normalny, to

a) cechy X i Y mają rozkłady normalne

b) funkcja regresji jest liniowa

Wykład 12

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Page 5: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Estymacja współczynnika korelacji� X, Y – dowolne zmienne losowe

Współczynnik korelacji wyznaczamy ze wzoru

� Estymatorem zgodnym współczynnika korelacji ρ cech X i Y jest estymator R z próby

gdzie

są wariancjami z próby

� (28.2) Uwagi

a) Estymator R jest obciążony, gdyż

Wykład 12

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

( )2 2 2 2

( ) ( )cov( , )( , )

E X EX Y EYX YX Y

D X D Y D X D Y

− ⋅ −ρ = =

⋅ ⋅

1

1( ) ( )

n

i in i

X Y

X X Y YR

S S

=− ⋅ −

=⋅

2 2 2 21 1

1 1( ) i ( )

n n

X i Y in ni iS X X S Y Y

= == − = −∑ ∑

( )E R ≠ ρ

Page 6: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Estymacja współczynnika korelacji

� (28.2) Uwagi cd.

b) Realizację r estymatora R, zwaną współczynnikiem korelacji z próbki wyznaczamy ze wzorów

lub

dla danych niezgrupowanych

Wykład 12

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

1

2 2

1 1

( ) ( )

( ) ( )

n

i ii

n n

i ii i

x x y yr

x x y y

=

= =

− ⋅ −=

− ⋅ −

∑∑ ∑

1

1

cov( , ) , gdzie

n

i in ix y x y

x y xy x yr xy x y

s s s s =

− ⋅= = = ⋅

⋅ ⋅∑

Page 7: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Estymacja współczynnika korelacji

� (28.2) Uwagi cd.

c) Dla próbek o liczności od około 30 wzwyż, buduje się tzw. tablicękorelacyjną (dwudzielną, dwudzielczą), która jest dwuwymiarowym odpowiednikiem szeregu rozdzielczego przedziałowego

Wówczas oszacowania parametrów występujących we wzorach oblicza się z próbki za pomocą sum ważonych, np.

Wykład 12

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

nw2

n22

n12

y2d −−−− y2g

nwknw1xwd −−−− xwg

………

n2kn21x2d −−−− x2g

n1kn11x1d −−−− x1g

ykd −−−− ykgy1d −−−− y1gX Y

0 0 0 0

1

1 1 , gdzie , to środki odpowiednich klas

w k

i j ij i jn i jxy x y n x y

= == ∑ ∑

Page 8: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Estymacja współczynnika korelacji� (28.3) Przedział ufności dla współczynnika korelacji

� Model 1 (dwuwymiarowy rozkład normalny, parametr nieznany, n ≥ 10)

(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznany współczynnik korelacji ρ

Jeśli n ≥ 10 , to statystyka Fishera

ma w przybliżeniu rozkład normalny N(m,σ), gdzie

W praktyce stosujemy zmienną

Wykład 12

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

12

1ln , | | 1

1

RZ R

R

+= <

12

1 1ln ,

1 2( 1) 3m EZ

n n

+ ρ ρ= ≈ + σ ≈

− ρ − −

12

1ln 3

1U Z n

+ ρ= − − − ρ

Page 9: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Estymacja współczynnika korelacjiWtedy dla α∈(0,1) otrzymujemy

Dla próbki (xi, yi), i=1,…,n otrzymujemy realizację przedziału ufności dla wartości oczekiwanej zmiennej Z na poziomie ufności 1−α:

Wykład 12

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

( )2 2

12 2 2

2 212

1 (1 ) (1 )

1(1 ) ln 3 (1 )

1

(1 ) (1 )1ln

13 3

P u U u

P u Z n u

u uZ Z

n n

α α

α α

α α

− α = − − < < −

+ ρ= − − < − − < − − ρ

− − + ρ= − < < + − ρ− −

2 2 12

(1 ) (1 ) 1, , gdzie ln

13 3

u u rz z z

rn n

α α− − +− + = −− −

Page 10: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Estymacja współczynnika korelacjiOznaczając przez z1 i z2 dolny i górny koniec przedziału, wyznaczamy granice przedziału (ρ1, ρ2) dla współczynnika korelacji ρ rozwiązując równania

� Przykład

� W pewnym doświadczeniu farmakologicznym bada się wpływ leku na przyrost ciśnienia tętniczego krwi

� Podano 10 różnych dawek xi leku i otrzymano następujące przyrosty ciśnienia krwi

Na poziomie ufności 0,9 wyznaczyć przedział ufności dla współczynnika korelacji ρ

Wykład 12

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

1 21 11 22 2

1 2

1 1ln i ln

1 1z z

+ ρ + ρ= =

− ρ − ρ

15

0,1

55656555302535155yi

1,00,90,80,70,60,50,40,30,2xi

Page 11: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Estymacja współczynnika korelacji� Model 2 (dwuwymiarowy rozkład normalny, parametr nieznany, duża

próba n ≥ 100)

(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznany współczynnik korelacji ρ

Jeśli n ≥ 100 , to statystyka

ma w przybliżeniu rozkład normalny N(0,1)

Na poziomie ufności 1−α otrzymujemy realizację przedziału ufności dla ρ

Wykład 12

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

2 , | | 1

1

RU n R

R

− ρ= <

2 2

2 2

1 1(1 ) , (1 )

r rr u r u

n n

α α − −− − + −

Page 12: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Testy istotności dla współczynnika korelacji

� (28.4) Weryfikacja hipotezy o (braku) korelacji między dwiema cechami

� Model 1 (2-wymiarowy rozkład normalny, parametr nieznany, n ≥ 3)

(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznany współczynnik korelacji ρ

Jeśli n ≥ 3 , to statystyka

ma rozkład Studenta z n−2 stopniami swobody przy założeniu, że prawdziwa jest hipoteza zerowa H0: ρ = 0

Wykład 12

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

22 , | | 1

1

Rt n R

R= − <

Page 13: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Weryfikacja hipotezy dla współczynnika

korelacji – model 1

Tablica 28.1. Tablica testu dla współczynnika korelacji – model 1

Wykład 10

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

H1: ρ < 0

H1: ρ > 0

H1: ρ ≠ 0

H0: ρ = 0

alternatywnazerowaObszar krytyczny KStatystyka testowa t

Hipoteza

22 ,

1

| | 1

Rn

R

R

−−

<

2

2

( ; (1 , 2)

(1 , 2); )

t n

t n

α

α

−∞ − − − ⟩

∪⟨ − − ∞

( ; (1 , 2)t n−∞ − − α − ⟩

(1 , 2); )t n⟨ − α − ∞

Page 14: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Weryfikacja hipotezy dla współczynnika

korelacji – model 1

� Przykład

Wiedząc, że w poprzednim przykładzie (przyrost ciśnienia krwi) współczynnik korelacji z próbki 10-elementowej wyniósł r = 0.9 , zweryfikowaćhipotezę, że cechy (dawka leku i przyrost ciśnienia krwi) są istotnie skorelowane (poziom istotności 0.01)

Wykład 12

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Page 15: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Testy istotności dla współczynnika korelacji

� Model 2 (2-wymiarowy rozkład normalny, parametr nieznany, n ≥ 100)

(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznany współczynnik korelacji ρ

Jeśli n ≥ 100 , to statystyka

ma w przybliżeniu rozkład normalny N(0,1) przy założeniu, że prawdziwa jest hipoteza zerowa H0: ρ = 0

Ze względu na podobieństwo funkcji gęstości, obszary krytyczne dla hipotez alternatywnych H1: ρ ≠ 0, H1: ρ < 0, H1: ρ > 0 wyznaczamy analogicznie do modelu 1 (nie uwzględniamy oczywiści stopni swobody)

Wykład 12

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

, | | 11

RU n R

R= <

Page 16: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Testy istotności dla współczynnika korelacji

� Model 3 (2-wymiarowy rozkład normalny, parametr nieznany, n ≥ 10)

(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznany współczynnik korelacji ρ

Jeśli n ≥ 10 , to statystyka

ma w przybliżeniu rozkład normalny N(0,1) przy założeniu, że prawdziwa jest hipoteza zerowa H0: ρ = ρ0

Obszary krytyczne dla hipotez alternatywnych H1: ρ ≠ ρ0, H1: ρ < ρ0, H1: ρ > ρ0 wyznaczamy jak w modelu 2

Wykład 12

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

01 12 2

0

11ln ln 3 , | | 1

1 1

RU n R

R

+ ρ+= − − < − − ρ

Page 17: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Estymacja i testy istotności dla

współczynników regresji

� Diagram korelacyjny pozwala intuicyjnie oszacowaćklasę funkcji regresji (liniowa, potęgowa, wykładnicza itp.) na podstawie koncentracji punktów w bliskim otoczeniu hipotetycznych linii

� Funkcja regresji rzadko jest liniowa, ale jest to zależność najwygodniejsza do oszacowania i jest dobrym punktem wyjścia do dalszych badań (mimo świadomości popełnienia pewnych błędów)

Wykład 12

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

Page 18: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Estymacja i testy istotności dla

współczynników regresji

� Z rachunku prawdopodobieństwa wiadomo, że współczynniki liniowej funkcji regresji (II-go rodzaju) y = αx + β wyznaczamy ze wzorów

� Zgodnymi i nieobciążonymi estymatorami parametrów α i β z próby sąodpowiednio

� Realizacje a i b estymatorów A i B odpowiednio wyznaczamy na podstawie próbki ze wzorów

Wykład 12

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

2

2 2

cov( , )( , ) ,

X Y D YX Y EY EX

D X D Xα = = ρ β = − α

,Y

X

SA R B Y X

S= = − α

1

2

1

( )( ),

( )

n

i iy i

nx ii

x x y ysa r b y ax

s x x

=

=

− −= = = −

∑∑

Page 19: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Estymacja i testy istotności dla

współczynników regresji

� (28.5) Test istotności dla współczynnika regresji liniowej α

� Model (dwuwymiarowy rozkład normalny, parametr nieznany, n ≥ 3)

(X, Y ) – wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznane parametry

Jeśli n ≥ 3 , to statystyka

ma rozkład Studenta z n−2 stopniami swobody przy założeniu, że prawdziwa jest hipoteza zerowa H0: α = α0

Obszary krytyczne dla hipotez alternatywnych H1: α ≠ α0 , H1: α < α0 , H1: α > α0 wyznaczamy tak jak w tablicy 28.1 (model 1 dla współczynnika korelacji)

Wykład 12

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

0

2

2

1X

Y

A nt S

S R

− α −=

Page 20: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Estymacja i testy istotności dla

współczynników regresji

� Przykład

� Badamy zależność między dawką nawozu X (w kg) a wielkością przyrostu plonu Y

� Dla 7 obserwacji otrzymano wyniki

a) Oszacować liniową funkcję regresji pomiędzy dawką nawozu X, a wielkościąprzyrostu plonu YPodać interpretację współczynnika regresji liniowej

b) Sprawdzić testem serii liniową zależność między zmiennymi (poziom istotności 0.01)

c) Na poziomie istotności 0.01 zweryfikować hipotezę, że współczynnik regresji w populacji jest dodatni

Wykład 12

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka

8

1

222018171413yi

765432xi

Page 21: Zakład Bada ńSystemowych - rasokolowski.strony.wi.ps.plrasokolowski.strony.wi.ps.pl/glowna_pliki/W12_MPiS.pdf · Korelacja i regresja Dr Joanna Bana ś Zakład Bada ńSystemowych

Wykład 12Metody probabilistyczne i statystyka

Dziękuję za uwagę

Opracowała Joanna Banaś