Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla...

52
Analiza regresji Wyklad dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karlowska-Pik Katedra Teorii Prawdopodobie ´ nstwa i Analizy Stochastycznej Wydzial Matematyki i Informatyki Uniwersytet Mikolaja Kopernika w Toruniu Analiza regresji – p. 1/52

Transcript of Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla...

Page 1: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Analiza regresjiWykład dla stypendystów

Krajowego Funduszu na Rzecz Dzieci

dr Joanna Karłowska-Pik

Katedra Teorii Prawdopodobienstwa i Analizy StochastycznejWydział Matematyki i Informatyki

Uniwersytet Mikołaja Kopernika w Toruniu

Analiza regresji – p. 1/52

Page 2: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

„Motto”

There are three kinds of lies:lies, damned lies, and statistics.

Istnieja trzy rodzaje kłamstwa:kłamstwa, wierutne kłamstwa i statystyka.

/Benjamin Disraeli/

Analiza regresji – p. 2/52

Page 3: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Statystyka

Definicja: Statystyka (ang. statistics) to naukazajmujaca sie zbieraniem, prezentowaniemi analizowaniem danych w celu odkrycia prawidłowosciwystepujacych w zjawiskach masowych orazwspomagania i podniesienia jakosci procesupodejmowania decyzji.

Definicja: Dane (ang. data) to informacje, zazwyczajnumeryczne lub w postaci kategorii.

G. Upton, I. Cook: Oxford Dictionary of Statistics (2006).

J. Górniak, J. Wachnicki: Pierwsze kroki w analizie danych (2004).

Analiza regresji – p. 3/52

Page 4: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Populacja

Definicja: Zbiór elementów podlegajacych badaniu zewzgledu na jedna lub wiele cech nazywamy populacja(ang. population). Elementami populacji moga bycosoby, przedmioty albo same wartosci liczbowe pewnejcechy.

Badanie całej populacji nazywamy badaniemkompletnym. Przykład: spis powszechny. Badaniekompletne bywa niewykonalne, kosztowne lubczasochłonne.

Analiza regresji – p. 4/52

Page 5: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Próba

Definicja: Próba (ang. sample) nazywamy skonczonypodzbiór populacji, który poddajemy badaniu zewzgledu na interesujaca nas ceche.

Przykłady:

populacja: przedsiebiorstwa zarejestrowanew Polsce, próba: przedsiebiorstwa województwakujawsko-pomorskiego,

populacja: przedsiebiorstwa województwakujawsko-pomorskiego, próba: wybrane 20przedsiebiorstw.

Analiza regresji – p. 5/52

Page 6: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Własno sci próby

Próba powinna reprezentowac populacje w tym sensie,ze czestosc wystepowania kazdej z badanych cechw próbie nie powinna sie róznic od czestosciwystepowania tej cechy w całej populacji.

Próby obciazone — uzyskiwane np. przez wywiadtelefoniczny, czy ankietowe badania internetowe.

Analiza regresji – p. 6/52

Page 7: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Metody wyboru próby

Próba losowa prosta — kazdy element populacji majednakowa szanse znalezienia sie w próbie (umiemyokreslic liczbowo jaka to szansa), wybierananajczesciej z uzyciem liczb losowych.

Próba systematyczna — ze spisu elementówpopulacji wybieramy co n-ty.

Próba kwotowa — czesta w badaniach rynku,ankieter wybiera dowolne osoby posiadajaceokreslone cechy np. 5 mezczyzn powyzej 60. rokuzycia (dowolnych), 2 gospodynie domowe(dowolne), 3 studentki (dowolne) itp.

Analiza regresji – p. 7/52

Page 8: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Metody wyboru próby c.d.

Próba najłatwiej dostepna.

Losowanie warstwowe — w przypadku, gdypopulacja ma naturalnie wyróznione warstwy (np.mikroprzedsiebiorstwa, przedsiebiorstwa małe,srednie, duze) wybieramy losowa próbe z kazdejz warstw o wielkosci proporcjonalnej do liczebnosciwarstwy.

Losowanie zespołowe — w przypadku, gdy próbapodzielona jest na zespoły, losujemy zespoły i dopróby wchodza wszystkie elementy wylosowanegozespołu, np. wszyscy mieszkancy wylosowanej ulicy.

Analiza regresji – p. 8/52

Page 9: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Statystyka opisowaa statystyka matematyczna

Statystyka opisowa (ang. descriptive statistics)zajmuje sie prezentacja danych w postaci tabel,diagramów i charakterystyk liczbowych.

Statystyka matematyczna (ang. mathematical lubinductive statistics) zajmuje sie wnioskowaniemo własnosciach populacji na podstawie własnoscipróbki przy dopuszczeniu pewnego poziomu błedu,w oparciu o twierdzenia rachunkuprawdopodobienstwa.

Analiza regresji – p. 9/52

Page 10: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Miary tendencji centralnej

Oznaczenia:

N — liczebnosc próbki,

x1, x2, . . . , xN — obserwacje,

x(1), x(2), . . . , x(N) — obserwacje ustawioneniemalejaco.

Miary tendencji centralnej:

srednia (ang. mean),

mediana (ang. median),

moda, inaczej dominanta (ang. mode).

Analiza regresji – p. 10/52

Page 11: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Srednia

x =x1 + x2 + . . .+ xN

N.

Srednia podajemy z dokładnoscia o 1 wieksza niz dane.

Suma odchylen wszystkich wartosci zmiennej odsredniej jest równa 0.

Suma kwadratów odchylen wartosci zmiennej odpewnej liczby a jest najmniejsza dla a bedacegosrednia.G. A. Ferguson, Y. Takane: Analiza statystyczna w psychologii i pedagogice, PWN, Warszawa(1997).

Analiza regresji – p. 11/52

Page 12: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Zalety i wady sredniej

Zalety:Moze byc wykorzystywana w dalszychobliczeniach statystycznych.Jest najmniej podatna na bład jako przyblizeniesredniej dla całej populacji.

Wady:Wrazliwa na nienormalnie duze lub nienormalniemałe wartosci skrajne.W przypadku rozkładów dwu- i wielomodalnychbywa mylaca.

Analiza regresji – p. 12/52

Page 13: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Przykłady

Przykład 1.

12, 36, 18, 25, 24, 11, 39, 11, 29, 35.

Srednia podanych liczb to 24, 0.

W dowcipie rysunkowym robotnik mówi dodziennikarki: Srednio rocznie w naszej firmie zarabiasie 100 000 zł. Prezes zarabia milion, a naszadziesiatka po 10 000.

1 000 000 + 10 · 10 00011

=1 100 000

11= 100 000.

Analiza regresji – p. 13/52

Page 14: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Mediana

Wartosc srodkowa. Jesli N jest nieparzyste, tomediana jest x((N+1)/2), a jesli parzyste, tox(N/2)+x((N/2)+1)

2 .

Suma odchylen bezwzglednych od mediany jestmniejsza niz suma takich odchylen od jakiejkolwiekinnej liczby.

W celu obliczenia mediany dane z przykładu 1.porzadkujemy:

11, 11, 12, 18, 24, 25, 29, 35, 36, 39.

Mediana to 24+252 = 24, 5. Analiza regresji – p. 14/52

Page 15: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Zalety i wady mediany

Zalety:Łatwa do zrozumienia.Nie ulega deformacji ze wzgledu na nienormalnieduze lub nienormalnie małe wartosci skrajne.

Wady:Nie moze byc wykorzystywana w dalszychobliczeniach statystycznych.Dla małych zbiorów danych, o pewnej szczególnejpostaci, nie jest dobra charakterystyka tendencjicentralnej (np. mediana dla 5, 5, 5, 9, 10 jest 5).

Analiza regresji – p. 15/52

Page 16: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Miary rozproszenia

Rozstep (ang. range) R = xmax − xmin.Kwantyle(ang. quantiles):

kwartyle (ang. quartiles),decyle (ang. deciles) — Sir Francis Galton (1882),percentyle (ang. percentiles) — Sir FrancisGalton (1885).

Odchylenie standardowe (ang. standard deviation)— Karl Pearson (1893).

Analiza regresji – p. 16/52

Page 17: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Kwartyle

Kwartyl dolny Q1 — mediana grupy danych „na lewood mediany”,

Kwartyl srodkowy Q2 to mediana.

Kwartyl górny Q3 — mediana grupy danych „naprawo od mediany”.

Dla danych z przykładu 1. mamy:

Q1 = 12, Q2 = 24, 5, Q3 = 35.

Analiza regresji – p. 17/52

Page 18: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Kwantyle

Kwantyle rzedu m to punkty podziału próbki na m„równych” czesci. Kwantyli rzedu m jest m− 1.Kwantyle rzedu 4 to kwartyle. Kwantyle rzedu 10 todecyle, a rzedu 100 to percentyle.W programach statystycznych l-ty kwartyl rzedu m (dlal = 1, 2, . . . m− 1) jest liczony według wzoru

Q lm=

(

k + 1− (N + 1) lm

)

x(k) +

(

(N + 1)l

m− k

)

x(k+1),

gdzie k =[

(N + 1) lm]

. Dla kwartyli moze to da ctroche inny wynik niz przy poprzedniej definicji!

Analiza regresji – p. 18/52

Page 19: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Kwartyle dla przykładu 1.

Liczac wzorem na kwantyle otrzymamy, zek = [11/4] = 2,

Q1 = Q 14=1

4x(2) +

3

4x(3) = 11

3

4,

Q3 = Q 14=3

4x(8) +

1

4x(9) = 35

1

4.

Analiza regresji – p. 19/52

Page 20: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Wykresy skrzynkowe

Wykres skrzynkowy, inaczej skrzynka z wasami (ang.boxplot lub box-and-whisker diagram) zostałwprowadzony przez Tukeya. Rysujemy go wzdłuz jednejosi ze skala. Składa sie on z pudełka rozciagajacegosie od 1. do 3. kwartyla, z przedziałka na wysokoscimediany. Do pudełka doczepione sa wasy siegajacez jednej strony do najmniejszej wartosci zmiennej,a z drugiej do najwiekszej wartosci zmiennej.

Analiza regresji – p. 20/52

Page 21: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Wykres skrzynkowy dlaprzykładu 1.

10 15 20 25 30 35 40

Analiza regresji – p. 21/52

Page 22: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Udoskonalone wykresyskrzynkowe

Dla udoskonalonych wykresów skrzynkowych (ang.refined boxplots) wasy maja długosc nieprzekraczajaca1, 5×rozstep miedzykwartylowy (tzn. róznica Q3 −Q1).Kazda wartosc, która znajduje sie poza wasami, jestspecjalnie oznaczana i nazywa sie wartoscia odstajaca(outsiderem, dewiantem). Wartosci odstajace o od 1,5do 3 razy odstep miedzykwartylowy oznacza siekółeczkiem i nazywa wartoscia nietypowa, a o ponad 3odstepy miedzykwartylowe oznacza sie gwiazdkai nazywa wartoscia skrajna.

Analiza regresji – p. 22/52

Page 23: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Odchylenie standardowe

s =

(x1 − x)2 + . . .+ (xN − x)2N

=

x21 + . . .+ x2N

N− x2.

W przypadku, gdy zgromadzone dane traktujemy jakodane całej populacji, odchylenie standardoweobliczamy, dzielac powyzsze sumy przez N . Jeslinatomiast analizujemy próbke i otrzymane odchyleniestandardowe ma byc przyblizeniem odchyleniastandardowego w całej populacji, nalezy dzielic przezN − 1 (tak licza programy statystyczne). Zapobiega toobciazeniu tego przyblizenia (estymatora).

Analiza regresji – p. 23/52

Page 24: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Własno sci odchyleniastandardowego

Jezeli do wszystkich wartosci zmiennej dodamypewna wartosc stała, to odchylenie standardowe niezmienia sie.

Jezeli wszystkie wartosci zmiennej pomnozymyprzez pewna liczbe, to odchylenie standardowerówniez zostanie pomnozone przez ta liczbe.

Odchylenie standardowe moze nie byc dobra miararozproszenia, gdy zmienna przyjmuje kilka wartoscibardzo oddalonych od reszty lub gdy rozkład jestmocno skosny.

Analiza regresji – p. 24/52

Page 25: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Odchylenie standardowe dlaprzykładu 1.

xi xi − x (xi − x)2 xi xi − x (xi − x)2

11 −13 169 25 1 1

11 −13 169 29 5 25

12 −12 144 35 11 121

18 −6 36 36 12 144

24 0 0 39 15 225

Sumujemy liczby z 3. i 6. kolumny, otrzymujac 1034.Stad

s =

1034

10≈ 10, 17, s =

1034

9≈ 10, 79.

Analiza regresji – p. 25/52

Page 26: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Regresja

Definicja: Regresja nazywamy wyrazenie zaleznosciwartosci jednej zmiennej od drugiej w postaci pewnejprostej funkcji z dopuszczeniem ewentualnychodstepstw. Pierwsze wyniki: Sir Francis GaltonRegression towards Mediocrity in Hereditary Stature(Regresja w badaniach nad dziedziczeniem niskiegowzrostu), 1885 r. Teoria została pózniej rozwinietaprzez Karla Pearsona.

Analiza regresji – p. 26/52

Page 27: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Przykład 2.

WZROST I WAGA 11-LATKÓW

Imie Wzrost w cm Waga w kgAdam 120 38Bartek 135 40Kamil 125 42Wojtek 150 44Tomek 145 46

Analiza regresji – p. 27/52

Page 28: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Wykresy rozrzutu

Wykresy rozrzutu (ang. scatter diagrams) słuzajednoczesnemu przedstawieniu wartosci dwóchzmiennych. Dla danej obserwacji o numerze iw układzie współrzednych zaznaczamy punkto współrzednych (xi, yi), gdzie xi to wartosc jednejzmiennej, a yi drugiej, i = 1, . . . , N . Wykres ten pozwalaocenic, czy istnieje zaleznosc miedzy tymi zmiennymi,tzn. czy punkty układaja sie wzdłuz jakiejs prostej lubkrzywej.

Analiza regresji – p. 28/52

Page 29: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Wykresy rozrzutu dla danychz przykładu 2.

30

35

40

45

wagaw kg

120 130 140 150 wzrostw cm

b

b

b

b

b

Analiza regresji – p. 29/52

Page 30: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Regresja liniowa

Ang. linear regression. W przypadku, gdy po wykonaniuwykresu rozrzutu obserwujemy, ze „chmura” punktów(xi, yi) układa sie wzdłuz prostej, mozemy spróbowacwyznaczyc jej równanie. Precyzyjniej: rozwazamy tzw.model regresji dla próbki i staramy sie tak wyznaczycwspółczynniki b1 i b0 w układzie równosci

yi = b1xi + b0 + εi, i = 1, . . . N,

by suma wartosci bezwzglednych błedów εi była jaknajmniejsza.Uwaga: Jesli rozwazamy funkcje liniowaf(x) = b1x+ b0, to ei = yi − f(xi).

Analiza regresji – p. 30/52

Page 31: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Regresja liniowa — wykres

30

35

40

45

wagaw kg

120 130 140 150 wzrostw cm

b

b

b

b

b

ε1

ε2ε3

ε4ε5

Analiza regresji – p. 31/52

Page 32: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Metoda najmniejszychkwadratów

Szukamy współczynników b1 i b0 równania prostej

y = b1x+ b0.

Mamy wartosci y1, . . . , yN zmiennej Y oraz wartoscihipotetyczne yi = f(xi) = b1xi + b0, i = 1, . . . N .Wówczas błedy εi = yi − yi. Wartosci b1 i b0wyznaczamy w ten sposób, aby suma

ε21 + ε22 + . . .+ ε

2N

była najmniejsza.

Analiza regresji – p. 32/52

Page 33: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Metoda najmniejszychkwadratów — wykres

30

35

40

45

wagaw kg

120 130 140 150 wzrostw cm

b

b

b

b

b

Analiza regresji – p. 33/52

Page 34: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Wzory na współczynniki

b1 =(x1y1 + x2y2 + . . .+ xNyN)−Nxy(x21 + x

22 + . . .+ x

2N)−Nx2

,

b0 = y − b1x.

Otrzymana prosta y = b1x+ b0 przechodzi przez punkt(x, y).

Analiza regresji – p. 34/52

Page 35: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Współczynniki dla danychz przykładu 2.

Imie xi yi xiyi x2i y2iAdam 120 38 4 560 14 400 1 444Bartek 135 40 5 400 18 225 1 600Kamil 125 42 5 250 15 625 1 764Wojtek 150 44 6 600 22 500 1 936Tomek 145 46 6 670 21 025 2 116suma 675 210 28 480 91 775 8 860

N = 5, x = 675/5 = 135, y = 210/5 = 42,

b1 =28 480−5·135·4291 775−5·1352 =

130650 = 0, 2; b0 = 42− 0, 2 · 135 = 15.

Analiza regresji – p. 35/52

Page 36: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Prosta regresji dla danychz przykładu 2.

30

35

40

45

wagaw kg

120 130 140 150 wzrostw cm

b

b

b

b

b

y = 0, 2x + 15

Analiza regresji – p. 36/52

Page 37: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Współczynnik korelacjiliniowej Pearsona

Ang. Pearson’s (sample) correlation coefficient. Idea —Galton (1869), oznaczenie — Galton (1888), wzór —Karl Pearson (1896).

rxy =x · y − x · ysx · sy

.

Przyjmuje wartosci z przedziału [−1, 1]. Dodatniawartosc tego współczynnika oznacza, ze wzrostwartosci jednej zmiennej generalnie pociaga za sobawzrost wartosci drugiej zmiennej; ujemna — spadek.r = 0, gdy nie ma zwiazku miedzy zmiennymi, |r| ≈ 1,gdy zwiazek jest bardzo silny.

Analiza regresji – p. 37/52

Page 38: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Korelacja a przyczynowo sc

Skorelowanie zmiennych nie oznacza zwiazkuprzyczynowo-skutkowego pomiedzy nimi. Czasemzmienne moga byc skorelowane, gdy pozostajaw zwiazku przyczynowym z jakas trzecia zmienna. Powyeliminowaniu wpływu tej zmiennej korelacja mozezniknac. Czasem wystepuje korelacja, której niepotrafimy sensownie wytłumaczyc, gdyz jestpowodowana głebszymi zmianamiekonomiczno-społecznymi.

Analiza regresji – p. 38/52

Page 39: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Zwiazek regresjii współczynnika Pearsona

Współczynnik korelacji jest miara dobroci dopasowaniaprostej regresji do danych. Im blizszy 1, tymdopasowanie lepsze.

Interpretacja r2 (tzw. współczynnik determinacji):jest to czesc zmiennosci zmiennej y, która daje siewyjasnic regresja, czyli liniowa zaleznoscia zmiennej yod zmiennej x.

Daniel T. Larose: Metody i modele eksploracji danych (2008).

Analiza regresji – p. 39/52

Page 40: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Współczynnik determinacji dladanych z przykładu 2.

x = 135, y = 42, xy = 28 480/5 = 5 696,

sx =

x21 + . . .+ x25

5− x2 =

91 775

5− 1352 =

√130,

sy =

y21 + . . .+ y25

5− y2 =

8 860

5− 422 =

√8,

r =5696− 135 · 42√

130 · 8=26√1 040

≈ 0, 806,

r2 =262

1 040= 0, 65.

Analiza regresji – p. 40/52

Page 41: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Wniosek dla danychz przykładu 2.

W 65% róznice wagi chłopców daja sie wyjasnicróznicami ich wzrostu. Pozostałe 35% to inne czynniki.

Analiza regresji – p. 41/52

Page 42: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Zalezno sc x od y

Wzory analogiczne do podanych pozwalaja równiezwyznaczyc współczynniki b1 i b0 równania

x = b1y + b0.

Otrzymana prosta nie musi sie pokrywac z y = b1x+ b0.Proste pokrywaja sie wtedy, gdy zaleznosc y od x jestw pełni liniowa. Wówczas b1 = 1/b1. Ogólnie okazujesie, ze

b1 · b1 = r2.

Analiza regresji – p. 42/52

Page 43: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Zalezno sc x od y dla danychz przykładu 2.

30

35

40

45

wagaw kg

120 130 140 150 wzrostw cm

b

b

b

b

b

x = 3, 25y − 1, 5

Analiza regresji – p. 43/52

Page 44: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Przypadki odstajace

Pojedyncze nietypowe obserwacje moga wpływacznaczaco na przebieg linii regresji, nazywa sie je wtedyobserwacjami wpływowymi.Punkt oddalony to taki, dla którego wartosc błedu εi jestznacznie wieksza od wartosci tych błedów dlapozostałych obserwacji. W przykładzie 2. bedzie to np.dodanie osoby o wzroscie 140 cm i wadze 35 kg.Punkt wysokiej dzwigni to punkt o rózniacej sieznacznie od pozostałych wartosci zmiennej x.W przykładzie 2. bedzie to np. dodanie osobyo wzroscie 200 cm i wadze 55 kg (obserwacjaniewpływowa) lub wzroscie 200 cm i wadze 40 kg(obserwacja wpływowa). Analiza regresji – p. 44/52

Page 45: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Punkt oddalony

30

35

40

45

wagaw kg

120 130 140 150 wzrostw cm

b

b

b

b

b

b

y = 0, 15x + 20

R2 = 0, 188

Analiza regresji – p. 45/52

Page 46: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Punkt wysokiej dzwigni(niewpływowy)

30

35

40

45

50

55

wagaw kg

120 130 140 150 160 170 180 190 200 wzrostw cm

bb

bb

b

by = 0, 2x + 15

R2 = 0, 923

Analiza regresji – p. 46/52

Page 47: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Punkt wysokiej dzwigni(wpływowy)

30

35

40

45

50

55

wagaw kg

120 130 140 150 160 170 180 190 200 wzrostw cm

bb

bb

b

b

y = 0, 005x + 41

R2 = 0, 003

Analiza regresji – p. 47/52

Page 48: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Postepowanie z przypadkamiodstajacymi

W celu wykluczenia z analizy przypadków odstajacych,które moga na nia niekorzystnie wpłynac, nalezy zrobicwykresy skrzynkowe analizowanych zmiennych. Nawykresach tych kółkiem i gwiazdka zaznaczone saprzypadki odstajace, odpowiednio nietypowe i skrajne.Przypadki te sugeruje sie usuwac, a w przypadku duzejich liczby analizowac osobno. Dobrze jest, jesli wiemy,co spowodowało odstawanie obserwacji.Moga zdarzyc sie przypadki odstajace, których wykresyskrzynkowe nie wychwyca (bo x i y zachowuja sietypowo, a zestawienie wartosci x i y jest dopieronietypowe). Sa one widoczne na wykresach rozrzutu.Dlatego zawsze oceniamy równiez wykres rozrzutu.Analiza regresji – p. 48/52

Page 49: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Wazny przykład

John Francis Anscombe (1918-2001), statystykangielski, podał przykład 4 par zmiennych x i y, dlaktórych otrzymujemy takie same wzory na prostaregresji i taki sam współczynnik dopasowania r2, a tylkodla jednej z tych par model jest własciwy. Trzebazawsze pamietac o wykonaniu wykresów rozrzutu!

Analiza regresji – p. 49/52

Page 50: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Dane Anscombe’a

x1 y1 x2 y2 x3 y3 x4 y4

10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58

8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76

13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71

9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84

11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47

14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04

6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25

4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50

12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56

7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91

5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89

Analiza regresji – p. 50/52

Page 51: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Model regresji dla całejpopulacji

Pytanie: czy wyznaczona prosta prezentuje zaleznosc yod x w całej populacji?Tak, jesli spełnione sa pewne warunki. Podstawowy:błedy εi powinny miec rozkład normalny o sredniej 0.Drugi warunek: test badajacy istnienie zwiazkuliniowego pomiedzy zmiennymi powinien dawac małaistotnosc, tzn. mniejsza niz 0,05 czy 0,1. Test ten mahipoteze zerowa mówiaca o braku takiego zwiazku. Dlamałych wartosci istotnosci hipoteze taka mozemyodrzucic.

Analiza regresji – p. 51/52

Page 52: Analiza regresji - joanka/popularne/regresja_KFnRD.pdf · Analiza regresji Wykład dla stypendystów Krajowego Funduszu na Rzecz Dzieci dr Joanna Karłowska-Pik Katedra Teorii Prawdopodobienstwa

Literatura

George A. Ferguson, Yoshio Takane: Analiza statystycznaw psychologii i pedagogice, PWN, Warszawa (1997).

Jarosław Górniak, Janusz Wachnicki: Pierwsze kroki w analiziedanych.

Daniel T. Larose: Metody i modele eksploracji danych. PWN,Warszawa, 2008.

Graham Upton, Ian Cook: A Dictionary of Statistics, OxfordUniversity Press, New York (2006).

Analiza regresji – p. 52/52