New Statystyka - Uniwersytet Ekonomiczny w...

Post on 10-Oct-2020

1 views 0 download

Transcript of New Statystyka - Uniwersytet Ekonomiczny w...

STATYSTYKARafał Kucharski

Uniwersytet Ekonomiczny w Katowicach 2015/16ROND, Finanse i Rachunkowość, rok 2

ZależnośćI przyczynowo-skutkowa,I symptomatyczna,I pozorna (iluzoryczna),

funkcyjna stochastyczna

Korelacjabrak korelacji korelacja krzywoliniowa

korelacja dodatnia korelacja ujemna

Regresja I rodzajuI Rozważmy dwuwymiarową skokową zmienną losową (X ,Y ).I pij = P(X = xi ,Y = yj) – rozkład dwuwymiarowy,I pi · = P(X = xi ), p·j = P(Y = yj) – rozkłady brzegowe,I warunkowa wartość oczekiwana X pod warunkiem Y = yj :

E(X |Y = yj) =∑i

xiP(X = xi |Y = yj) =∑i

xi ·pijp·j,

I warunkowa wartość oczekiwana Y pod warunkiem X = xi :

E(Y |X = xi ) =∑j

yjP(Y = yj |X = xi ) =∑j

yj ·pijpi ·,

I Funkcję h1(y) := E(X |Y = y) nazywamy funkcją regresji I rodzajuzmiennej losowej X względem Y ,

I Funkcję h2(x) := E(Y |X = x) nazywamy funkcją regresji I rodzajuzmiennej losowej Y względem X ,

I Wykresy tych funkcji nazywamy krzywymi regresji I rodzaju.

P(X = i ,Y = j)i \ j 1 2 3 pi ·1 2

32032

232

432

2 332

032

332

632

3 632

132

432

1132

4 532

532

132

1132

p·j 1632

632

1032 1

P(Y = j |X = k)i \ j 1 2 3

1 12 0 1

2

2 12 0 1

2

3 611

111

411

4 511

511

111

E(Y |X = 1) = 1 · 12

+ 3 · 12

= 2,

E(Y |X = 2) = 1 · 12

+ 3 · 12

= 2,

E(Y |X = 3) = 1 · 611

+ 2 · 111

+ 3 · 411

=2011,

E(Y |X = 4) = 1 · 511

+ 2 · 511

+ 3 · 111

=1811.

E(X |Y = 1) =238, E(X |Y = 2) =

236, E(X |Y = 3) =

125.

1

2

3

1 2 3 4

X

Y

Uwaga: przyjmując pij =nijn

możemy wykonać analogiczne obliczeniadla danych empirycznych z tablicy korelacyjnej, otrzymując empirycznekrzywe regresji.

Szereg korelacyjny

numer xi yiobserwacji1 x1 y12 x2 y23 x3 y3

. . . . . .n xn yn

Uwaga: sortując dane nie możemy zgubić informacji o powiązaniachmiędzy cechami!

Tablica korelacyjna

y1 y2 . . . yj . . . ys∑j

x1 n11 n12 . . . n1j . . . n1s n1·x2 n21 n22 . . . n2j . . . n2s n2·...

...... . . . ... . . . ...

...xi ni1 ni2 . . . nij . . . nis ni ·...

...... . . . ... . . . ...

...xr nk1 nk2 . . . nkj . . . nrs nr ·∑i n·1 n·2 . . . n·j . . . n·s n

I nij – liczba obserwacji (xi , yj),I ni · =

∑sj=1 nij ,

I n·j =∑ri=1 nij .

Rozkłady brzegowe i warunkoweI średnia i wariancja ogólna cechy X :

x =1n

r∑i=1

xini ·, S2x =1n

r∑i=1

(xi − x)2ni · =1n

r∑i=1

x2i ni · − (x)2,

I średnia i wariancja ogólna cechy Y :

y =1n

s∑j=1

yjn·j , S2y =1n

s∑j=1

(yj − y)2n·j =1n

s∑j=1

y2i n·j − (y)2,

I średnie i wariancje warunkowe cechy X , dla j = 1, . . . , s :

xj =1n·j

r∑i=1

xinij , S2j (x) =1n·j

r∑i=1

(xi−xj)2nij =1n·j

r∑i=1

x2i nij−(xj)2,

I średnie i wariancje warunkowe cechy Y , dla i = 1, . . . , r :

yi =1ni ·

s∑j=1

yjnij , S2i (y) =1ni ·

s∑j=1

(yj−yi )2nij =1ni ·

s∑j=1

y2j nij−(yi )2.

Kowariancja

Kowariancja: dla szeregu szczegółowego:

cov(x , y) =1n

n∑i=1

(xi − x)(yi − y) =1n

n∑i=1

xiyi − x y ,

dla tablicy korelacyjnej:

cov(x , y) =1n

r∑i=1

s∑j=1

nij(xi − x)(yj − y) =1n

r∑i=1

s∑j=1

nijxiyj − x y .

Uwaga: kowariancja jest trudna w interpretacji – nie interpretujemy.

Współczynnik korelacji liniowej Pearsona

rxy = ryx =cov(x , y)SxSy

=cov(x , y)√S2x S2y

I znak mówi nam o kierunku korelacji:I rxy > 0 – korelacja dodatnia,I rxy < 0 – korelacja ujemna,

I wartość bezwzględna mówi o sile zależności:I [0, 0.2) – bardzo słaba (brak),I [0.2, 0.4) – słaba,I [0.4, 0.6) – umiarkowana,I [0.6, 0.8) – silna,I [0.8, 1.0] – bardzo silna.

Współczynnik zbieżności

I Niezależność zmiennych skokowych: pij = pi · · p·j dla każdych i , j ,I Zastępując prawdopodobieństwa liczebnościami otrzymujemy

warunek niezależności dla danych empirycznych:

nijn

=ni ·n· n·jn

dla każdych i , j

I Przy niezależności cech powinny wystąpić liczebności teoretyczne:

nij =ni · · n·jn

I Do oceny siły zależności służy wielkość

Z =r∑i=1

s∑j=1

(nij − nij)2

nij= n

r∑i=1

s∑j=1

nijni · · n·j

− 1

,

Współczynnik zbieżności c.d.I Współczynnik zbieżności V Cramera:

V =

√Z

n · (min(r , s)− 1)

V ∈ [0, 1], V = 0 – niezależność, V = 1 – zależność funkcyjna.I współczynnik Czuprowa:

T =

√Z

n√

(r − 1)(s − 1),

I współczynnik C Pearsona:

C =

√ZZ + n

,

I współczynnik φ Yule’a:

φ =

√Zn,

Współczynniki asocjacji dla tablic czteropolowychGdy badane zmienne są dychotomiczne, tablica korelacyjna maszczególną postać:

X \ Y y1 y2 Razemx1 a b a+ bx2 c d c + d

Razem a+ c b + d n

Do badania zależności zmiennych możemy wówczas użyćwspółczynników zbieżności korelacyjnej:

I Pearsona-Bravaisa:

V =ad − bc

(a+ b)(a+ c)(b + d)(c + d)

I Bykowskiego:

W =(a+ d)− (b + c)a+ b + c + d

,

I Yula-Kendalla:Q =ad − bcad + bc

.

Przykład: funkcyjna zależność krzywoliniowax y x2 y2 xy−2 4 4 16 −8−1 1 1 1 −10 0 0 0 01 1 1 1 12 4 4 16 8

covxy =15

(−8− 1+ 1+ 8) = 0 =⇒ rxy = 0.

y \ x −2 −1 0 1 2 ni ·0 0 0 1 0 0 11 0 1 0 1 0 24 1 0 0 0 1 2n·j 1 1 1 1 1 5

Z = 5(1+12

+12

+12

+12− 1

)= 10, V =

√10

5 · (min(3, 5)− 1)= 1.

Empiryczne krzywe regresjiI Empiryczna krzywa regresji cechy Y względem cechy X (opisująca

zależność Y od X ) to łamana przechodząca przez punkty (xi , yi ),i = 1, . . . , r ,

I Empiryczna krzywa regresji cechy X względem cechy Y (opisującazależność X od Y ) to łamana przechodząca przez punkty (xj , yj),j = 1, . . . , s ,

I Wariancja średnich warunkowych Y :

S2(yi ) =1n

r∑i=1

(yi − y)2ni · =1n

r∑i=1

(yi )2ni · − (y)2

I Wariancja średnich warunkowych X :

S2(xj) =1n

s∑j=1

(xj − x)2n·j =1n

s∑j=1

(xj)2n·j − (x)2

I Średnie wariancji:

S2i (y) =1n

r∑i=1

S2i (y)ni ·, S2j (x) =1n

s∑j=1

S2j (x)n·j ,

Stosunki korelacyjne

I wychodzimy od równości wariancyjnej:

S2y = S2(yi ) + S2i (y)

I stosunek korelacyjny y względem x (wpływ x na y ) obliczamy jako

eyx =

√S2(yi )S2y

=

√√√√1− S2i (y)S2y

.

I stosunek korelacyjny x względem y (wpływ y na x) obliczamy jako

exy =

√S2(xj)S2x

=

√√√√1− S2j (x)

S2x.

I obliczamy dla danych uporządkowanych w tablicy korelacyjnej,

Stosunki korelacyjne

I Stosunki korelacyjne przyjmują wartości z [0, 1],I zwykle exy 6= eyx ,I są to miary zależności krzywoliniowej,I mamy r2xy ¬ e2xy , r2xy ¬ e2yx ,I za miary krzywoliniowości związku mogą służyć:

mxy = e2xy − r2xy , myx = e2yx − r2xy ,

I zmienna, której wpływ badamy, może być niemierzalna.

Współczynnik korelacji rang Spearmana

I umożliwia określenie siły zależności między cechami porządkowymi,I krok 1: nadajemy obserwacjom rangi – kolejne numery od 1 do n,I jeśli ta sama wartość cechy występuje kilka razy, przypisujemy im

średnią arytmetyczną z kolejnych rang (rangi wiązane),I obliczamy różnice rang di dla kolejnych obserwacji,I przy braku rang wiązanych współczynnik obliczamy z wzoru:

rS = 1− 6∑ni=1 d

2i

n(n2 − 1).

I w przypadku istnienia rang wiązanych najlepiej obliczyć go z wzoruna współczynnik korelacji Pearsona, za wartości cech podstawiającich rangi.

I rS ∈ [−1, 1], interpretacja taka jak współczynnika Pearsona,

Współczynnik korelacji rang Spearmana

Jak wspominam Rangi Wynagrodzenie Rangi„Statystykę”? xi netto yi d2i

dobrze 3 2900 4 1bardzo dobrze 1 5000 1 0

dobrze 3 3800 2 1źle 6 3300 3 9

bardzo źle 7 1000 7 0dobrze 3 2300 5 4

tak sobie 5 2200 6 1

Ranga wiązana: 2+3+43 = 3.

1− 6∑ni=1 d

2i

n(n2 − 1)= 1− 6 · (1+ 1+ 9+ 4+ 1)

7 · (49− 1)≈ 0.7142857.

(a dokładnie rS = 0.704186851).

Współczynnik korelacji cząstkowejI rozpatrujemy zmienne x1, . . . , xk ,I interesuje nas siła związku zmiennych xi oraz xj z wyłączeniem

wpływu pozostałych zmiennych,I wykorzystujemy współczynnik korelacji cząstkowej: rij .ab...zI indeksy przed kropką oznaczają cechy których zależność badamy,

indeksy po kropce – cechy których wpływ wykluczamy,I obliczamy go z wzoru:

rij .kl ...z =−Rij√RiiRjj

,

gdzie:I R jest macierzą współczynników korelacji Pearsona wszystkich

analizowanych zmiennych,I Rij jest dopełnieniem algebraicznym macierzy R ,Rij = (−1)i+j det(Mij), gdzie Mij jest podmacierzą powstałą przezskreślenie i-tego wiersza i j-tej kolumny macierzy R .

Współczynnik korelacji wielorakiejI chcemy badać zależność jednej zmiennej (zmiennej zależnej,

objaśnianej) od jednoczesnego wpływu zespołu innych zmiennych(niezależnych, objaśniających),

I wykorzystujemy współczynnik korelacji wielorakiej: Rw = Ri .ab...zI indeks przed kropką oznacza zmienną objaśnianą, indeksy po

kropce – zmienne objaśniające, których wpływ chcemy badać,I obliczamy go z wzoru:

Rw = Ri .ab...z =

√1− det(R)

det(Ri ),

gdzie:I R jest macierzą współczynników korelacji Pearsona wszystkich

analizowanych zmiennych,I Ri jest macierzą współczynników korelacji zmiennych objaśniających.

I Rw ∈ [0, 1] – interpretujemy tylko siłę związku.

Regresja liniowa

I Jeśli zależność między cechami mierzalnymi X i Y jest liniowa, to:

Yi = aXi + b + εi , i = 1, . . . , n,

gdzie a i b są pewnymi parametrami, zaś εi są odchyleniami(składnikami) losowymi, nie wyjaśnionymi przez X .

I Zmienną Y = aX + b nazywamy regresją (liniową) Y względem X .I Zakładamy (schemat Gaussa-Markowa), że

I Zmienna objaśniająca X jest nielosowa.I Składnik losowy ma rozkład normalny: εi ∼ N(µi , σ

2i ), i = 1, . . . , n.

I Składnik losowy nie wpływa systematycznie na Y : µ = E(εi ) = 0,i = 1, . . . , n.

I Zmienność składnika losowego nie zależy od x : D2(εi ) = σ2,i = 1, . . . , n.

I Składniki losowe są nieskorelowane: cov(εi , εj) = 0, i 6= j .I Estymacji parametrów dokonuje się jedynie na podstawie informacji

zawartych w próbie.

Klasyczna Metoda Najmniejszych KwadratówI Gauss (1801), służy do szacowania parametrów funkcji regresji.I Parametry a i b są nieznane, szacujemy je na podstawie próby.I Otrzymamy wówczas linię regresji próby:

yi = axi + b, i = 1, . . . , n.

I yi – wartość teoretyczna zmiennej Y dla i-tej obserwacji.I a, b – estymatory (oszacowania) parametrów.I Różnice między wartościami teoretycznymi a empirycznymi

nazywamy resztami:

ei = yi − yi = yi − axi − b.

I Reszty ei nie są równe εi , ale można je traktować jako realizacjeskładnika losowego:

axi + b + εi = yi = yi + ei = axi + b + ei .

Klasyczna Metoda Najmniejszych Kwadratów, c.d.Oszacowania a i b mają minimalizować błąd dopasowania:

F (a, b) =n∑i=1

e2i =n∑i=1

(yi − axi − b)2 −→ min .

Przyrównujemy do zera jej pochodne względem parametrów:

∂∑ni=1(yi − axi − b)2

∂b= −2

n∑i=1

(yi − axi − b) = 0

∂∑ni=1(yi − axi − b)2

∂a= −2

n∑i=1

xi (yi − axi − b) = 0.

Po uporządkowaniu otrzymujemy układ równań normalnych:

n∑i=1

yi = nb +

(n∑i=1

xi

)a

n∑i=1

xiyi =

(n∑i=1

xi

)b +

(n∑i=1

x2i

)a

Klasyczna metoda najmniejszych kwadratów, c.d.

Dzieląc pierwsze równanie przez n otrzymujemy:

y = ax + b, ⇐⇒ b = y − ax .

Podstawiając ten wynik do drugiego równania obliczamy:

n∑i=1

xiyi =

(n∑i=1

xi

)(y − ax) +

(n∑i=1

x2i

)a

n∑i=1

xiyi − nx y = a

(n∑i=1

x2i − nx2)

Ostatecznie

a =

∑ni=1 xiyi − nx y∑ni=1 x

2i − nx2

=cov(x , y)S2x

=cov(x , y)Sx · Sy

· SySx

= rxy ·SySx.

Ocena dopasowania linii regresji

I wartości teoretyczne: yi = axi + b,I reszty: ei = yi − yi ,I TSS =

∑ni=1(yi − y)2, zmienność całkowita,

I ESS =∑ni=1(yi − y)2, zmienność objaśniona,

I RSS =∑ni=1 e

2i , suma kwadratów reszt, zmienność nieobjaśniona.

I współczynnik zbieżności:

ϕ2 =RSSTSS

=

∑ni=1(yi − y)2∑ni=1(yi − y)2

.

I współczynnik determinacji: R2 = 1− ϕ2 – jaka część zmiennościzmiennej Y jest wyjaśniona zmiennością zmiennej X .

Ocena dopasowania linii regresji c.d.

I wariancja resztowa:

S2e =1n − 2

n∑i=1

(yi − yi )2 =1n − 2

n∑i=1

e2i ,

I odchylenie standardowe składnika resztowego: Se =√S2e ,

I standardowe błędy szacunku parametrów (błędy średnie szacunku):

S(b) =Se√∑n

i=1(xi − x)2, S(a) = S(b) ·

√∑ni=1 x

2i

n,

I względne średnie błędy szacunku: S(a)/a, S(b)/b,I Uwaga: Var(a) = S2(a), Var(b) = S2(b),I S2e jest nieobciążonym estymatorem (nieznanego) parametru σ2.

Przykład 1

x 1 2 3 4 5 6 20y 5 6 6.5 5 7 9 1

0 5 10 15 20

02

46

810

x

y

Odrzucenie ostatniej obserwacji zmienia znak parametrów

Przykład 2

x 1 1.2 2 3 3.5 10 11 12 14 17 18 20y 7 4 6 5 1 25 21 26 19 15 17 10

0 5 10 15 20

05

10

15

20

25

30

Widzimy dwie odrębne grupy. Parametry w każdej z grup z osobna sąinne niż z całości.

Kwartet Anscombe

Zbiór danych 1-3 1 2 3 4 4Obserwacja Zmienna x y y y x y

1 10.0 8.04 9.14 7.46 8.0 6.582 8.0 6.95 8.14 6.77 8.0 5.763 13.0 7.58 8.74 12.74 8.0 7.714 9.0 8.81 8.77 7.11 8.0 8.005 11.0 8.33 9.26 7.81 8.0 8.476 14.0 9.96 8.10 8.84 8.0 7.047 6.0 7.24 6.13 6.08 8.0 5.258 4.0 4.26 3.10 5.39 19.0 12.509 12.0 10.84 9.13 8.15 8.0 5.5610 7.0 4.82 7.26 6.42 8.0 7.9111 5.0 5.68 4.74 5.73 8.0 6.89

Równania regresji dla wszystkich przypadków mają postać:

y = 3.0+ 0.5x

0 5 10 15 20

02

46

810

Zbiór danych 1

0 5 10 15 20

02

46

810

Zbiór danych 2

0 5 10 15 20

02

46

810

Zbiór danych 3

0 5 10 15 20

02

46

810

Zbiór danych 4

Predykcja na podstawie modelu regresji liniowejI „Dobry” model może posłużyć do przewidywania wartości cechy Y

przy założonej wartości cechy X .I Estymatorem E(Y |X = x) jest

y = a · x + b.

I Dokładność tego oszacowania oceniamy za pomocą estymatorajego odchylenia standardowego:

S(y) = Se

√1n

+(x − x)2∑ni=1(xi − x)2

.

I Estymator pojedynczej realizacji Y |X = x jest także równy

yp = a · x + b,

przy czym błąd takiej prognozy należy powiększyć o możliweodchylenie od średniej:

S(yp) = Se

√1+1n

+(x − x)2∑ni=1(xi − x)2

.

Pewne zależności sprowadzalne do postaci liniowejI Funkcja półlogarytmiczna: y = a ln x + b. Przyjmując z = ln x

otrzymujemy:y = az + b.

I Funkcja wielomianowa: y = axp + b, p ∈ R. Przyjmując z = xp

otrzymujemy:y = az + b.

I Funkcja potęgowa: y = bxa, a > 0. Po zlogarytmowaniu:

ln y = ln b + a ln x .

Przyjmując β = ln b, α = a, z = ln y , u = ln x , otrzymujemy

z = αu + β.

I Funkcja wykładnicza: y = bax , a, b > 0, a 6= 1. Po zlogarytmowaniu:

ln y = ln b + ln a · x .

Przyjmując β = ln b, α = ln a, z = ln y , u = x otrzymujemy

z = αu + β.