STATYSTYKA - Kolegiakolegia.sgh.waw.pl/pl/KAE/struktura/ISiD/Documents/WZORY.pdf · STATYSTYKA...

Post on 28-Feb-2019

249 views 0 download

Transcript of STATYSTYKA - Kolegiakolegia.sgh.waw.pl/pl/KAE/struktura/ISiD/Documents/WZORY.pdf · STATYSTYKA...

1

STATYSTYKA

PODSTAWOWE WZORY DOZWOLONE

NA EGZAMINIE NA STUDIACH LICENCJACKICH

Opracowanie przygotowane przez dr Marię Wieczorek na podstawie:

1. P. Kuszewski, J. Podgórski: Statystyka. Wzory i tablice. SGH, Warszawa, 2008

2. M. Wieczorek: Statystyka. Lubię to! Zbiór zadań. SGH, Warszawa 2013

2

1. Statystyki opisowe rozkładu empirycznego

Dystrybuanta empiryczna

dla x < x1

Fn(x) =

i

s

sw1

dla 1 ii xxx i=1,2,…k-1

1 dla kxx

Średnia arytmetyczna

n

j

jxn

x1

1

k

i

iinxn

x1

1=

i

k

i

iwx1

i

k

i

inxn

x

1

1 =

i

k

i

i wx1

Mediana

parzystengdy

xx

enieparzystngdyx

me nn

n

2

2

2

2

2

1

m

m

mnm

m

m

mmw

hxFx

n

hxn

nxme

0000

2

1

2

Kwantyl rzędu p

p

p

pnppw

hxFpxk 00

Wariancja:

obciążona

n

j

j

n

j

j xnxn

xxn

s1

22

1

22 11

3

k

i

ii

k

i

ii xnnxn

nxxn

s1

22

1

22 11

k

i

ii

k

i

ii xwxwxxs1

22

1

22

nieobciążona

n

j

j

n

j

j xnxn

xxn

s1

22

1

22

1

1

1

1

k

i

ii

k

i

ii xnnxn

nxxn

s1

22

1

22

1

1

1

1

Odchylenie standardowe

2ss

Współczynnik zmienności

%)100(x

sV

Rozstęp

minmax xx

Rozstęp ćwiartkowy

13 QQ

Odchylenie ćwiartkowe

2

13 QQQ

Współczynnik zmienności (pozycyjny)

%100me

QV

Współczynnik asymetrii

3

'

3

s

MA gdzie trzeci moment centralny:

n

j

j xxn

M1

3'

3

1

lub

k

i

ii nxxn

M1

3'

3

1

4

2. Rozkład zmiennej losowej

Funkcja prawdopodobieństwa zmiennej losowej skokowej X

P(X = xi) = pi i=1,2,…. przy czym 1i

ip

Dystrybuanta zmiennej losowej skokowej X

xpxFxx

i

i

)(

Wartość oczekiwana zmiennej losowej skokowej X

i

ii pxXE )(

Wariancja zmiennej losowej

D2(X) = E[X - E(X)]

2 = E(X

2) – [E(X)]

2

Wariancja zmiennej losowej skokowej X

2222 )()()( XEpxpXExXD i

i

ii

i

i

Standaryzacja zmiennej losowej X

)(

)(

XD

XEXU

5

3. Wybrane typy rozkładów

Rozkład zero-jedynkowy (dwupunktowy)

P (X = 1) = p

P(X = 0) = 1-p

przy czym: pXE )( ; )1()( ppXD

Rozkład dwumianowy

liczby sukcesów: k= 0, 1, 2,….n

przy czym: npXE )( ; )1()( pnpXD

częstości sukcesów: k= 0, 1, 2,….n

przy czym: pWE )( ; n

ppWD

)1()(

Rozkład normalny N(m,σ)

2

2

2

2

1)(

mx

exf

x

przy czym: E(X) = m; D(X) = σ

Rozkład normalny standardowy N(0,1)

2

2

2

1)(

u

euf

u

przy czym: E(U)=0; D(U) = 1

knk ppk

nkXP

)1()(

knk ppk

n

n

kWP

)1(

6

4. Rozkłady statystyk z próby

Założenia Wielkość

próby Rozkład statystyki

Rozkłady dokładne średniej arytmetycznej z próby

X: N(m, σ)

σ ‒ znane

próba

dowolna

X: N(m, σ)

σ ‒ nieznane

próba mała

n ≤ 30

t; v = n ‒ 1

Rozkłady dokładne różnicy średnich z dwóch prób

X1: N(m1, σ1)

X2: N(m2, σ2)

σ1, σ2 ‒ znane

próby

dowolne

X1: N(m1, σ)

X2: N(m2, σ)

σ ‒ nieznane, ale jednakowe

próby małe

t; v = n1 + n2 ‒ 2

Rozkłady graniczne: średniej, różnicy średnich, częstości, różnicy częstości

X ma dowolny rozkład (niekoniecznie

normalny) ze średnią m i odchyleniem

standardowym σ.

próba duża

X1 i X2 mają dowolne rozkłady

(niekoniecznie normalne) z parametrami

odpowiednio m1 i σ1 oraz m2 i σ2.

próby duże

n

i

i XXn

s

gdzie

ns

mXt

1

22 )(1

1

2

2

2

1

2

12121 ,:

nnmmNXX

2

)1()1(

)11

(

)()(

21

2

22

2

112

21

2

2121

nn

snsns

gdzie

nns

mmXXt

p

p

nmNX

,:

nmNasX

,.:

2

2

2

1

2

12121 ,.:

nnmmNasXX

7

Populacja ma rozkład zero-jedynkowya; X

ma rozkład dwumianowy z parametrami n i

p.

próba duża

n ≥ 100

Populacje zero-jedynkowe; X1 i X2 mają

rozkłady dwumianowe z parametrami

odpowiednio n1 i p1 oraz n2 i p2.

próby duże

a Z populacji o rozkładzie zero-jedynkowym losujemy niezależnie n elementów. X ‒ liczba elementów wyróżnionych w

próbie.

n

pppNasW

)1(,.:

n

ppWDpWE

n

XW

)1()()(

2

22

1

112121

)1()1(,:

n

pp

n

ppppasNWW

2

2

1

121

n

X

n

XWW

8

5. Przedziały ufności

Założenia Wielkość

próby Przedział ufności Współczynnik ufności

Przedział ufności dla średniej m

Populacja

normalna

X: N(m, σ)

m ‒ nieznane

σ – znane

próba

dowolna

1

nuXm

nuXP

P(‒uα < U < uα) = 1 ‒ α

tzn.

P(│U│ ≥ uα) = α

Populacja

normalna

X: N(m, σ)

m, σ –

nieznane

próba

mała

n ≤ 30

11,1,

n

stXm

n

stXP nn

P(‒tα,n ‒ 1 < t < tα,n‒1) = 1

‒ α

tzn.

P(│t│ ≥ tα,n‒1) = α

Populacja o

dowolnym

rozkładzie

m i σ –

nieznane

próba

duża

n > 30

1

n

suXm

n

suXP

P(‒uα < U < uα) = 1 ‒ α

tzn.

P(│U│ ≥ uα) = α

Przedział ufności dla parametru p w zero-jedynkowym rozkładzie populacji

Populacja o

rozkładzie

zero-

jedynkowym

p ‒ nieznane

próba

duża

n ≥ 100

1

)ˆ1(ˆˆ

)ˆ1(ˆˆ

n

ppupp

n

ppupP

P(‒uα < U < uα) = 1 ‒ α

tzn.

P(│U│ ≥ uα) = α

Minimalna liczebność próby przy szacowaniu m

2

22

d

un

d - dopuszczalny maksymalny błąd szacunku

Minimalna liczebność próby przy szacowaniu p

2

2 )1(

d

ppun

d – dopuszczalny, maksymalny błąd szacunku

9

6. Testowanie hipotez statystycznych

Testy istotności

Hipoteza

zerowa Założenia

Wielkość

próby Statystyka testująca i jej rozkład

H0: m = m0 populacja normalna

X: N(m, σ)

σ ‒ znane

próba

dowolna

N(0, 1)

populacja normalna

X: N(m, σ)

σ ‒ nieznane

próba mała

n ≤ 30

t; v = n ‒ 1

populacja normalna

X: N(m, σ)

σ ‒ nieznane

lub

dowolny (nieznany)

rozkład populacji

próba duża

n > 30

as. N(0, 1)

H0: m1 = m2 populacje normalne

X1: N(m1, σ1)

X2: N(m2, σ2)

σ1, σ2 ‒ znane

próby

dowolne

N(0, 1)

populacje normalne

X1: N(m1, σ1)

X2: N(m2, σ2)

σ1, σ2 ‒ nieznane, ale

jednakowe

próby małe

t; v = n1 + n2 ‒ 2

populacje normalne

X1: N(m1, σ1)

X2: N(m2, σ2)

σ1, σ2 ‒ nieznane

lub dowolne (nieznane)

rozkłady populacji

próby duże

as. N(0, 1)

H0: mR = m0 próby zależne

różnice Ri mają rozkład

normalny

σR ‒ nieznane

próby

dowolne

t; v = n ‒ 1

gdzie:

nmX

U

0

ns

mXt 0

ns

mXU 0

2

2

2

1

2

1

21

nn

XXU

2

11

11

21

2

22

2

112

21

2

21

nn

snsnsgdzie

nns

XXt

p

p

2

2

2

1

2

1

21

n

s

n

s

XXU

n

i

iR

n

i

ii

n

i

i

RRn

sn

XX

n

R

R1

221

21

1

1

1)(

ns

mRt

R

0

10

H0: p = p0 populacja o rozkładzie

zero-jedynkowym

próba duża

n > 100

as. N(0, 1)

gdzie:

H0: p1 = p2 populacje o rozkładzie

zero-jedynkowym

próby duże

as. N(0, 1)

gdzie:

H0: σ2 = σ0

2

H1: σ2 > σ0

2

populacja normalna

parametry nieznane

próba

dowolna

Χ2; v = n ‒ 1

lub

gdzie: s2 ‒ wariancja nieobciążona

2 ‒ wariancja obciążona

H0: σ12

= σ22

H1: σ12

> σ22

populacje normalne

parametry nieznane

próby

dowolne

F; v1 = n1 ‒ 1 (st. sw. licznika)

v2 = n2 ‒ 1 (st. sw. mianow.)

lub 1~

1~

2

2

22

1

2

11

nsn

nsnF

gdzie: s12 i s2

2 ‒ wariancje nieobciążone

12 i 2

2 ‒ wariancje obciążone

Test zgodności

χ2=

r

I i

iir

I i

ii

np

npn

n

nn

1

2

1

2 )(

ˆ

)ˆ( v= r – k - 1

n

pp

ppU

00

0

1

ˆ

21

21

11)ˆ1(ˆ

ˆˆ

nnpp

ppU

21

21ˆnn

XXp

2

22

1

11

ˆˆn

Xp

n

Xp

n

Xp ˆ

2

0

22 )1(

sn

2

0

22

~

sn

2

2

2

1

s

sF

11

7. Analiza wariancji

H0: m1 = m2 =…. = mr

H1: mi ≠ mj dla co najmniej jednej pary i , j

Średnia ogólna

Średnia grupowa

SKC = SKW + SKM

v1 = r - 1 ; v2 = n - r

Obszar krytyczny: P( F ≥ Fα ) = α

i

i

n

k

ki

i

i

r

i

ii

r

i

n

k

ki

yn

y

nyn

yn

y

1

11 1

1

11

211 1

2

1 1

2yynyyyy i

r

i

i

r

i

n

k

iki

r

i

n

k

ki

ii

2

2

w

m

s

sF

rn

SKWsoraz

r

SKMs wm

22

1

12

8. Zmienna losowa dwuwymiarowa

Funkcja prawdopodobieństwa zmiennej losowej (X,Y)

),( jiij yYxXPp i,j =1,2, …. przy czym 1i j

ijp

Funkcja prawdopodobieństwa rozkładu brzegowego zmiennej losowej X

)( i

j

iji xXPpp i=1,2,… przy czym 1

i

ip

Funkcja prawdopodobieństwa rozkładu brzegowego zmiennej losowej Y

)( j

i

ijj yYPpp j=1,2,… przy czym 1

j

jp

Funkcja prawdopodobieństwa rozkładu warunkowego zmiennej losowej X

j

ij

jip

pyYxXP

)|( i,j = 1,.2,….

Funkcja prawdopodobieństwa rozkładu warunkowego zmiennej losowej Y

i

ij

ijp

pxXyYP )|( i,j = 1,.2,….

Warunek niezależności zmiennych losowych skokowych X i Y

jiij ppp dla wszystkich par i, j

Kowariancja zmiennych losowych X i Y

)()(),cov( YEYXEXEYX

Kowariancja zmiennych losowych skokowych X i Y

ijj

i j

i pYEyXExYX )()(),cov(

Współczynnik korelacji zmiennych losowych X i Y

)()(

),cov(

YDXD

YX

13

9. Badanie zależności dwóch cech

Rozkłady brzegowe

Średnie

Wariancje

Rozkłady warunkowe

Średnie

Wariancje

Średnie ogólne (brzegowe) wyliczone ze średnich warunkowych

n

nx

x

l

j

jj

1

n

ny

y

k

i

ii

1

Kowariancja

dane indywidualne:

n

i

iii

n

i

ixy yxnyxn

yyxxn

c11 1

1

1

1

k

i

jjiji

jj

i

ijji

xj xnnxnn

nxx

s1

22

2

2

1

1

1

l

j

iiijj

ii

j

ijij

yi ynnynn

nyy

s1

22

2

2

1

1

1

j

k

i

iji

jn

nx

x

1

i

l

j

ijj

in

ny

y1

n

nx

x

k

i

ii

1

n

ny

y

l

j

jj

1

k

i

ii

k

i

ii

x xnnxnn

nxx

s1

221

2

2

1

1

1

l

j

jj

l

j

jj

y ynnynn

nyy

s1

221

2

2

1

1

1

14

dane pogrupowane w tablicy korelacyjnej:

Test niezależności

k

i ij

ijijl

j n

nn

1

2

1

2

ˆ

)ˆ( v=(k-1)(l-1)

Współczynnik zbieżności V-Cramera

1)-n(m

2V gdzie m=min(k,l)

Współczynnik korelacji liniowej Pearsona

Test na nieskorelowanie zmiennych

21 2

nr

rt v=n-2

Współczynnik korelacji rang Spearmana

)1(

6

12

1

2

nn

d

r

n

i

i

d

yx

xy

xyyxss

crr

k

i

l

j

ijjiijj

k

i

l

j

ixy yxnnyxn

nyyxxn

c1 11 1 1

1

1

1

15

10. Klasyczny model regresji liniowej

Y = E(Y|X = xi)+εi = αxi + β + εi i=1,2,…n

gdzie:

E(εi ) = 0

D2(εi )=E(εi

2)=σ

2

cov(εi,εj)=0 dla i≠j

εi : N(0,σ)

Funkcja regresji liniowej: ˆˆˆ ii xy

Parametry strukturalne:

Parametry stochastyczne

a) Wariancja i odchylenie standardowe składnika resztowego

ei = yi - i - reszty

yi – wartości empiryczne

i =α xi+ - wartości teoretyczne

b) Standardowe błędy ocen parametrów:

x

y

xyx

xy

n

i

i

n

i

ii

n

i

n

i

i

i

n

i

i

n

i

in

i

ii

s

sr

s

c

xx

yyxx

n

x

x

n

yx

yx

2

1

2

1

1

2

12

11

xy ˆˆ

2

1

2

2

n

e

s

n

i

i

e

2

ee ss

2

2

1

2

12

2

1

2

2

ˆ)1(

)( x

e

n

i

n

i

i

i

e

n

i

i

e

sn

s

n

x

x

s

xx

ss

2

1

22

1

2

1

2

1

22

1

2

1

22

ˆ)1( x

n

i

ie

n

i

n

i

ii

n

i

ie

n

i

i

n

i

ie

snn

xs

xxn

xs

xxn

xs

s

16

Współczynnik determinacji:

2

2

1

2

1

2

1

2

1

2

1

2

1

2

2

)1(

)2(11

ˆ

1

ˆ

y

e

n

i

i

n

i

i

n

i

i

n

i

ii

n

i

i

n

i

i

sn

sn

yy

e

yy

yy

yy

yy

r

Przedział ufności dla α

1)ˆˆ( ˆ2,ˆ2, ststP nn

Test dla hipotezy H0: α = α0

ˆ

st

, v=n-2

Test dla hipotezy H0: α = 0

ˆ

ˆ

st , v= n-2

Prognoza Y dla X=x

ˆˆˆ xy

Standardowy błąd prognozy Y dla X=x

n

i

i

e

p

x

xx

xx

nsys

1

2

2

)(

)(11)(

Przedział ufności dla prognozowanej wartości Y

1)](ˆˆ)(ˆ[ 2,2,

p

xnx

p

xnx ystyyystyP

17

11. Analiza szeregów czasowych

Wskaźniki wahań sezonowych dla szeregu czasowego bez trendu

y

yO i

i i=1, 2, ….d względne

yyS ii i= 1, 2,.…d absolutne

przy czym: yorazyi - średnia w poszczególnych podokresach cyklu i średnia ogólna

Średnia ruchoma zwykła

q

qr

rtt yq

y12

1 t=q + 1, q + 2,….., n – q; q= 1, 2,….

Średnia ruchoma scentrowana

1

1 2

1

2

1

2

1 q

qr

qtrtqtt yyyq

y

Wahania sezonowe multiplikatywne

Indywidualne wskaźniki sezonowości

( t - średnie ruchome)

Surowe wskaźniki sezonowości: średnie arytmetyczne z wskaźników indywidualnych

Wskaźnik korygujący

d – liczba podokresów

Oczyszczone wskaźniki sezonowości

kOO ii ' (i=1,2,…d)

przy czym

Eliminacja wahań multiplikatywnych

t

t

y

y

),...2,1(1

1' diy

y

nO

iNt t

t

i

i

d

i

iO

dk

1

'

dOd

i

i 1

i

i

tt Nt

O

yy ~

18

Wahania sezonowe addytywne

Indywidualne różnice

( t - średnie ruchome)

Surowe odchylenia sezonowe: średnie arytmetyczne różnic

Wskaźnik korygujący

d – liczba podokresów

Absolutne oczyszczone odchylenia sezonowe

kSS ii ' (i=1,2,…d)

przy czym

Eliminacja wahań addytywnych

tt yy

),...2,1(1

1' diyyn

SiNt

tt

i

i

d

i

iSd

k1

'1

01

d

i

iS

iitt NtSyy ~

19

12. Indeksy statystyczne

Przyrost absolutny

Δt = yt – yt-1 t = 1,……n - 1

Przyrost względny

t

t

ty

t = 1,……n – 1

Indeks indywidualny jednopodstawowy

t

t

tty

yi / t = 0, 1,……n – 1

Indeks indywidualny łańcuchowy

1

1/

t

t

tty

yi t = 0, 1,……n – 1

Średnie tempo zmian w okresie (0, n-1)

r(0,n-1) = 1gi gdzie 1

0

11

1

1

1/

nn

n

n

t

ttgy

yii

Indeksy agregatowe wartości, ilości i cen ( sumowanie w indeksach agregatowych po j

składnikach agregatu)

j p

j

j

ip

p

1

0 indywidualny indeks cen

0

1

j

j

qjq

qi

indywidualny indeks ilości

Agregatowy indeks wartości:

j

jj

j

jj

j

j

j

j

wqp

qp

w

w

I00

11

0

1

20

Agregatowy indeks cen:

Ogólna postać standaryzacyjna:

j

constjtj

j

constjtj

pqp

qp

I0

1

a) według formuły Laspeyresa:

j

jopj

j

jo

j

jopj

j

jojo

j

jojopj

j

jj

j

jj

pL uiw

wi

qp

qpi

qp

qp

I00

01

b) według formuły Paaschego:

j pj

j

j pj

j

j

j

j pj

jj

j

jj

j

jj

j

jj

pP

i

u

i

w

w

i

qp

qp

qp

qp

I11

1

11

11

10

111

c) według formuły Fishera:

F p L pP pI I I

Agregatowy indeks ilości (masy fizycznej):

Ogólna postać standaryzacyjna:

j

constjtj

j

constjtj

qpq

pq

I0

1

a) według formuły Laspeyresa:

j

joqj

j

jo

j

joqj

j

jojo

j

jojoqj

j

jj

j

jj

qL uiw

wi

qp

qpi

qp

qp

I00

10

21

b) według formuły Paaschego:

j qj

j

j qj

j

j

j

j qj

jj

j

jj

j

jj

j

jj

qP

i

u

i

w

w

i

qp

qp

qp

qp

I11

1

11

11

01

111

c) według formuły Fishera:

F q L qP qI I I

Równość indeksowa

qFpFqLpPqPpLw IIIIIII