STATYSTYKA MATEMATYCZNA WYKŁAD 14rziel/PW_Wyk14.pdf– Estymator nieobciążony: E θ^ = θ dla...

Post on 13-Jul-2020

2 views 0 download

Transcript of STATYSTYKA MATEMATYCZNA WYKŁAD 14rziel/PW_Wyk14.pdf– Estymator nieobciążony: E θ^ = θ dla...

STATYSTYKA MATEMATYCZNAWYKŁAD 1418 stycznia 2010

ROZKŁAD DWUMIANOWY

Model statystyczny(0, 1, . . . , n, Pθ, θ ∈ (0, 1)

), n ustalone

PθK = k =

(nk

)θk(1− θ)n−k , k = 0, 1, . . . , n

Geneza:

Rozkład Bernoulliego (dwupunktowy):

Pθξ = 1 = θ = 1− Pθξ = 0

K = ξ1 + ξ2 + . . .+ ξn

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

Estymator naturalny parametru θ: θ = Kn

Własności estymatora θ:

– Estymator nieobciążony: E θ = θ dla każdego θ ∈ (0, 1)

– Estymator największej wiarogodności

– Estymator uzyskany metodą momentów

– Estymator nieobciążony o jednostajnie minimalnej wariancji

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

θ = Kn

Wariancja i błąd średniokwadratowy (estymator nieobciążony)

Varθ(θ) =θ(1− θ)

n

Bθ(θ) =√Eθ(θ − θ2) =

√Varθ(θ)

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

Nierówność Czebyszewa

Pθ|θ − θ| ­ ε ¬Varθ(θ)

ε2

Pθ|θ − θ| < t

√Varθ(θ)

­ 1− 1

t2(θ − t

√Varθ(θ), θ + t

√Varθ(θ)

)traktuje się jako coś w rodzaju

przedziału ufności dla nieznanej frakcji θ, na poziomie ufności1− 1/t2.

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

θ = Kn

dd

0 0.2 0.4 0.6 0.8 1

0.05

0.1

0.15

........

........

........

........

........

........

........

........

........

........

........

.........

........

........

.........................................................................................................................................................................................................................................................................................................................................................................

...............................

.............................................

..............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.........................................................................................................

................................

..............................................

............................................................

...........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

Rys.1

θ

n = 10

n = 100

Bθ(Kn )

1

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

Jednostajnie minimalna wariancja - czy na pewno o tochodzi? Wiadomo, że frakcja może być jedną z liczb z przedziału(0, 1). „Jednostajnie” minimalny błąd estymatora oznacza, że jeston minimalny przy każdej wartości θ ∈ (0, 1). Ale jeżeli z górywiemy, że estymowana frakcja mieści się w pewnym przedziale(t1, t2), 0 < t1 < t2 < 1, to może nam wcale nie zależeć na małymbłędzie estymatora dla frakcji o wartościach poza tym przedziałem.Czy zyskujemy coś na minimalizowaniu błędu estymatora tylko natym wyróżnionym przedziale?

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

Powiemy, że estymator θ1 jest lepszy od estymatora θ2 naprzedziale (t1, t2), jeżeli jego średni błąd na tym przedziale jestmniejszy, tzn. jeżeli∫ t2

t1Bθ(θ1)dθ <

∫ t2t1Bθ(θ2)dθ.

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

Rozważamy estymatory θ = θ(K ), które są funkcją liczby Kobserwacji wyróżnionych w próbie. Dla takich estymatorów mamy

Bθ(θ(K )

)=n∑k=0

[θ(k)− θ

]2(nk

)θk(1− θ)n−k

zatem ∫ t2t1Bθ(θ(K )

)dθ =

=n∑k=0

(nk

)[θ(k)2 c(k , n; t1, t2)−2θ(k) c(k+1, n; t1, t2)+c(k+2, n; t1, t2)

]gdzie

c(k , n; t1, t2) =

∫ t2t1θk(1−θ)n−kdθ.

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

Minimalizując, dla każdego k oddzielnie, wyrażenia w nawiasachkwadratowych otrzymujemy optymalny estymator w łatwej doobliczeń postaci

θ(K ) =c(K + 1, n; t1, t2)c(K , n; t1, t2)

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

Przykład numeryczny. Zwróćmy uwagę na to, że zmodyfikowany estymator nigdy nieprzyjmuje wartości poza przedziałem (t1, t2), dla którego został zaprojektowany.

Przedział (t1, t2)K

(0, 1) (0, 0.5) (0.3, 0.4)

0 0.0 0.0837 0.33771 0.1 0.1644 0.34112 0.2 0.2396 0.34663 0.3 0.3030 0.34824 0.4 0.3519 0.35185 0.5 0.3872 0.35546 0.6 0.4121 0.35897 0.7 0.4296 0.36228 0.8 0.4422 0.36529 0.9 0.4514 0.3681

10 1.0 0.4583 0.3707

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

Błąd tych estymatorów kształtuje się tak, jak to przedstawiono naRys. 2. Zależy on istotnie od tego, jak wybraliśmy przedział(t1, t2): im przedział jest krótszy, tym błąd wewnątrz tegoprzedziału jest mniejszy, ale jeżeli wybrany przez nas przedział niepokrywa nieznanej, szacowanej wartości frakcji θ, to błąd może byćbardzo duży. Dla porównania na tym samym rysunku narysowanotakże błąd standardowego estymatora K/n.

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

dd

0 0.2 0.4 0.6 0.8 1

0.1

0.2

0.3

0.4

0.5 ..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

...

....................................................................................................

.................................

............................................

...........................................................

..................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.................................................................................................................................................................................... .........

.....................................................................................................................................................................................................................................................................

........................................................................................................................

..................

...........................

..............................

................................................................................................................................................................

Rys.2

θ

(0.0, 0.5)

(0.3, 0.4)

K/n

1

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

Poszukując optymalnego estymatora frakcji w sytuacji, gdy naszawiedza a priori o tej frakcji lokuje ją „gdzieś w przedziale (t1, t2)”,minimalizowaliśmy∫ t2

t1Bθ(θ(K )

)dθ =

∫ 1

01(t1,t2)(θ)Bθ

(θ(K )

)dθ,

czyli błąd uśredniony wagą 1(t1,t2)(θ).

Można to uśrednienie dokonać dla innej niż 1(t1,t2)(θ) wagi,powiedzmy wagi π(θ), θ ∈ (0, 1), na przykład takiej, jakąprzedstawia Rys. 3. Wygodnie jest wybierać wagę spośród gęstościrozkładów prawdopodobieństwa, a w naszym przypadku estymacjifrakcji spośród gęstości rozkładu beta

Γ(α, β)

Γ(α)Γ(β)tα−1(1− t)β−1

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

dd

0 0.2 0.4 0.6 0.8 1

1

2

3

4

5 ..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

....

...........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

Rys.3

θ

1

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

Wybór wagi typu

Γ(α, β)

Γ(α)Γ(β)tα−1(1− t)β−1

pozwala na korzystanie z rozbudowanego aparatu statystykiBayesowskiej.

W statystyce Bayesowskiej wagę π(θ) interpretujemy jako rozkłada priori, a rozwiązaniem naszego zadania, tzn. optymalnymestymatorem frakcji θ, jest wtedy (K + α)/(α + β + n) – jest tośrednia w rozkładzie a posteriori.

Błąd średniokwadratowy estymatora Bayesowskiego dla rozkładua priori z Rys. 3 (α = 7, β = 20) i dla liczności próby n = 10przedstawia Rys. 4; dla porównania przedstawiono tu również błądestymatora standardowego K/n.

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

dd

0 0.2 0.4 0.6 0.8 1

0.1

0.2

0.3

0.4

0.5 ..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

...

....................................................................................................

.................................

............................................

...........................................................

..................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

........................................................................ ......... ......... ......... ......... ..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

...

Rys.4

θ

K + 7n+ 27

K/n

1

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

Rozkład a priori - fuzzy set (zbiór rozmyty)

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

Błąd estymatora zależy od nieznanej wartości parametru θ.Możemy tak manipulować, żeby był on możliwie mały w obszarzeo którym wiemy, że zawiera to nieznane θ, ale jeżeli mamy pechai prawdziwa, nieznana wartość tego parametru leży daleko pozawybranym przez nas obszarem, błąd może okazać się katastrofalnieduży.

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

Można się przeciwko temu zaasekurować konstruując estymator,którego maksymalny błąd będzie możliwie mały. Takie estymatorynazywają się estymatorami minimaksowymi.

W naszym przypadku takim estymatorem jest

K + 12

√n

n +√n

Ma on stały błąd, zależny tylko od n, i ten błąd jest równy1/ (2(1+

√n)).

Na Rys. 5 pokazano wykresy błędów wszystkich rozważanych dotej pory estymatorów oraz estymatora minimaksowego, dla n = 10.

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

dd

0 0.2 0.4 0.6 0.8 1

0.1

0.2

0.3

0.4

0.5 ..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

...

....................................................................................................

.................................

............................................

...........................................................

..................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.................................................................................................................................................................................... .........

.....................................................................................................................................................................................................................................................................

........................................................................................................................

..................

...........................

..............................

................................................................................................................................................................

..........................

..........................

..........................

............. ............. ..........................

.....................................................................................................................................................................................................................................................................................

............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ............. ..........................................................

......................

...........

Rys.5

θ

(0.0, 0.5)

(0.3, 0.4)

K/n

K+7

n+27

est. minimaksowy

1

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

ESTYMACJA PRZY ROZBICIU POPULACJI NA WARSTWY

Ω = A ∪ B, A ∩ B = ∅

Podzbiory A i B o licznościach NA i NB (NA + NB = N),z liczbami MA oraz MB (MA +MB = M) elementów wyróżnionychw tych podzbiorach

θA oraz θB –frakcje elementów wyróżnionych w tych podzbiorach

Zadanie, jak powiedzieliśmy, polega na oszacowaniu frakcji

θ =MA +MBNA + NB

=NANθA +

NBNθB

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

Naturalny estymator frakcji θ:

θ =NANθA +

NBNθB

gdzie

θA =KAnA, θB =

KBnB

, nA + nB = n

gdzie nA i nB są licznościami prób z warstw A i B, w którychzaobserwowano KA i KB elementów wyróżnionych

Jest to estymator nieobciążony

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA

Wariancja estymatora θ:

Varθ(θ) = Eθ

(NANθA +

NBNθB − θ

)2

= Eθ

(NAN

(θA − θA) +NBN

(θB − θB)

)2

=

(NAN

)2 θA(1− θA)

nA+

(NBN

)2 θB(1− θB)

nB

Odpowiednie rozbicie całej populacji Ω na rozłączne zbiory A i Boraz odpowiedni wybór wielkości prób z każdego z tych podzbiorówmoże istotnie zmniejszyć tę wariancję

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ

Geneza problemu: krępujące pytania ankietera

Zastosowania w SKJ: błąd kontrolera

Formalizacja dla przypadku badania ankietowego w celu estymacjifrakcji θ = M

N elementów wyróżnionych (jest ich nieznana liczbaM) w populacji składającej się z N elementów. O elemenciewyróżnionym powiemy, że jest W

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ

Geneza problemu: krępujące pytania ankietera

Zastosowania w SKJ: błąd kontrolera

Formalizacja dla przypadku badania ankietowego w celu estymacjifrakcji θ = M

N elementów wyróżnionych (jest ich nieznana liczbaM) w populacji składającej się z N elementów. O elemenciewyróżnionym powiemy, że jest W

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ

Geneza problemu: krępujące pytania ankietera

Zastosowania w SKJ: błąd kontrolera

Formalizacja dla przypadku badania ankietowego w celu estymacjifrakcji θ = M

N elementów wyróżnionych (jest ich nieznana liczbaM) w populacji składającej się z N elementów. O elemenciewyróżnionym powiemy, że jest W

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ

Geneza problemu: krępujące pytania ankietera

Zastosowania w SKJ: błąd kontrolera

Formalizacja dla przypadku badania ankietowego w celu estymacjifrakcji θ = M

N elementów wyróżnionych (jest ich nieznana liczbaM) w populacji składającej się z N elementów. O elemenciewyróżnionym powiemy, że jest W

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ

Z populacji losujemy n respondentów.

Respondent ma odpowiedzieć na pytanie „czy jesteś W ”

W celu zapewnienia dyskrecji formułujemy dwa pytania: jednoistotne „czy jesteś W ”, drugie „niewinne”, np. „czy urodziłeś się wponiedziałek”, wybrane jednak w taki sposób, żebyśmy znali frakcjęq osób w populacji, odpowiadających TAK na to pomocniczepytanie (tu 1/7)

Respondent ma losowo wybrać jedno z pytań, odpowiedzieć na nie,ale nie informować ankietera, na które pytanie odpowiada. Niechp oznacza prawdopodobieństwo wylosowania pytania zasadniczego.

„RANDOMIZOWANE ODPOWIEDZI”

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ

Z populacji losujemy n respondentów.

Respondent ma odpowiedzieć na pytanie „czy jesteś W ”

W celu zapewnienia dyskrecji formułujemy dwa pytania: jednoistotne „czy jesteś W ”, drugie „niewinne”, np. „czy urodziłeś się wponiedziałek”, wybrane jednak w taki sposób, żebyśmy znali frakcjęq osób w populacji, odpowiadających TAK na to pomocniczepytanie (tu 1/7)

Respondent ma losowo wybrać jedno z pytań, odpowiedzieć na nie,ale nie informować ankietera, na które pytanie odpowiada. Niechp oznacza prawdopodobieństwo wylosowania pytania zasadniczego.

„RANDOMIZOWANE ODPOWIEDZI”

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ

Z populacji losujemy n respondentów.

Respondent ma odpowiedzieć na pytanie „czy jesteś W ”

W celu zapewnienia dyskrecji formułujemy dwa pytania: jednoistotne „czy jesteś W ”, drugie „niewinne”, np. „czy urodziłeś się wponiedziałek”, wybrane jednak w taki sposób, żebyśmy znali frakcjęq osób w populacji, odpowiadających TAK na to pomocniczepytanie (tu 1/7)

Respondent ma losowo wybrać jedno z pytań, odpowiedzieć na nie,ale nie informować ankietera, na które pytanie odpowiada. Niechp oznacza prawdopodobieństwo wylosowania pytania zasadniczego.

„RANDOMIZOWANE ODPOWIEDZI”

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ

Z populacji losujemy n respondentów.

Respondent ma odpowiedzieć na pytanie „czy jesteś W ”

W celu zapewnienia dyskrecji formułujemy dwa pytania: jednoistotne „czy jesteś W ”, drugie „niewinne”, np. „czy urodziłeś się wponiedziałek”, wybrane jednak w taki sposób, żebyśmy znali frakcjęq osób w populacji, odpowiadających TAK na to pomocniczepytanie (tu 1/7)

Respondent ma losowo wybrać jedno z pytań, odpowiedzieć na nie,ale nie informować ankietera, na które pytanie odpowiada. Niechp oznacza prawdopodobieństwo wylosowania pytania zasadniczego.

„RANDOMIZOWANE ODPOWIEDZI”

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ

Z populacji losujemy n respondentów.

Respondent ma odpowiedzieć na pytanie „czy jesteś W ”

W celu zapewnienia dyskrecji formułujemy dwa pytania: jednoistotne „czy jesteś W ”, drugie „niewinne”, np. „czy urodziłeś się wponiedziałek”, wybrane jednak w taki sposób, żebyśmy znali frakcjęq osób w populacji, odpowiadających TAK na to pomocniczepytanie (tu 1/7)

Respondent ma losowo wybrać jedno z pytań, odpowiedzieć na nie,ale nie informować ankietera, na które pytanie odpowiada. Niechp oznacza prawdopodobieństwo wylosowania pytania zasadniczego.

„RANDOMIZOWANE ODPOWIEDZI”

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ

Prawdopodobieństwo usłyszenia odpowiedzi TAK wyraża sięwzorem

P(TAK ) = pθ + (1− p)q

Jest to prawdopodobieństwo θ wylosowania jednostki wyróżnionej,pomnożone przez prawdopodobieństwo p, że wylosuje ona pytaniezasadnicze plus prawdopodobieństwo q wylosowania jednostkiodpowiadającej TAK na pytanie pomocnicze, pomnożone przezprawdopodobieństwo że wylosuje one pytanie pomocnicze

Rozpatrując to jako równanie względem θ, otrzymamy

θ =P(TAK )− (1− p)q

p

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ

Estymując P(TAK ) za pomocą ilorazu Tn , gdzie T jest liczbąodpowiedzi TAK w n-elementowej próbie respondentów,otrzymujemy estymator θq interesującej nas frakcji θ

θq =

Tn− (1− p)q

p

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ

Jest to estymator nieobciążony:

Eθ(θ) = Eθ

(1p

(Tn− (1− p)q

))= θ

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ

Wariancja

Varθ(θq) =λ(1− λ)

np2 , λ = pθ + (1− p)q

W szczególności, gdy q = 1− θ (pytanie pomocnicze „czy niejesteś W ?”), estymator

θW =

Tn− (1− p)

2p − 1

Varθ(θW ) =θ(1− θ)

n+p(1− p)n(2p − 1)2

ROZKŁAD DWUMIANOWYESTYMACJA PUNKTOWA Z NIEPEŁNĄ INFORMACJĄ

dd

0 0.2 0.4 0.6 0.8 1

0.1

0.2

0.3

0.4 ..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

...

...........................................................................................................................................

................................

.........................................

....................................................

....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ......... ....

...................................

...............

....................

.....................

.............................

.......................................................

...............................................................................................................................

Rys.6

θ

K/n

θq

θW

1