Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności...

29
Historia Rachunku Prawdopodobieństwa i Statystyki WYKLAD VI: Galton, Edgeworth i Karl Pearson. MiNI PW Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Transcript of Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności...

Page 1: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Historia Rachunku Prawdopodobieństwa iStatystyki

WYKŁAD VI: Galton, Edgeworth i Karl Pearson.

MiNI PW

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 2: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Galton, Edgeworth i Pearson

Trzej badacze, którzy razem, korzystając wzajemnie ze swoich wynikówosiągnęli więcej, niż każdy z nich osiągnąlby osobno (efekt synergii).

I Francis Galton: miał bardzo dobre pomysły, ale nie miał dobrychpodstaw matematycznych i nie umiał uogólnić swych częsciowychwyników;

I Francis Edgeworth: dobry matematyk, umiał wyciągnąc wnioskiogólne z wyników częściowych, mial problemy z przekazaniem ichszerzej i nie umiał zebrać danych, aby swe ogólne wnioskipotwierdzić;

I Karl Pearson: nie miał zdolności Galtona i głebokości Edgewortha,ale cechowały go ambicja i upór, które pozwoliły mu, razem zYule’m na stworzenie związanej z odkryciami poprzedników spójnejmetodologii i ’sprzedanie’ jej światu.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 3: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Francis Galton (1822-1911)

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 4: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Francis Galton (1822-1911)

FG był lekarzem w Cambridge, który po odziedziczeniu spadku po ojcu wwieku 22 lat przerwal pracę zarobkową i zajął się działalnoscią naukową.Główne zainteresowania:I eksploracja Afryki 1850–1852 (złoty medal Królewskiego

Towarzystwa Geograficznego w 1853);I meteorologia (sporządzenie map meteorologicznych);I psychologia, antropologia, socjologia, edukacja...I głowne zainteresowania po 1865 dotyczyły dziedziczności.

Być może jeden z ostatnich ’naukowców gentelmenów’ gentlemenscientists (Stigler), niezależnych finansowo naukowców nie związanych zżadną instytucją naukową.Stephen Wolfram ?Merytorycznie był potomkiem Queteleta, podobnie jak on byłzafascynowany zbieraniem i interpretacja danych.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 5: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Główne osiągnięcia:I Narzędzia eksploracyjnej analizy danych (wykres pudełkowy, wykres

kwantylowy (ogive)I korelacja;I regresjaI prawa dziedziczności, problemy dziedziczenia zdolności;I quincunx (deska Galtona);I biometria: linie papilarne są wąznym narzędziem identyfikacji (twórca

Antropometric Laboratory i autor książki na ten temat);I ......

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 6: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Wykres pudełkowy

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 7: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Ogiwa: protoptyp funkcji kwantylowej

FG przedstawiał rozkład w próbie na wykresie zależności wartości cechyod jej rangi.Zbadał jej kształt dla populacji normalnej i nazwał tę krzywą ogiwą

OgiwaJan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 8: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Quincunx - deska Galtona

https://www.youtube.com/watch?v=6YDHBFVIvIs

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 9: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Problem dziedziczenia i oceny zdolności

Miara ilościowa stopnia zdolności:Porządkował ludzi w grupie względem zdolności i i-tej randzeprzyporządkowywał Φ−1((n + i − 1/2)/2n).Opublikował książke Hereditary Genius, w której starał sie udowodnić, napodstawie zebranych danych o rodzinach polityków, naukowców, poetówitp., że talent jest dziedziczny.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 10: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 11: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Regresja w kierunku średniej

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 12: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Problem Galtona

Nie umiał przez długi czas poradzić sobie z problemem:Jak to możliwe, że dla cechy, której rozklad w populacji jest normalny(np. dla wzrostu), a więc powinna być, na podstawie warunkówzapewniających CTG (warunki Laplace’a) wynikiem działania wielu cecho mniej wiecej takiej samej sile, a jednocześnie cecha rodzicielska siędziedziczy , czyli jest dominująca ..CTG musi zachodzić również przy innych załozeniach niż warunkiLaplace’a .

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 13: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Koncepcja deski Galtona

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 14: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Francis Ysidro Edgworth (1845-1926)

Potomek bogatej rodziny irlandzkiej, ekonomista, prawnik i matematyk.Rozwinięcie Edgwortha:Xi - iid o średniej µ i wariancji σ2.

Yn =1√n

n∑i=1

Xi − µσ

Fn(x) = P(Yn ¬ x)

Fn(x) = Φ(x)− 16n1/2

λ3Φ(3)(x) +

1n...

Oszacowanie Berry-Essena okazało się bardziej praktyczne ...

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 15: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Karl Pearson (1857 -1936)

Z wykształcenia prawnik o szerokich zainteresowaniach, od 1892 roku,pod wpływem Galtona, zajał się statystyką. Zajmował się równieżgermanistyką, socjologią i etnografią.Pisał się Carl Pearson lub później, Karl Pearson.Ksiązki:I Regression, Heredity, and Panmixia,I On the general theory of skew correlation and nonlinear regressionI On the theory of contingency

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 16: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Karl Pearson (1857 -1936)

Autor 650 prac naukowych (’nigdy nie odbieram telefonów i nigdy niechodzę na zebrania ..’).Był profesorem w University College w Londynie.Załozyciel jednego z najważniejszych pismbiometrycznych/statystycznych Biometrika (1902) (i Annals of Eugenics(1925) i pierwszego zakładu statystyki w University College (Londyn)(Departament of Applied Statistics - 1911)Uczeń i biograf Galtona.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 17: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Karl Pearson (1857 -1936)

Główne osiągnięcia:I analiza dwuwymiarowego rozkładu normalnego;I analiza rozkładów skośnych i rodzina rozkładów Pearsona;I test chi-kwadrat zgodności rozkładów;I analiza i modelowanie tablic kontyngencji;I metoda momentów.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 18: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Metoda momentów

X ∼ Pθ0 , gdzie Pθ ∈ {Pθ}θ∈Θ

m̂k =1n

n∑i=1

X ki

Szukamy θ̂M takiego, żeEθ̂M (X k) = m̂k

dla k = 1, . . . , L, gdzie L-wymiar Θ.Wady:I może nie istnieć (rozwiązanie równań nie spełnia warunków

nałożonych na rodzinę rzkładów;I może mieć dużą wariancję.

Ale często jest to najprostszy sposób konstrukcji estymatora ..

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 19: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Rodzina rozkładów Pearsona

Rodzina gęstości spełniających równanie

d ln p(x)

dx=

x + a

b1 + b2x + b3x2

b1- skośność µ3/σ3,b2-kurtoza µ4/σ4 − 3;b3 -µ5µ3/σ4.Dopasowywane metodą momentów.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 20: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Test zgodności chi-kwadrat

(X1, . . . ,Xk) obserwacja z rozkładu wielomianowego Mult(n, p1, . . . , pk) i

ei = Xi − npi

róznice między wartościami oczekiwanymi liczby obserwacji w komórkacha Xi . Statystyka chi kwadrat

χ2 =k∑

i=1

e2inpi

=k∑

i=1

(Xi − npi )2

npi

i udowodnił, że ma asymptotycznie rozkład χ2 z k − 1 stopniamiswobody.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 21: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Test zgodności chi-kwadrat z estymowanym parametrami

Co w sytuacji, gdy pi nie są znane a jedynie znamy ich formęparametryczną pi = pi (θ) ?. Estymujemy wartość parametru i

p̂i = pi (θ̂)

KP załozył błednie, ze zamiana pi na p̂i nie spowoduje zmiany rozkładuasymptotycznego.Długa kontrowersja z R. Fisherem, który udowodnił, ze rozkladasymptotyczny to χ2k−l , gdzie l liczba restrykcji na parametry.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 22: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Spór z G. Yule’m dotyczący analizy danych jakościowych

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 23: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

George Udny Yule (1871-1951)

Był fizykiem eksperymentalnym i pracował jako pomocnik(demonstrator) K. Pearsona w University College. Razem z nim zacząłzajmować się statystyką.W 1912 roku zaczął pracować w Cambrdge jako Lecturer in Statistics.Autor popularnego podręcznika Introduction to the Theory of Statistics(1911)Prekursor NLP: ksiązka Statistical Study of Literary Vocabulary.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 24: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Spór z G. Yule’m dotyczący analizy danych jakościowych

KP uważal, że należy tablice kontyngencji traktować jako wynikobserwacji wartości dwuwymiarowego rozkładu normalnego i szukałtakiego rozkładu normalnego, dającego prawdopodobieństwa równeczęstościom klatek przy równości rozkładów brzegowych.współczynnik korelacji tetrachorycznej.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 25: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Spór z G. Yule’m dotyczący analizy danych jakościowych

G. Yule uważał, że pewne zmienne są z natury dyskretnie i to coobserwujemy w tablicy kontyngencji to wartości dwuwymiarowej zmiennejo wartościach dyskretnych.Wprowdził iloraz szans (odds ratio) zdefiniowany dla rozkładu 2x2

θ =P(X = 1|Y = 1)

P(X = 0|Y = 1)/P(X = 1|Y = 0)

P(X = 0|Y = 0)=π11π00π01π10

θ̂ =n00n11n01n10

.

Q Yule’a

Q =θ̂ − 1

θ̂ + 1=

n00n11 − n01n10n00n11 + n01n10

.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 26: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Spór z G. Yule’m dotyczący analizy danych jakościowych

Pearson i Heron (1913) 150-stronicowy atak na Yule’a i jego miarę:If Mr Yule’s views are acccepted, incomparable demage will be done tothe growth of modern statistical theory ..Zaatakowano ’half-baked ideas’ Yule’a i ’specious reasoning’ i pogląd, zeYule powinien wycofać swoje koncepcje jeśli chce zachować swojąreputację jako statystyk.W zależności od danych jedno z konkurencyjnych podejść KP i BY marację bytu ...

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 27: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Inne osiągnięcia Yule’a

Analiza regresji dla pauper data.

out-pauper - osoba dostająca zasiłek bez świadczenia pracyin-pauper - osoba dostająca zasiłek za pracę.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 28: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Analiza regresji: szacowanie E (X |Y )

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki

Page 29: Historia Rachunku Prawdopodobienstwa i Statystyki WYK AD VI: … · 2018-11-06 · Test zgodności chi-kwadrat z estymowanym parametrami Co w sytuacji, gdy p i nie są znane a jedynie

Użycia i nadużycia testu chi kwadrat ..

Przy H0 np̂i = 851/12 = 70.917. .0025 < p = 0.0283 < 0.05.

Jan Mielniczuk Historia Rachunku Prawdopodobieństwa i Statystyki