Statystyka Matematyczna Anna Janickacoin.wne.uw.edu.pl/azylicz/sm/sm02_2016.pdfStatystyka...

45
Statystyka Matematyczna Anna Janicka wykład II, 29.02.2016 STATYSTYKA OPISOWA, cz. II WSTĘP DO STATYSTYKI MATEMATYCZNEJ

Transcript of Statystyka Matematyczna Anna Janickacoin.wne.uw.edu.pl/azylicz/sm/sm02_2016.pdfStatystyka...

  • Statystyka

    Matematyczna

    Anna Janicka

    wykład II, 29.02.2016

    STATYSTYKA OPISOWA, cz. II

    WSTĘP DO STATYSTYKI MATEMATYCZNEJ

  • Plan na dzisiaj

    1. Statystyka opisowa, cz. II:� miary położenia – dokończenie

    � miary zróżnicowania

    � miary asymetrii

    � wykres pudełkowy

    2. Wstęp do statystyki matematycznej� model statystyczny

  • Moda

    Moda (dominanta, wartość modalna)wartość najczęściej pojawiająca się w próbie

    � dla szeregu rozdzielczego punktowego:

    Mo = wartość najczęstsza

    � dla szeregu rozdzielczego przedziałowego

    gdzie

    nMo – liczebność klasy dominanty,

    cL, b – dla dominanty analogicznie do mediany

    bnnnn

    nncMo

    MoMoMoMo

    MoMoL ⋅−+−

    −+≅

    +−

    )()( 11

    1

  • Przykład 1 – cd.

    Ocena Liczebność Częstość2 72 0,4293 42 0,250

    3,5 32 0,1904 11 0,065

    4,5 7 0,0425 4 0,024

    Razem 168 1,000

    Moda – przykładyKwartyle – przykładyWariancja – przykłady

  • Przykład 3 – cd.

    PrzedziałŚrodek

    przedziałuLiczebność Częstość

    Liczebność skumulowana

    Częstość skumulowana

    (30,40] 35 11 0,11 11 0,11(40,50] 45 23 0,23 34 0,34(50,60] 55 33 0,33 67 0,67(60,70] 65 12 0,12 79 0,79(70,80] 75 6 0,06 85 0,85(80,90] 85 8 0,08 93 0,93

    (90,100] 95 3 0,03 96 0,96(100,110] 105 2 0,02 98 0,98(110,120] 115 2 0,02 100 1Razem 100 1

    Moda – przykładyKwartyle – przykładyWariancja – przykłady

  • Moda – przykłady

    Przykład 1:

    Mo = 2

    Przykład 3:

    przedział dominanty to (50,60], o liczebności 33

    nMo = 33, cL = 50, b = 10, nMo-1 = 23, nMo+1 = 12

    23,5310)1233()2333(

    233350 ≈⋅

    −+−−

    +≅Mo

    Przykład 1 – cd.

    Przykład 3 – cd.

  • Którą miarę stosować?

    � Średnia arytmetyczna: do szeregów typowych (jedno max, częstości monotoniczne)

    � Dominanta: do szeregów typowych, danych pogrupowanych, długości przedziału dominanty i sąsiednich powinny być równe

    � Mediana: nie ma ograniczeń. Najbardziej odporna na zaburzenia, niedokładności pomiaru, zmiany, wartości odstające

  • Kwantyle, kwartyle

    � p-ty kwantyl (kwantyl rzędu p): odsetek wartości nie większych niż on wynosi co najmniej p, a wartości nie mniejszych co najmniej 1-p

    � Q1 : Pierwszy kwartyl = kwantyl rzędu ¼

    � Drugi kwartyl = mediana = kwantyl rzędu ½

    � Q3: Trzeci kwartyl = kwantyl rzędu ¾

  • Kwantyle – cd.

    Kwantyl próbkowy rzędu p:

    ∈+

    =

    +

    +

    ZnpX

    ZnpXX

    Q

    nnp

    nnpnnp

    p

    :1][

    :1:

    2

  • Kwartyle – cd.

    � Kwantyle dla p = ¼ i p = ¾.

    � Dla szeregu rozdzielczego przedziałowego: wzór jak dla mediany

    dla k=1 lub 3, odpowiednio

    gdzie M1, M3 – numer klasy kwartyla

    b – szerokość klasy kwartyla

    cL – dolny koniec klasy kwartyla

    ⋅+≅ ∑

    =

    1

    14

    k

    k

    M

    ii

    MLk n

    nk

    n

    bcQ

  • Kwartyle – przykłady

    Przykład 1:

    a więc

    Przykład 3:

    a więc

    12616842168 4341 =⋅=⋅

    ( ) ( ) 5,3,2 168:127168:126213168:43168:42211 =+==+= XXQ XXQ

    75100 25100 4341 =⋅=⋅

    4M ,2 31 ==M

    67,66)6775(12

    1060 09,40)1125(

    23

    1040 31 ≈−+≅≈−+≅ QQ

    Przykład 1 – cd.

    Przykład 3 – cd.

  • Rozproszenie, zmienność, dyspersja

    duże

    małe

  • Miary rozproszenia

    � Miary klasyczne� wariancja, odchylenie standardowe

    � odchylenie przeciętne

    � współczynnik zmienności (klas.)

    � Miary pozycyjne� rozstęp

    � rozstęp międzykwartylowy

    � odchylenie ćwiartkowe

    � współczynnik zmienności (poz.)

  • Miary pozycyjne

    � Rozstępnajprostsza miara, nie bierze pod uwagę żadnych wartości oprócz skrajnych

    � Rozstęp międzykwartylowybardziej odporny na obserwacje nietypowe niż zwykły rozstęp

    nnn XXr :1: −=

    13 QQIQR −=

    na jego podstawie odchylenie ćwiartkowe Q= IQR/2, oraz pozycyjne współczynniki zmienności VQ = Q/Med albo VQ1Q3 = IQR/(Q3+Q1)także typowy przedział zmienności cechy: [Med – Q, Med + Q]

    długość przedziału, w którym mieści się 50% środkowych obserwacji

  • Rozstęp, rozstęp międzykwartylowy –

    przykłady

    Przykład 1:

    Przykład 3:

    (w rzeczywistości

    5,125,3

    ,325

    =−=

    =−=

    IQR

    r

    58,2009,4667,66

    )45,8645329118

    9030120

    =−≅

    =

    =−≅

    IQR

    ,-,

    r

  • Miary klasyczne

    Wariancja

    � dane surowe

    � szereg rozdzielczy punktowy

    � szereg rozdzielczy przedziałowy

    + ew. poprawka Shepparda

    lub ogólniej

    2

    1

    21

    1

    212 )()(ˆ ∑∑==

    −=−=n

    iin

    n

    iin XXXXS

    2

    1

    21

    1

    212 )()(ˆ ∑∑==

    −=−=k

    iiin

    k

    iiin XXnXXnS

    2

    1

    21

    1

    212 )()(ˆ ∑∑==

    −=−≅k

    iiin

    k

    iiin XcnXcnS

    12

    22 2ˆ cSS −≅

    c=długość przedziałuklasy (jeśli równe)

    2

    1

    112122 )(ˆ ∑

    =−−−≅

    k

    i

    iiinccnSS

  • Wariancja – przykłady

    Przykład 1:

    Przykład 3:

    w rzeczywistości

    ( )4)842,25(7)842,25,4(11)842,24(32)842,25,3(42)842,23(72)842,22( 2222221681 ⋅−+⋅−+⋅−+⋅−+⋅−+⋅−

    706,0

    ˆ 2

    ≈S

    98,32212

    1031,331

    31,331

    ˆ

    22

    10012

    ≈−=

    =

    ⋅≈

    S

    S

    )2)7,58115(2)7,58105(3)7,5895(8)7,5885(6)7,5875(

    12)7,5865(33)7,5855(23)7,5845(11)7,5835((22222

    2222

    ⋅−+⋅−+⋅−+⋅−+⋅−+

    ⋅−+⋅−+⋅−+⋅−

    85,333ˆ 2 =S

    Przykład 1 – cd.

    Przykład 3 – cd.

    rozkład nie jest normalny, za mała próba na poprawkę Shepparda – większe błędy wynikają z małej próby niż z podziału na klasy

  • Odchylenie standardowe

    W tych samych jednostkach, co wyjściowy szereg

    Przykład 1:

    Przykład 3:

    22 ,ˆˆ SSSS ==

    [oceny] S 840,0ˆ ≈

    ][ 2,18ˆ 2mS ≈

  • Odchylenie przeciętne

    średnie odchylenie bezwzględne

    obecnie rzadko stosowane, choć łatwiejsze w obliczeniach, wyrażone w jednostkach naturalnych

    dla danych surowych

    itd...

    Mamy: d

  • Współczynniki zmienności (klasyczne)

    Do porównywania tej samej cechy w różnych populacjach lub różnych cech jednej populacji

    %)100( lub

    %),100(ˆ

    ⋅=

    ⋅=

    X

    dV

    X

    SV

    d

    S

  • Asymetria

    lewostronna symetria prawostronna

    (ujemna) (dodatnia)

    (typowe układy)

    MoMedX >

  • Miary asymetrii

    � Współczynnik asymetrii

    gdzie M3 jest trzecim momentem centralnym

    � Współczynnik skośności

    � Pozycyjny współczynnik asymetrii

    3

    3

    MA =

    ˆ

    lub ˆ 11 S

    MedXA

    S

    MoXA

    −=

    −=

    13

    132

    2

    QQ

    QMedQA

    −+−

    =mierzy asymetrię tylko dla obserwacji drugiej i trzeciej ćwiartki

  • Interpretacja

    � Wskaźniki dodatnie = asymetria dodatnia (prawostronna)

    � Wskaźniki ujemne = asymetria ujemna (lewostronna)

    � Dla współczynnika skośności (z medianą) i pozycyjnego wsp. asymetrii ocena siły asymetrii (co do modułu):

    � 0 - 0,33: słaba

    � 0,34 - 0,66: średnia

    � 0,67 – 1: silna

  • Asymetria – przykłady

    Przykład 1:

    Przykład 3:

    15,009,4667,66

    09,4685,54267,66

    )( 24,02,18

    85,547,58 lub )( 3,0

    2,18

    23,537,58

    ,15,1

    2

    11

    ≈−

    +⋅−≅

    ≈−

    =≈−

    A

    MedAMoA

    A

    33,025,3

    2325,3

    00,1840,0

    2842,2

    18,0840,0

    3842,2

    55,0

    2

    1

    1

    −≈−+⋅−

    =

    ≈−

    =

    −≈−

    =

    =

    A

    )Mo( A

    )Med( A

    A

  • Wykres pudełkowy („pudełko z wąsami”)

    � Pozwala porównać graficznie dwie populacje (lub więcej)

    (ewentualne)

    obserwacje odstające:

    xmax

    obs. odstające

    X*

    Q3Med

    Q1

    X*obs. odstającexmin

    ]},[:max{

    ]},[:min{

    23

    33

    123

    1

    IQRQQXXX

    QIQRQXXX

    ii

    ii

    +∈=

    −∈=∗

    ∗∗ >< XxXx lub

  • Wykres pudełkowy – przykład porównania

    05

    1015

    1 2

  • Przyklady zestawień statystycznych (1)

    Źródło: GUS, Ceny w gospodarce narodowej 2009

  • Przyklady zestawień statystycznych (2)

    Źródło: GUS, Zużycie energii w gospodarstwach domowych 2009

  • Przyklady zestawień statystycznych (3)

    siatka centylowa masy chłopców w W-wie

    Źródło: IMiD, 1999

  • Przykłady zestawień statystycznych (4)

    Względne rozstępy międzykwartylowe

    Rozstęp międzykwartylowy poziomu emerytury wg płci

    Źródło:Komisja Europejska 2013

  • Przykłady zestawień statystycznych (5)

    Zróżnicowanie poziomów bezrobocia

    Zróżnicowanie poziomów bezrobocia w ujęciu regionalnym (mierzone współczynnikiem zmienności), 2006

    Źródło: Komisja Europejska

  • Przykłady zestawień statystycznych (6)

    Godzinowe wynagrodzenia brutto, 2002

    Źródło: komisja Europejska 2005

  • STATYSTYKA MATEMATYCZNA

  • Założenia statystyki matematycznej

    Dane doświadczalne są wynikiem działania pewnego mechanizmu losowego.

    A zatem: mamy do czynienia ze zmiennymi losowymi określonymi na pewnej przestrzeni probabilistycznej, których realizacjami (wartościami) są zebrane dane. Problem: nie znamy (dokładnego) rozkładu tych zmiennych losowych...

  • Różnica w podejściach RP i SM:

    1. RP, przykład:� Sformułowanie: w procesie produkcyjnym każdy

    konkretny wyrób może być wadliwy. Dzieje się tak z prawdopodobieństwem 10%. Wady poszczególnych sztuk są niezależne.

    � Problemy: Jaka jest szansa, że w partii 50 sztuk dokładnie 6 będzie wadliwych? Ile średnio sztuk będzie wadliwych? Jaka jest najbardziej prawdopodobna liczba sztuk wadliwych?

    � Rozwiązanie: budujemy model probabilistyczny, tu: Schemat Bernoulliego dla n=50, p=0,1

    Ewentualnie, jeśli interesują nas też inne pytania (np. jaka jest szansa, że pierwsze 5 sztuk wadliwych), model dla ciągów

  • Różnica w podejściach RP i SM – cd.

    2. SM, przykład:� Sformułowanie: Kontroler przebadał partię 50 sztuk

    towaru. Wyniki są następujące (1– towar wadliwy, 0 –bez wad):

    0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0

    0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1

    � Problemy: jakie jest prawdopodobieństwo, że produkt jest wadliwy (oszacowanie)? Czy prawdą może być deklaracja producenta, że wadliwość to 10%?

    � Rozwiązanie: budujemy model statystyczny, czyli model probabilistyczny z nieznanym(i) parametrem(ami) rozkładu

  • Model Statystyczny

    Model statystyczny:

    gdzie:X – przestrzeń wartości obserwowanej

    zmiennej losowej X (często n-wymiarowa, jeśli mamy n-wymiarową próbkę zmiennych X1, ..., Xn)

    FX

    – σ-ciało na X

    P – rodzina rozkładów prawdopodobieństw Pθ , indeksowana parametrem θ∈Θ

    W mniej formalnym opisie zwykle podaje się: X, P, Θ

    ),,( PFΩ),,( PFX X

    w RP było:

  • Model statystyczny – przykład

    X = {0,1}n – przestrzeń próbkowa

    Łączny rozkład prawdopodobieństwa:

    dla θ ∈[0,1](u nas n=50 oraz X2 = X10 = X15 = X32 =X42 =

    X50 =1, pozostałe Xi = 0)

    ii

    ii

    xnx

    n

    i

    xxnn xXxXxXP

    Σ−Σ

    =

    −=

    −==== ∏

    )1(

    )1(),...,,(1

    12211

    θθ

    θθθ

  • Model statystyczny – przykład cd.

    Alternatywne sformułowanie (jeśli notujemy tylko liczbę wadliwych elementów w próbie):

    X = {0,1, 2, ..., n} – przestrzeń próbkowa

    Łączny rozkład prawdopodobieństwa:

    dla θ ∈[0,1](u nas n=50 oraz X=6)

    xnx

    x

    nxXP −−

    == )1()( θθθ

  • Model statystyczny – przykład cd. (2):

    pytania

    Mamy konkretne dane (próbkę):

    � Jaka jest wartość parametru θ ?� interesuje nas konkretna wartość

    � interesuje nas przedział (ufności)

    → zagadnienie estymacji

    � Weryfikacja hipotezy, że θ =0,1

    → testowanie hipotez statystycznych

    � → ew. predykcje

  • Statystyki

    Estymację parametrów (punktową, przedziałową) czy testowanie hipotez statystycznych przeprowadza się na podstawie tzw. statystyk:

    Statystyka = dowolna funkcja obserwacji, czyli zmienna losowa postaci

    Rozkład statystyki T zależy od rozkładu zmiennej X, ale statystyka jako taka nie może zależeć od parametru θ, np. X1+X2 - θ

    ),...,,( 21 nXXXTT =

  • Statystyki – przykład

    są statystykami dla pierwszego sformułowania;

    są statystykami dla drugiego sformułowania

    Wybór statystyki zależy od pytania, na które mamy odpowiedzieć.

    1,0 , ,1

    13

    1

    12

    11 −=== ∑∑∑

    ===

    n

    iin

    n

    iin

    n

    ii XTXTXT

    1,0 , , 321 −=== nX

    Tn

    XTXT

  • Model Statystyczny: Przykład 2

    Wzrosty na giełdzie. Analityk bada długość okresów wzrostowych na giełdzie. Interesuje go czas wzrostu kursu (do pierwszego spadku), w dniach. Załóżmy, że czasy wzrostu X1, X2, ..., Xnsą próbką z rozkładu wykładniczego Exp(λ).λ – nieznany parametrX =(0,∞)n – przestrzeń próbkowa

    Łączny rozkład prawdopodobieństwa:

    dla λ > 0

    ∏=

    −−=≤≤≤n

    i

    xnn

    iexXxXxXP1

    2211 )1(),...,,(λ

    λ

    ixnn exxxf

    Σ−= 21 ),...,,(λ

    λ λ

  • Model Statystyczny: Przykład 3

    Pomiar z błędem losowym: powtarzamy pomiar wielkości µ, wyniki poszczególnych pomiarów są niezależnymi zmiennymi los. X1, X2, ..., Xn, bo maszyna do pomiaru niedoskonała. Każdy z pomiarów ma jednakowy rozkład normalny N(µ, σ2).µ, σ2 – nieznane parametry (a więc θ = (µ, σ))X = Rn – przestrzeń próbkowa

    Łączny rozkład prawdopodobieństwa:

    lub

    dla µ∈R, σ >0

    ( )∏=

    −Φ=≤≤≤n

    i

    xnn

    ixXxXxXP1

    2211, ),...,,( σµ

    σµ

    ( ) ( )∑ = −−= ni inn xxxxf 1 2212121, )(exp),...,,( 2 µσσπσµ