Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z...

85
Projekt pn. „Wzmocnienie potencjalu dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczychrealizowany w ramach Poddzialania 4.1.1 Programu Operacyjnego Kapital Ludzki Aleksander Zaigrajew STATYSTYKA UMK Toruń 2014 Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

Transcript of Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z...

Page 1: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

Projekt pn. „Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych”

realizowany w ramach Poddziałania 4.1.1 Programu Operacyjnego Kapitał Ludzki

Aleksander Zaigrajew

STATYSTYKA

UMK Toruń 2014

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

Page 2: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy
Page 3: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

Przygotowane materiały dydaktyczne będą służyć pomocą studentom jakouzupełnienie wykładów z przedmiotu Statystyka oraz w nauczaniu zdalnym. Przed-miot ten, prowadzony przeze mnie od kilku lat w ramach Niestacjonarnego Stu-dium Informatyki, jest bardzo ważny w nauczaniu studentów zastosowań mate-matyki związanych z umiejętnościami analizy i eksploracji danych.W dzisiejszych czasach, gdy mamy do czynienia z ogromem informacji w po-

staci różnego rodzaju danych, bardzo ważną umiejętnością jest zdolność do anali-zowania tych danych, a także wyciągania właściwych wniosków i ich interpretacji.Podstawowe wykształcenie statystyczne jest jednym z kroków do nabycia takichumiejętności. Bez wiedzy o podstawach statystyki nie ma możliwości pełnegozrozumienia i zinterpretowania wiedzy ukrytej w danych.Zakres rozważanego w skrypcie materiału jest dość szeroki: od wprowadzenia

do przedmiotu i statystyki opisowej, poprzez klasyczne tematy statystyki mate-matycznej dotyczące estymacji parametrów i testowania hipotez statystycznych,do krótkiego przedstawienia zagadnień związanych z badaniem zależności pomię-dzy zmiennymi i konstrukcją prostego modelu odzwierciedlającego tę zależność(analiza regresji). W dodatku A1 zostały przedstawione bardzo skrótowo podsta-wowe definicje i fakty z rachunku prawdopodobieństwa, niezbędne dla głębszegozrozumienia przedstawionych zagadnień. W dodatku A2 zostało, też skrótowo,opisane kilka najważniejszych, z punktu widzenia statystyki i analizy danych,rozkładów teoretycznych.Wszystkie rozważone w skrypcie zagadnienia zostały przedstawione w taki

sposób i na takim poziomie, że dla ich zrozumienia, w zasadzie, nie są potrzeb-ne dodatkowe fakty z innych dziedzin matematyki. Przytoczonych zostało sporoprzykładów ilustrujących prowadzone rozumowania. Ponieważ ćwiczenia z tegoprzedmiotu są prowadzone z wykorzystaniem programu statystycznego IBM SPSSStatistics, dla lepszego zrozumienia rozważanych zagadnień oraz w celu stworzenialepszych możliwości nauczania zdalnego, tam, gdzie jest to potrzebne, umieszczo-ne są różnego rodzaju wykresy wykonane za pomocą tego programu oraz zrzutyekranu. Niektóre wykresy zostały też stworzone za pomocą programu Maple.

Autor

Page 4: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy
Page 5: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

3

1. Wprowadzenie do przedmiotu

Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących dozastosowań matematyki. W dzisiejszych czasach, gdy każdego dnia stykamy sięz różnego rodzaju danymi, bardzo ważną umiejętnością jest przetwarzanie tychdanych i wyciąganie na ich podstawie poprawnych wniosków. Tym właśnie zaj-muje się statystyczna analiza danych. Konieczność przeprowadzenia takich badańupowszechniła się i obejmuje obecnie prawie wszystkie strony życia i wszystkiedziedziny nauki. Złożoność problemów, z którymi często mamy do czynienia w ży-ciu oraz brak możliwości ujęcia wszystkich powiązań badanych cech z otaczającymświatem prowadzi w zasadzie do tego, że najczęściej jedyną możliwością badaniatakich problemów jest przeprowadzenie doświadczeń i gromadzenie danych.Zacznijmy od podania kilku przykładów typowych problemów, które wyma-

gają stosowania statystyki i analizy danych. Potem, analizując te przykłady, wy-łonimy ich pewne wspólne podstawowe cechy.

Przykład 1. Partia polityczna zamierza sprawdzić, czy przekroczy pięcioprocen-towy próg wyborczy w zbliżających się wyborach do Sejmu. W tym celu zlecabadanie opinii publicznej, w którym potencjalni wyborcy mają odpowiedzieć napytanie, czy zamierzają głosować na tę partię. Oprócz tego pytania, w zależno-ści od szerokości badania, mogą też występować pytania na temat płci, wieku,miejsca zamieszkania wyborców itd.

Przykład 2. Biolog chciałby wiedzieć, jaka jest najniższa temperatura, przyktórej dany gatunek roślin jest w stanie przetrwać. W tym celu w specjalnymurządzeniu badacz umieszcza po kolei rośliny danego gatunku, po czym urzą-dzenie się zamyka i temperatura w nim stopniowo maleje. W końcu urządzenierejestruje, przy jakiej temperaturze doszło do umierania rośliny.

Przykład 3. Firma farmaceutyczna potrzebuje zbadać skuteczność nowego le-ku. W tym celu zostaje wybrana pewna grupa chorych na daną chorobę. Grupętę później dzieli się na dwie części. Pierwszej z nich podaje się nowy lek, nato-miast drugiej – lek tradycyjny. Na koniec okresu leczenia odbywa się porównaniepoprawy zdrowia chorych w obu grupach.

Przykład 4. Lekarz chce wiedzieć, czy otyłość wpływa na zachorowalność napewną chorobę. W tym celu obserwuje się pewną grupę pacjentów pod kątemobecności/nieobecności danej choroby i występowania nadwagi.

Przykład 5.W ramach sprawdzania, czy dany produkt spełnia wszystkie wymo-gi co do jego jakości, wyrywkowo prowadzi się tzw. statystyczną kontrolę jakościprodukcji. W tym celu losuje się partię produktów i pewną liczbę produktów z tejpartii. Wylosowane produkty poddawane są badaniom pod względem występo-wania w nich pewnych norm i cech.

Przykład 6. Dział marketingu pewnej firmy chce oszacować popyt na swojąprodukcję. W tym celu organizuje w sklepach, w których odbywa się sprzedaż tego

Page 6: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

4

produktu, badanie klientów. Klientów pyta się o chęć bądź brak chęci kupieniadanego produktu; przy tym uwzględniane są też pewne inne cechy klientów, takienp. jak płeć, wiek, miejsce zamieszkania itd.

Przykład 7. Socjolog chce sprawdzić, czy rzeczywiście Polacy coraz częściej spę-dzają czas przed telewizorem. W tym celu dokonuje badania opinii publicznej,w którym wylosowane osoby mają zaznaczyć, ile godzin tygodniowo spędziłyprzed telewizorem. Dodatkowo mogą też być ujęte inne cechy osób, takie np.jak płeć, wiek, miejsce zamieszkania itd.

Zauważmy, że we wszystkich przypadkach podstawową metodą działań jestprzeprowadzenie doświadczeń, przy czym wyniki tych doświadczeń mają charak-ter losowy, ponieważ nie da się ich przewidzieć wcześniej. Co więcej, zakładamy,że jesteśmy w stanie powtórzyć pewną liczbę razy (a lepiej – dowolną liczbę razy)te doświadczenia w tych samych warunkach.Wyodrębnijmy teraz pewne wspólne cechy występujące we wszystkich poda-

nych przykładach.

1. Mamy do czynienia ze zbiorem (który nazywamy populacją generalną) po-jedynczych nośników informacji (które nazywamy jednostkami statystycz-nymi). Czytelnik dość łatwo może sobie sam poradzić z odpowiedzią napytanie, czym w każdym przykładzie jest jednostka statystyczna i popula-cja generalna. Zauważmy, że populacje mogą być skończone i nieskończone.Częściej mamy do czynienia z populacjami skończonymi, choć są one bardzoliczne.

2. Jednostki statystyczne są charakteryzowane przez pewne cechy. Interesują-ce nas cechy jednostek, które nie są takie same dla wszystkich jednostek,nazywamy zmiennymi. Zwróćmy uwagę, że zazwyczaj każda jednostka sta-tystyczna charakteryzowana jest przez wiele różnych cech, lecz w badaniuliczba cech, które bierzemy pod uwagę, jest stosunkowo niewielka.

3. Badanie może być pełne i częściowe. Jeśli jest taka możliwość, to zawszeprzeprowadzamy badanie pełne (przykładem pełnego badania jest spis po-wszechny). Lecz biorąc pod uwagę czas potrzebny na przeprowadzenie takie-go badania, jak też koszt jego wykonania, prawie zawsze mamy do czynieniaz przypadkiem drugim. W niektórych sytuacjach nawet nie ma możliwościprzeprowadzenia badania pełnego (przykłady 2 i 5). Zauważmy, że w przy-padku badania częściowego, badając tylko małą część populacji (którą nazy-wamy próbką losową), chcemy sądzić o całej populacji. Często żądamy, abypróbka była reprezentatywna, czyli chcemy, żeby struktura próbki w pew-nym stopniu odzwierciedlała strukturę całej populacji oraz żeby każda jed-nostka statystyczna miała taką samą szansę trafienia do próbki. Późniejnawiążemy jeszcze do problemu wyboru jednostek statystycznych do prób-ki, choć przyznajemy już teraz, że na ogół ten temat jest poza zakresemmateriału tego kursu.

Page 7: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

5

Zatem, podsumowując, można stwierdzić, iż statystyka matematyczna zawie-ra modele i metody, które pozwalają sądzić o całości poprzez badanie tylko nie-wielkiej części. Z tej tezy płynie też następujący bardzo ważny wniosek: nawetpoprawne wnioskowanie statystyczne może być błędne. Jest to oczywiste, skorouogólniamy badanie małej części populacji na całą populację. Dlatego poprawnewnioskowanie statystyczne, oprócz wyników, musi zawierać też stopień wiarygod-ności tych wyników, który najczęściej charakteryzuje się przez podanie tzw. błędustatystycznego. Reasumując, statystyka już na samym początku bierze pod uwa-gę możliwość błędnego wnioskowania, co zupełnie nie jest właściwe dla dziedzinmatematycznych. Może też m. in. z tego powodu na wielu uczelniach zachodnichkatedry statystyczne nie znajdują się w obrębie wydziałów matematycznych?Na ogół proces badania statystycznego ma następujące etapy.

Etap 1. Przygotowanie badania. Jak już zaznaczyliśmy wyżej, planowanie bada-nia, czyli proces wyboru jednostek statystycznych do próbki, nie jest taki prosty.Często wręcz zajmuje on najwięcej czasu badacza. Na ogół musimy starannie do-brać grupę do badania, aby próbka była reprezentatywna (w sensie jak wyżej).Przykładowo, jeśli wybieramy jednostki statystyczne (ludzi) do badania na pod-stawie książki telefonicznej, to nie uwzględnimy osób nieposiadających telefonu;takie osoby nie będą miały szansy znalezienia się w próbce, a zatem jest to źlezaplanowane badanie.Oprócz tego, ze względu na metodę losowania, rozróżniamy losowanie ze zwra-

caniem i bez zwracania. Jeśli populacja generalna jest liczna, to jest obojętnie,którą z metod stosujemy; dlatego najczęściej w tym przypadku stosujemy losowa-nie ze zwracaniem jako posiadające pewne pożyteczne cechy związane z niezależ-nością losowań w kolejnych rundach. Jeżeli zaś jest ona niewielka, to zazwyczajstosujemy losowanie bez zwracania. W licznych populacjach często stosuje sięteż losowanie warstwowe, polegające na tym, że przed losowaniem próbki popu-lację generalną dzielimy na rozłączne podgrupy (jednorodne z punktu widzeniabadanej cechy); nazywamy je warstwami. Następnie przeprowadzamy losowanieoddzielnie dla każdej warstwy.Na koniec dyskusji o tym, co to jest dobrze zaplanowane badanie, rozważmy

następujący przykład, zaczerpnięty z [1, s. 158–159].

Przykład 8.W celu zbadania wpływu spożywania napojów energetyzujących napoprawę wyników w nauce studentów, przeprowadzono następujące badanie. Zo-stały zebrane średnie wyniki egzaminów studentów drugiego roku pewnej szkoływyższej, regularnie używających tych środków podczas sesji, jak też studentówtegoż roku i tejże uczelni, nieużywających tych środków. Okazało się, że średniewyniki egzaminów studentów pierwszej grupy są wyższe od tych z grupy drugiej.Czy można zatem wiarygodnie twierdzić, że spożywanie napojów energetyzują-cych poprawia wyniki studentów w nauce?Zastanówmy się jednak, czy to badanie zostało poprawnie zaplanowane. Moż-

liwa bowiem jest sytuacja, że studenci pijący napoje energetyzujące są po prostu

Page 8: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

6

lepsi w nauce (spożywają napoje, bo bardziej im zależy na koncentracji uwagii stworzeniu optymalnych warunków podczas przygotowania do egzaminu, po-nieważ bardziej im zależy na lepszej ocenie). Tak więc jest możliwe, że grupystudentów pijących i niepijących napoje energetyzujące znacznie różnią się odsiebie pewnymi cechami (takimi jak np. ilość włożonej pracy podczas przygoto-wania, przywiązywanie wagi do dobrej oceny na egzaminie), mogącymi mieć istot-ny lub wręcz zasadniczy wpływ na wyniki egzaminów. Pewnym wyjściem z tejsytuacji jest planowanie doświadczenia w taki sposób, że dzielimy studentów nadwie mniej więcej jednakowe grupy pod względem ich wcześniejszych osiągnięćw nauce, po czym studenci z pierwszej grupy są proszeni o spożywanie napojówenergetyzujących, a osoby z drugiej grupy są proszeni o niespożywanie tych na-pojów. Choć i w tym przypadku nie zabezpieczamy się przed problemami, np.przed występowaniem tzw. efektu placebo.Etap 2. Gromadzenie i opracowanie danych. Jest to też dość czasochłonny i kosz-towny fragment badania, w którym zbieramy wyniki doświadczenia, często napiśmie, i wprowadzamy je do komputera.Etap 3. Wnioskowanie statystyczne. Na tym etapie, stosując odpowiednie me-tody statystyczne i w oparciu o dane, które posiadamy, dokonujemy pewnego,w zależności od potrzeby, wnioskowania statystycznego (estymacja parametrów,testowanie hipotez, konstrukcja modeli itd.) w oparciu, najczęściej, o pewne pro-gramy statystyczne (np. IBM SPSS Statistics). Sprawdzamy też, czy stosowanemetody pasują do posiadanych danych, czyli czy dane spełniają pewne założeniapozwalające na stosowanie tej lub innej metody rozwiązania naszego zagadnie-nia.Etap 4. Prezentacja i używanie wyników. Po poprawnym wnioskowaniu staty-stycznym często przystępujemy do prezentacji wyników i do wykorzystania ichw następnych badaniach na ten sam bądź inny temat.

Przejdźmy teraz do omówienia tego, jak wygląda typowy plik danych, naprzykładzie plików używanych w programie IBM SPSS Statistics. Jak już wspo-minaliśmy, cechy, ze względu na które, jednostki statystyczne różnią się międzysobą, i które interesują nas w badaniu, nazywamy zmiennymi. Tych zmiennychmamy zazwyczaj w badaniu co najmniej kilka. Plik danych w programie IBMSPSS Statistics wygląda jak zwykły arkusz (patrz rysunek 1); zmienne tworząw nim kolumny. Liczba wierszy odpowiada liczbie przebadanych jednostek staty-stycznych; każdy wiersz reprezentuje wartości zmiennych dla pewnej jednostki.Istnieje kilka klasyfikacji typów zmiennych. Przede wszystkim zmienne mogą

być tekstowe i liczbowe. Np. zmienna kolor oczu z możliwymi wartościami piwne,brązowe, niebieskie itd. jest tekstowa, natomiast zmienna wiek z wartościami rów-nymi liczbie lat jest liczbowa. W różnych badaniach ta sama zmienna może byćtekstowa i liczbowa. Np. zmienna wiek może przyjmować wartości: młody, średni,starszy; wówczas będzie to zmienna tekstowa. Jeśli zmienna jest tekstowa, częstonadajemy jej wartościom pewne kody liczbowe (np. dla zmiennej płeć: kobieta –

Page 9: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

7

Rysunek 1. Arkusz danych IBM SPSS Statistics.

1, mężczyzna – 2).Zmienne można też podzielić na jakościowe (wartości zmiennej opisują ja-

kość jednostki; np. zmienne tekstowe, z reguły, są zmiennymi jakościowymi) orazilościowe (wartości zmiennej są pewnymi pomiarami, wyrażonymi w liczbach).Wreszcie, przejdźmy do podstawowego podziału zmiennych na typy (albo po-

ziomy, jak to się nazywa np. w programie IBM SPSS Statistics), którego będziemyużywać. Najprostszym typem zmiennej jest nominalny. Przykłady zmiennych ty-pu nominalnego to płeć, kolor oczu, region zamieszkania, wyznanie itd. To sązmienne jakościowe, często tekstowe, a jeżeli już są liczbowe, to wartości takichzmiennych są kodami, służącymi tylko do podzielenia jednostek na pewne kate-gorie lub grupy (np. grupa mężczyzn i grupa kobiet). Wartości tych nie możnaporównywać pod względem „mniej” lub „więcej”. Nie możemy mówić, że ktośma mniej płci, a ktoś więcej. Zmienne takie niosą w sobie dość mało informa-cji o jednostce. Następnym typem, czy też poziomem, zmiennej jest porządkowy.Zmienne tego typu posiadają wszystkie cechy zmiennych typu nominalnego, aleich wartości można już porównywać pod względem „mniej” lub „więcej”. Przy-kłady: stosunek do palenia (nie palę (0), mało palę (1), dużo palę (2)), stopieńzaufania do Sejmu (zdecydowanie ufam (5), raczej ufam (4), nie wiem (3), ra-czej nie ufam (2), zdecydowanie nie ufam (1)) itd. Zwróćmy uwagę, że wartościtakich zmiennych są kodami, ale kody te mają pewien porządek pozwalający naporównanie pod względem „mniej” lub „więcej”. Np. dla zmiennej stopień za-ufania do Sejmu, jeśli jedna jednostka ma wyższą wartość niż druga, oznacza to,że bardziej ufa ona tej instytucji państwowej. Zmienne typu porządkowego niosąw sobie więcej informacji o jednostce. I wreszcie trzeci typ zmiennej – ilościo-wy; wartości takich zmiennych są pewnymi pomiarami, np. wiek (w latach), waga(w kilogramach), wzrost (w centymetrach) itd. Takie zmienne już niosą w sobiesporo informacji o jednostce. Na koniec zwróćmy uwagę, że w zależności od ba-dania ta sama zmienna może mieć różny typ. Np. wiek (w latach) – typ ilościowy,

Page 10: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

8

wiek (młody (0), średni (1), starszy (2)) – typ porządkowy, wiek (młody, średni,starszy; tekstowo bez przyporządkowania wartości) – typ nominalny.

Page 11: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

9

2. Rozkład częstości zmiennej

Punktem wyjścia każdej analizy danych jest zapoznanie się z częstościami wy-stępowania poszczególnych wartości zmiennych, czyli z rozkładami częstości tychzmiennych. Rozkład częstości zmiennej to opis tego, jakie wartości zmienna przy-jęła i jak często.Przedstawimy podstawowe metody opisywania rozkładu częstości zmiennej na

przykładach, rozróżniając typ zmiennej.Zaczniemy od zmiennej typu nominalnego. Rozkład częstości takiej zmien-

nej to ujęcie danych w kategorię i wskazanie liczby obserwacji w obrębie każdejkategorii. Rozkład częstości zmiennej typu nominalnego może być ilustrowanyza pomocą tabeli oraz w postaci wykresów; podstawowymi wykresami tutaj sąwykres słupkowy i wykres kołowy.Przykład 1. Rozważmy dane znajdujące się w pliku Employee data.sav – jest toprzykładowy plik programu IBM SPSS Statistics, zawierający badanie przeprowa-dzone na 474 respondentach. Wśród innych zmiennych w pliku jest zmienna jobcat– grupa pracownicza (urzędnik (1), ochroniarz (2), menedżer (3)). Stwierdzamy,że jest to zmienna typu nominalnego. Rozkład częstości tej zmiennej znajduje sięw następującej tabeli (w postaci liczebności i częstości, czy też procentów):

Kategoria Liczebność Procenturzędnik 363 76,6ochroniarz 27 5,7menedżer 84 17,7Ogółem 474 100,0

Z tabeli dowiadujemy się, jakie wartości przyjęła nasza zmienna i jak często;widzimy, jakie kategorie pracowników są częstsze, a jakie rzadsze. Ale tabela jestdość „suchym” narzędziem ilustracji, więc przyjrzyjmy się graficznej metodzieprzedstawienia rozkładu częstości zmiennej i zacznijmy od wykresów słupkowych.Taki wykres jest zobrazowany na rysunku 2, każdy słupek reprezentuje kate-

gorię zmiennej typu nominalnego (wykres może być też ze słupkami poziomymi).Porównanie liczebności kategorii na takim wykresie odbywa się przy pomocy po-równania wysokości słupków; podstawy słupków zaś są takie same, jednakowa teżjest odległość między słupkami. Ponieważ zmienna ta ma typ nominalny, kolej-ność słupków nie odgrywa roli.Postawmy pytanie: czy kształt wykresu się zmieni, jeśli będzie on narysowany

nie na podstawie liczebności lecz na podstawie częstości (procentów)? Taki wykresjest przedstawiony na rysunku 3. Odpowiedź na postawione pytanie brzmi: nie,kształty wykresów są takie same.

Page 12: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

10

Rysunek 2. Wykres słupkowy zmiennej jobcat na podstawie liczebności.

Rysunek 3. Wykres słupkowy zmiennej jobcat na podstawie procentów.

Procentowy wykres słupkowy jest jednak bardziej użyteczny od opartego naliczebnościach w przypadkach, gdy chcemy porównać dane z różnych okresów ba-dania, w których liczba respondentów jest różna. Np. załóżmy, że rozważane danedotyczą trzech grup pracowniczych w pewnej firmie, i po kilku latach chcielibyśmyporównać dynamikę zmian, które zaszły w tych grupach. Jeśli liczba responden-tów zmieniła się zasadniczo, to nie ma dużego sensu porównywanie liczebnościtych samych grup pracowniczych. Lepsze będą częstości. Wtedy też wygodniejest narysować połączony wykres słupkowy, stawiając słupki reprezentujące tęsamą grupę pracowniczą, lecz w różnych okresach, obok siebie.

Page 13: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

11

Rysunek 4. Wykres kołowy zmiennej jobcat na podstawie liczebności.

Rysunek 5. Wykres kołowy zmiennej jobcat na podstawie procentów.

Wykresy słupkowe można alternatywnie zamienić na wykresy kołowe. Wy-kres kołowy ma postać koła podzielonego na wycinki; pole każdego wycinka jestproporcjonalne do liczebności lub częstości (procentów). Jak widzimy, wykres ko-łowy sporządzony na podstawie liczebności (rysunek 4) jest taki sam jak wykreskołowy sporządzony na podstawie procentów (rysunek 5).Wykresy kołowe niosą w sobie tyle samo informacji co słupkowe. Jednak przy

występowaniu wielu kategorii wykresy kołowe stają się mało czytelne, gdyż częśćwycinków będzie wąska i trudno porównywalna. Również wzajemna analiza dwóchwykresów kołowych jest bardziej kłopotliwa niż połączonego wykresu słupkowego.Przejdźmy teraz do badania rozkładu częstości zmiennej typu porządkowego.

Page 14: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

12

Przykład 2. Rozważmy wyniki badania zmiennej zaufanie (stopień zaufania doSejmu) dokonanego na 1000 respondentach. Respondenci mogli wybierać jednąspośród następujących odpowiedzi: zdecydowanie ufam, raczej ufam, raczej nieufam, zdecydowanie nie ufam, nie wiem. Po przydzielaniu kodów liczbowych od1 do 5, zaczynając od najmniejszego stopnia zaufania (zdecydowanie nie ufam)do największego stopnia zaufania (zdecydowanie ufam) i umieszczając odpowiedźnie wiem po środku, między raczej nie ufam i raczej ufam, otrzymujemy zmiennątypu porządkowego.Zacznijmy badanie rozkładu częstości tej zmiennej od sporządzenia tabeli:

Kategoria Liczebność Procentzdecydowanie nie ufam(1) 300 30raczej nie ufam(2) 200 20nie wiem(3) 100 10raczej ufam(4) 250 25

zdecydowanie ufam(5) 150 15Ogółem 1000 100

Widzimy, że najliczniejsza kategoria to zdecydowanie nie ufam – takich odpo-wiedzi mamy 30%. Na ogół trochę więcej jest osób nieufnych (razem 500 osób)niż ufających (400 osób). Uzupełnijmy badanie rozkładu częstości zmiennej, spo-rządzając wykresy słupkowy i kołowy. Do sporządzenia wykresów użyjemy liczeb-ności, ponieważ wykresy na podstawie procentów lub częstości w niczym się nieróżnią. Otrzymujemy rysunki 6 i 7.

Rysunek 6. Wykres słupkowy zmiennej zaufanie na podstawie liczebności.

Czy możemy jeszcze jakoś zilustrować rozkład częstości zmiennej typu porząd-kowego? Tak, możemy jeszcze policzyć tzw. częstości (procenty) lub liczebności

Page 15: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

13

Rysunek 7. Wykres kołowy zmiennej zaufanie na podstawie liczebności.

skumulowane. Nie miało to sensu w przypadku zmiennej typu nominalnego, po-nieważ tam porządek pomiędzy wartościami nie istniał. Tak więc, uzupełnijmypowyższą tabele o liczebności i częstości skumulowane:

Kategoria Liczebność % Liczebność skumul. % skumul.zdecydowanie nie ufam 300 30 300 30raczej nie ufam 200 20 500 50nie wiem 100 10 600 60raczej ufam 250 25 850 85

zdecydowanie ufam 150 15 1000 100Ogółem 1000 100

Wartości skumulowane mają następującą interpretację: 300 – to liczba osóbzdecydowanie nieufających, 500 – to liczba osób nieufających, 600 – to wszy-scy poza ufającymi, 850 – to wszyscy poza zdecydowanie ufającymi. Wykres,który możemy tutaj dodać, to wykres słupkowy częstości lub liczebności sku-mulowanych. Wykres słupkowy częstości skumulowanych dla tej zmiennej jestprzedstawiony na rysunku 8.Przejdźmy wreszcie do badania rozkładu częstości zmiennej typu ilościowego.

W tym celu rozważmy następujący przykład.Przykład 3. Rozważmy wyniki badania wzrostu (w centymetrach) 100 uczniówpewnej szkoły wyższej (zmienna wzrost). Zmienna ta, co prawda, przyjmuje tylkowartości całkowite dodatnie, ale należą one do pewnego dość dużego przedziału(w badaniu jest to przedział od 157 do 194). Oprócz tego, takim samym różni-com pomiędzy wartościami pomiaru odpowiadają takie same różnice we wzroście.Uznajemy zatem, że, podobnie jak zmienna wiek (w latach), jest to zmienna typuilościowego.

Page 16: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

14

Rysunek 8. Wykres słupkowy zmiennej zaufanie (procenty skumulowane).

Wyniki badania są zawarte w następującej tabeli:

185 187 165 183 167 180 165 175 170 164188 171 162 178 190 184 168 172 184 180163 171 180 159 173 185 176 165 181 189177 171 174 175 165 166 173 158 182 182179 182 163 164 166 181 161 160 176 184182 173 185 160 186 157 184 194 163 169187 172 185 187 164 183 169 183 191 171175 166 174 179 161 173 181 186 181 178177 181 173 172 158 177 170 179 188 189184 173 168 168 178 173 162 178 170 191

Jakie wartości zmienna przyjęła i jak często? Rozkład liczebności występowa-nia poszczególnych wartości zmiennej pokazują następujące tabele:

Wzrost 157 158 159 160 161 162 163 164 165 166Liczebność 1 2 1 2 2 2 3 3 4 3

Liczebność skum. 1 3 4 6 8 10 13 16 20 23

167 168 169 170 171 172 173 174 175 176 177 178 1791 3 2 3 4 3 7 2 3 2 3 4 324 27 29 32 36 39 46 48 51 53 56 60 63

180 181 182 183 184 185 186 187 188 189 190 191 1943 5 4 3 5 4 2 3 2 2 1 2 166 71 75 78 83 87 89 92 94 96 97 99 100

Page 17: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

15

Zauważmy, że procenty przyjmują takie same wartości, co liczebności, dlategonie zostały one podane w tabeli. Widzimy, że zmienna przyjęła dużo różnych war-tości: najczęściej spotykane liczebności to 2 i 3. Maksymalna liczebność – 7 (tylerazy spotkaliśmy się z wartością 173). Teraz wyobraźmy sobie, że na podstawietego rozkładu rysujemy wykres słupkowy. Będzie on zawierał zbyt dużo słupków,większość z nich będzie podobnej wysokości. Zatem wykres ten będzie dość nie-czytelny, zbyt szczegółowy. Często w ogóle mamy do czynienia ze zmienną typuilościowego, której wszystkie wartości są różne. Wtedy wykres słupkowy będziezupełnie pozbawiony sensu. Jak sobie radzić z tym kłopotem? Okazuje się, żewyjście istnieje: w tym przypadku rysujemy nie wykres słupkowy lecz histogram.Czym zatem jest histogram?Histogram to rodzaj wykresu słupkowego, który konstruujemy na podstawie

zmodyfikowanych, połączonych danych. Najpierw cały przedział, do którego na-leżą wartości zmiennej, dzielimy na pewną liczbę mniejszych rozłącznych prze-działów (tzw. przedziałów klasowych), zazwyczaj jednakowej długości (jaka mabyć liczba przedziałów, czyli liczba klas, o tym niżej). Dalej zliczamy, ile razywartość zmiennej wpadła do każdego przedziału klasowego (będą to liczebnościpołączone). I wreszcie, rysujemy wykres słupkowy składający się ze słupków, któ-rych podstawą są przedziały klasowe, a wysokościami te liczebności połączone. Odrazu zwróćmy uwagę, że charakterystyczną cechą histogramu są złączone słupki(ponieważ koniec jednego przedziału pokrywa się z początkiem drugiego).Teraz zobaczymy, jak to się robi w praktyce, na przykładzie zmiennej wzrost.

Przyjmijmy, że zdecydowaliśmy, iż tych przedziałów klasowych będzie 10. Prze-działy klasowe i liczebności połączone są podane w następującej tabeli:

Przedział klasowy Granice dokładne Liczebność poł. Liczebność skum.157-160 156,5-160,5 6 6161-164 160,5-164,5 10 16165-168 164,5-168,5 11 27169-172 168,5-172,5 12 39173-176 172,5-176,5 14 53177-180 176,5-180,5 13 66181-184 180,5-184,5 17 83185-188 184,5-188,5 11 94189-192 188,5-192,5 5 99193-196 192,5-196,5 1 100

Dlaczego wzięliśmy 10 przedziałów klasowych? Otóż zmienna nasza przyjęławartości od 157 do 194. Z reguły staramy się podzielić zakres zmienności cechytak, by długości przedziałów oraz granice klas byli liczbami sensownymi (w na-szym przypadku, gdy zmienna przyjmuje tylko wartości całkowite, by były np.liczbami całkowitymi). Stąd przyjęliśmy, że każdy przedział klasowy zawiera 4

Page 18: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

16

liczby całkowite i będzie tych przedziałów 10. Zresztą liczba tych przedziałówjest pewnym parametrem, który możemy zmieniać. Istnieją też pewne rekomen-dacje, jaka ma być liczba przedziałów klasowych w zależności od rozmiaru próbkin (patrz np. [2, s. 6-7]).Wróćmy do naszej tabeli. Istnieje jeszcze jeden parametr, który możemy zmie-

niać. Jeśli już wybraliśmy, że przedziałów klasowych ma być 10 i w każdym będzie4 liczby całkowite, to mamy teraz wybrać, gdzie będzie początek pierwszego prze-działu. Wybór ten wynika z tego, że przedziały klasowe prawie nigdy dokładnienie układają się w zakres zmienności badanej zmiennej. Jak widać z tabeli, przy-jęliśmy, że początkiem pierwszej klasy będzie 157, a końcem ostatniej klasy 196(przypomnijmy, że zmienna przyjmuje wartości od 157 do 194). Ale moglibyśmyteż przyjąć jako początek pierwszej klasy 156 (wtedy końcem ostatniej klasy bę-dzie 195), czy też 155 (wtedy końcem ostatniej klasy będzie 194). Czyli w zasadziemożemy narysować aż 3 histogramy z tą samą liczbą klas 10, różniące się tym,gdzie jest początek pierwszej klasy. Najczęściej histogramy te nie różnią się bar-dzo od siebie i wtedy jest obojętne, którą opcję wybierzemy. Zdarza się jednakinaczej. Wówczas, aby wybrać właściwy histogram, musimy pobrać dodatkowąinformację na temat badanej zmiennej (o ile jest to możliwe). Niżej taki przykład(patrz przykład 4) zostanie rozważony.Ponownie wrócimy do przedstawionej tabeli. Oprócz przedziałów klasowych

znajdują się tam też dokładne granice tych przedziałów. Te granice dokładneprzedziałów klasowych ustawiamy zazwyczaj z dokładnością do połowy jednostkipomiarowej zmiennej. Pozwala to m.in. uniknąć sytuacji, gdy wartość zmiennejwpadnie dokładnie w granicę między przedziałami i będziemy mieli kłopot, doktórego przedziału należy tę wartość zakwalifikować. Zauważmy, że powiększe-nie przedziałów klasowych do granic dokładnych nie zmienia położenia środkaprzedziału (co jest ważne dla obliczeń różnego rodzaju statystyk opisowych) i za-razem powoduje, że słupki w histogramie będą złączone. Histogram stworzony napodstawie wyników podanych w tabeli znajduje się na rysunku 9.Oprócz histogramu bardzo podobną dawkę informacji o rozkładzie zmiennej

niesie w sobie wykres, który nazywamy wielobokiem częstości. Jeśli na histogra-mie połączymy łamaną środki górnych krawędzi słupków, to uzyskamy właśniewielobok. Wielobok częstości zmiennej wzrost znajduje się na rysunku 10.Tak jak to było w przypadku zmiennej typu porządkowego, możemy użyć do

stworzenia wykresu nie liczebności czy częstości lecz liczebności skumulowanychbądź częstości skumulowanych. Odpowiednie histogram i wielobok znajdują sięna rysunkach 11 i 12.

Uwaga 1. Biorąc tylko górne krawędzie na histogramie zmiennej narysowanymna podstawie częstości skumulowanych uzyskujemy wykres funkcji schodkowej,zwanej dystrybuantą empiryczną. Dystrybuanta empiryczna przy dużych warto-ściach n jest dobrym oszacowaniem dla dystrybuanty – funkcji charakteryzującejrozkład zmiennej losowej w rachunku prawdopodobieństwa (patrz dodatek A1).

Page 19: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

17

Rysunek 9. Histogram zmiennej wzrost na podstawie częstości.

Rysunek 10. Wielobok zmiennej wzrost na podstawie częstości.

Postawmy pytanie: na co należy zwracać uwagę w pierwszej kolejności przyporównywaniu histogramów? Albo inaczej, porównując histogramy, kiedy mówi-my, że są one podobne, a kiedy, że są różne?Otóż porównując histogramy, w pierwszej kolejności zwracamy uwagę na kształt

histogramu, a dokładniej mówiąc na to, ile maksimów (lokalnych) posiada histo-gram (czy wielobok). Np. na rysunku 9 (czy też na rysunku 10) widzimy, że tychmaksimów lokalnych mamy dwa. Liczbę maksimów lokalnych interpretujemy wsposób następujący. Jeśli jest tylko jeden maksimum, to uważamy, ze dane sąjednorodne; jeśli są dwa maksima, to uważamy, że mamy dane, które są mieszan-ką dwóch grup jednorodnych; jeśli są trzy maksima, to uważamy, że mamy danepomieszane z trzech grup jednorodnych itd.

Page 20: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

18

Rysunek 11. Histogram zmiennej wzrost na podstawie częstości skumulowanych.

Rysunek 12. Wielobok zmiennej wzrost na podstawie częstości skumulowanych.

Jak zapowiadaliśmy wyżej, rozważmy teraz ciekawy przykład porównywaniakilku histogramów, stworzonych dla tej samej zmiennej i na podstawie tych sa-mych danych, różniących się tylko opcjami (liczbą przedziałów klasowych czy teżdługością przedziału klasowego oraz początkiem pierwszej klasy) użytymi przyich konstrukcji. Jak zobaczymy, nawet najmniejsze zmiany w tych opcjach mogąprowadzić do zmiany kształtu histogramu. Przykład ten został zaczerpnięty z [1,s. 22–23].Przykład 4. Rozważmy dane dotyczące badania szerokości (w milimetrach) dol-nego marginesu 100 fałszywych banknotów dwudziestofrankowych (frank szwaj-carski). Na podstawie tych danych zostały narysowane trzy histogramy.

Page 21: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

19

Rysunek 13. Histogramy szerokości dolnego marginesu na podstawie częstości.

Pierwszy histogram został narysowany przy następujących opcjach: początekpierwszej klasy to 7,2 mm, długość przedziału klasowego wynosi 0,8 mm; drugi– początek pierwszej klasy to 7,2 mm, długość przedziału klasowego wynosi 0,9mm; trzeci – początek pierwszej klasy to 6,8 mm, długość przedziału klasowegowynosi 0,8 mm. Histogramy te zostały podane na rysunku 13. Widzimy, że wybórtych opcji ma znaczący wpływ na kształt histogramu: w pierwszym przypadkuhistogram ma trzy lokalne maksima, w drugim jedno, a w trzecim dwa. Każdyz tych histogramów może być przyjęty jako podstawowy, jeśli nic dodatkowo niewiemy na temat badanej zmiennej.Załóżmy jednak, że taka dodatkowa informacja istnieje, np. policja wie na

pewno, że banknoty te pochodzą z trzech różnych źródeł (od trzech różnych„producentów”). Wówczas jest to istotny argument przemawiający za wyborempierwszego histogramu jako właściwego.Na koniec tego rozdziału zadajmy sobie jeszcze pytanie: co się dzieje z histo-

gramem, gdy rozmiar próbki rośnie, czyli jak mówią matematycy, gdy n → ∞?Okazuje się, że bardzo często histogram, przy pewnych warunkach jego stwo-rzenia, ma tendencję do stabilizacji i jego kształt zbliża się coraz bardziej dogładkiej krzywej charakteryzującej pewien rozkład teoretyczny rachunku praw-dopodobieństwa (np. rozkład normalny, patrz dodatek A2). Taka krzywa nazywasię gęstością rozkładu zmiennej losowej (patrz dodatek A1). Sytuacja ta zosta-ła przedstawiona na rysunkach 14 i 15. Na rysunku 14 widzimy histogram dlapewnej zmiennej narysowany na podstawie 1000 pomiarów, zaś na rysunku 15 napodstawie 100 000 pomiarów. Jest oczywiste, że w drugim przypadku histogrambardziej pasuje do podanej krzywej rozkładu normalnego, w porównaniu z pierw-szym. Te dodatkowe warunki tworzenia histogramu, o których wspominaliśmy, torysowanie histogramu w taki sposób, by suma pól wszystkich słupków wynosiła1. Jasne, że zawsze można tego dokonać, skoro, jak wiemy, skalowanie osi pio-nowej (wartości zmiennej), zupełnie nie wpływa na postać histogramu, a takimskalowaniem zawsze można osiągnąć postawiony cel.

Page 22: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

20

Rysunek 14. Histogram na podstawie 1000 obserwacji.

Rysunek 15. Histogram na podstawie 100 000 obserwacji.

Page 23: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

21

3. Statystyka opisowa: liczbowe charakterystyki

(miary)

Aby dokładniej opisać rozkład badanej zmiennej, korzystamy z pewnych charak-terystyk liczbowych (nazywamy je miarami). Dzielimy je na cztery grupy.

1. Określenie przeciętnej wartości zmiennej lub wartości, wokół której skupia-ją się pomiary. Za pomocą tych charakterystyk próbujemy odpowiedziećna pytanie: „Jaka wartość zmiennej jest najbardziej typowa?” Ta grupacharakterystyk nazywana jest miarami położenia (tendencji centralnej).

2. Określenie zmienności czy też rozproszenia wartości zmiennej (najczęściejwokół pewnej wartości typowej). Za pomocą tych charakterystyk próbujemyodpowiedzieć na pytanie: „Jak bardzo typowa jest ta wartość typowa?” Tagrupa charakterystyk nazywana jest miarami rozproszenia.

3. Określenie stopnia asymetrii rozkładu zmiennej. Dokonujemy tego przezobliczenie miar asymetrii.

4. Określenie stopnia skupienia i spłaszczenia (w stosunku do kształtu krzywejrozkładu normalnego standardowego) rozkładu zmiennej. Dokonujemy tegoprzez obliczenie miar koncentracji.

Rozważmy po kolei te cztery grupy miar. Ważność tych charakterystyk licz-bowych rozkładu zmiennej stopniowo maleje, gdy przechodzimy od pierwszej doczwartej grupy.

Miary położenia (tendencji centralnej)Przedstawimy te najważniejsze charakterystyki, rozróżniając typ zmiennej. Za-czniemy od zmiennej typu nominalnego.Dla takiej zmiennej jako miary położenia używamy mody (dominanty). Moda

to najczęściej spotykana wartość (kategoria) zmiennej. Np. w przykładzie 1 z po-przedniego rozdziału, gdzie rozważaliśmy zmienną jobcat (grupa pracownicza),modą jest kategoria urzędnik, ponieważ do tej kategorii należało aż 363 przebada-nych (na 474). W tym przypadku nie ma wątpliwości, że kategoria urzędnik jesttypową dla tej zmiennej.Ale czy zawsze tak jest? Np. mając w pewnym badaniu 100 osób (50 mężczyzn

i 50 kobiet) nie potrafimy określić, jaka kategoria zmiennej płeć jest typową (w in-nych przypadkach możemy też mieć do czynienia z trzema i więcej równolicznymikategoriami zmiennej). A nawet w przypadku, gdy mamy 51 mężczyzn i 49 ko-biet, można podważyć tezę o typowości, ze względu na płeć, kategorii mężczyznw tym badaniu. Tak więc widzimy, że nie zawsze moda dobrze określa typowośćkategorii zmiennej. Zauważmy też, że moda jest podatna na sposób kategoryzacjizmiennej, co też nie jest jej dobrą cechą.

Page 24: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

22

Co prawda w przypadku zmiennej typu nominalnego nie ma innego dobregokryterium określania typowości wartości zmiennej (może Czytelnik pokusi sięo podanie takiego kryterium?), czyli w tej sytuacji, w zasadzie, jedyną miarąpołożenia jest moda.Przejdźmy teraz do zmiennej typu porządkowego. Tutaj też możemy użyć mo-

dy jako miary położenia. Tak np. w przykładzie 2 z poprzedniego rozdziału, gdzierozważaliśmy zmienną zaufanie, modą jest kategoria zdecydowanie nie ufam, gdyżjest ona najliczniejsza (300 na 1000 osób). Teraz chyba już nie jesteśmy aż takprzekonani, w porównaniu z poprzednim przypadkiem, że najbardziej typową od-powiedzią w tym badaniu była odpowiedź zdecydowanie nie ufam. Na szczęście,w przypadku zmiennej typu porządkowego możemy też korzystać z innej podsta-wowej miary położenia, mianowicie mediany.Załóżmy, że zmienna przyjęła wartości x1, . . . , xn. Medianą nazywamy taką

liczbę, że przynajmniej połowa wartości zmiennej jest nie większa od niej i przy-najmniej połowa jest nie mniejsza. Dokładniej mówiąc, medianę wyznaczamy zewzoru:

Me =

x(n+12), n jest nieparzyste

x(n2 )+x(n2 +1)

2, n jest parzyste.

Indeksy w nawiasach oznaczają, że wartości x1, . . . , xn zostały uporządkowanew sposób niemalejący, czyli x(1) 6 x(2) 6 . . . 6 x(n).Wróćmy do przykładu 2 z poprzedniego rozdziału. Rozmiar próbki n wynosi

1000, czyli jest liczbą parzystą. Zatem Me = x(500)+x(501)2

. Po uporządkowaniuwartości zmiennej w sposób niemalejący, x(500) to raczej nie ufam (2), a x(501) tonie wiem (3), dlatego Me = 2+3

2= 2,5. Czyli za typową kategorię w tym badaniu

należy uznać coś pomiędzy raczej nie ufam i nie wiem (zauważmy, że medianaw tym przykładzie przyjęła wartość inną od możliwych wartości zmiennej, cowcale nie jest jej mankamentem). Z punktu widzenia interpretacji chyba jestoczywiste, że mediana tutaj bardziej odzwierciedla wartość typową, aniżeli moda.Wreszcie, przejdźmy do zmiennej typu ilościowego. Z jakich miar położenia

korzystamy tutaj? Nadal możemy używać modę i medianę. Co prawda moda,z racji tego, że zmienna tego typu przyjmuje dużo różnych wartości, jeszcze bar-dziej traci sens. I tak w przykładzie 3 z poprzedniego rozdziału, gdzie rozważali-śmy zmienną wzrost, moda wynosi 173 (taką wartość zmienna przyjęła 7 razy na100), a mediana wynosiMe = x(50)+x(51)

2= 175+175

2= 175. Oprócz mody i mediany

w tym przypadku możemy korzystać też z najbardziej znanej miary położenia,którą jest średnia arytmetyczna (lub po prostu średnia). Jak wiadomo, jest onaokreślona wzorem x = 1

n

∑ni=1 xi. W naszym przykładzie ze wzrostem x = 175,07

(jak zaznaczono na rysunkach 9 i 10), a więc średnia jest bardzo bliska medianie.Skoro moda, jak już zaznaczyliśmy wyżej, raczej nie jest dobrą charakterysty-

ką dla zmiennej typu ilościowego, powstaje pytanie: która z dwóch pozostałych

Page 25: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

23

podstawowych miar położenia (mediana czy średnia) jest lepsza? Zdecydowaniebardziej znaną charakterystyką jest średnia. Wszyscy bowiem korzystamy z róż-nego rodzaju średnich (średnia cena, średni poziom, średnia ocen itd.) i zupełnienie korzystamy dla określenia typowej wartości zmiennej z mediany. Czy jest tosłuszne? Odpowiedź brzmi: nie. Mediana, na ogół, jest nie gorszą miarą położeniadla zmiennych typu ilościowego niż średnia. W pewnych przypadkach lepszą jestśrednia, w innych mediana. Dokładniej mówiąc, średnia jest lepsza od medianydla rozkładów zbliżonych do symetrycznego i gorsza od mediany dla rozkładówdalekich od symetrycznego bądź w sytuacji, gdy zmienna ma wartości odstające(oddalone) (co to jest – o tym niżej). Na poparcie tej tezy rozważmy charaktery-styczny przykład, zaczerpnięty z [1, s. 28–29].Przykład 1. Rozważmy rozkład miesięcznych zasadniczych wynagrodzeń pra-cowników z wyższym wykształceniem zatrudnionych w pewnej niedużej firmie.Niech sześciu spośród pracowników ma wynagrodzenie 2500 zł, ośmiu ma 3000zł, siedmiu 3100 zł, czterech 3500 zł, trzech 4000 zł, dwóch 5000 zł i jeden (po-wiedzmy, kierownik) zarabia 12 000 zł.Przyjrzyjmy się histogramowi zarobków w tej firmie, przedstawionemu na ry-

sunku 16.

Rysunek 16. Histogram zarobków w firmie.

Z histogramu widzimy, że rozkład zmiennej jest bardzo niesymetryczny. Cowięcej, badana zmienna przyjęła jedną wartość, która drastycznie różni się odpozostałych (zarobki kierownika). Taka bardzo nietypowa wartość, czyli wartośćdrastycznie różniąca się od pozostałych (nie jest ważne, w którą stronę), nazywasię wartością odstającą bądź oddaloną (ang. outlier). Licząc medianę i średniązarobków w tej firmie dostajemy, odpowiednio, Me = 3100 zł, x = 3506,45 zł.Jest oczywiste, że w tym przypadku mediana jest bardziej adekwatną charakte-rystyką typowych zarobków w tej firmie, gdyż ok. 2/3 pracowników nie zarabia

Page 26: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

24

więcej niż 3100 zł. Wysoka średnia jest bowiem konsekwencją bardzo wysokichzarobków kierownika. Jasne, że wartości odstające mogą mieć istotny wpływ naśrednią (zawyżać ją bądź zaniżać), natomiast zupełnie nie mają one wpływu namedianę (gdyby kierownik zarabiał miesięcznie, powiedzmy, 5500 zł, to i tak me-diana wyniosłaby 3100 zł). W takiej sytuacji mówimy, że mediana jest odpornana wartości odstające, średnia zaś nie jest odporna na wartości odstające. Alejeśli rozkład zmiennej jest niezbyt daleki od symetrycznego i nie posiada war-tości odstających, to średnia jest lepszą miarą położenia niż mediana, ponieważjak najbardziej bierze pod uwagę wszystkie wartości zmiennej, w odróżnieniu odmediany.Oprócz trzech podstawowych miar położenia istnieje jeszcze kilka dość „egzo-

tycznych”, rzadko używanych charakterystyk. Wśród nich są:

średnia geometryczna xg = n√x1 · x2 · . . . · xn (o ile xi > 0, i = 1, . . . , n);

średnia harmoniczna xh =n

∑ni=1

1xi

(o ile xi 6= 0, i = 1, . . . , n);

średnia ważona xw =n∑

i=1

xiwi, gdzie wi ­ 0,n∑

i=1

wi = 1.

Ostatnia miara jest, w zasadzie, uogólnieniem średniej w sytuacji, gdy nie wszyst-kie obserwacje są dla nas jednakowo ważne (jeśli wszystkie wagi są jednakowe,otrzymamy zwykłą średnią). Szczególnym przypadkiem średniej ważonej jest teżśrednia ucięta:

xu =1

n− 2kn−k∑

i=k+1

x(i),

gdzie k jest określoną liczbą naturalną nie przewyższającą zwykle 5% warto-ści n. Średnia ucięta też jest skuteczna „w walce” z wartościami odstającymi.I tak w przykładzie 1, nie biorąc pod uwagę dwóch pracowników o najwyższychzarobkach i dwóch pracowników o najniższych zarobkach (k = 2), otrzymamyxu = 3211,11 zł, czyli wartość, która jest bardziej właściwa jako typowa.Wreszcie, na koniec wspomnijmy jeszcze o pewnych dodatkowych miarach

położenia, którymi są kwantyle. Kwantyle to liczby, które dzielą zbiór wartościbadanej zmiennej, uszeregowany od najmniejszej do największej, na równe częścipod względem liczby obserwowanych wartości. Najczęściej używane kwantyle to:kwartyle (3 kwartyle, oznaczane odpowiednio przezQ1, Q2, Q3, dzielą próbkę na 4jednakowo liczne części – patrz rysunek 17; drugi kwartyl to oczywiście mediana),decyle (9 decyli dzieli próbkę na 10 jednakowo licznych części), percentyle (99percentyli dzieli próbkę na 100 jednakowo licznych części).Pożytecznym wykresem, tworzonym na podstawie kwartyli i służącym do opi-

su rozkładu częstości zmiennej, jest wykres skrzynkowy (czasami też nazywanywykres ramkowy, ramka z wąsami, pudełko z wąsami – ang. box-and-whiskers).

Page 27: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

25

Wykres ten (częściej rysowany w pionie) został naszkicowany nieco pogrubionymiliniami na rysunku 17. Jest to pudełko, którego dolna krawędź jest na poziomieQ1, a górna na poziomie Q3.W środku jest jeszcze linia, równoległa do krawędzi,i pokazująca, gdzie jest Q2 (czasami zamiast mediany może występować średnia).

q q q

Q1 Q3Me(Q2)Min Maxqq

Rysunek 17. Kwartyle.

Od pudelka w dół i w górę odchodzą dolny i górny „wąsy”. Kończą się one albona poziomie odpowiednio minimalnej i maksymalnej wartości w próbce, jak tozostało pokazane na rysunku 17, albo odpowiednio na poziomie Q1−1,5(Q3−Q1),jeśli ta wartość jest większa od minimalnej, oraz na poziomie Q3+1,5(Q3−Q1),jeśli ostatnia wartość jest mniejsza od maksymalnej. W tych dwóch ostatnichprzypadkach, oczywiście koniec dolnego/górnego wąsa nie pokrywa się z minimal-ną/maksymalną wartością zmiennej w próbce. Wówczas obserwacje leżące poniżejQ1 − 1,5(Q3 − Q1) i/lub powyżej Q3 + 1,5(Q3 − Q1) są pokazywane na obrazkukropkami i identyfikowane jako odstające. Rozważmy przykład.Przykład 2. Ponownie, jak w przykładzie 1 z poprzedniego rozdziału, rozważmydane znajdujące się w pliku Employee data.sav (badanie na 474 respondentach).Oprócz znanej już nam zmiennej jobcat – grupa pracownicza, z którą mieliśmy doczynienia, jest tam też zmienna salbegin – początkowe wynagrodzenie. Interesujenas porównanie rozkładu częstości tej zmiennej dla różnych grup pracowniczych(urzędnik (1), ochroniarz (2), menedżer (3)). Odpowiedni wykres, zawierającytrzy wykresy skrzynkowe, jest przedstawiony na rysunku 18.Porównując poziomy, na których znajdują się wykresy skrzynkowe, dochodzi-

my do wniosku, że początkowe zarobki menedżerów są zdecydowanie wyższe niżw pozostałych dwóch grupach. Widzimy też, że rozrzut wartości początkowychzarobków menedżerów jest znacznie większy od urzędników, a u tych ostatnichznacznie większy od ochroniarzy. W zasadzie, początkowe zarobki ochroniarzysą bardzo zbliżone do siebie – o tym mówi bardzo małe pudełko odpowiadającetej grupie pracowniczej. Obecność obserwacji odstających na wykresie (kropkiz numerem obserwacji) też wskazuje, że zarobki początkowe menedżerów są bar-dzo zróżnicowane i są raczej wysokie (nie ma obserwacji odstających leżącychponiżej dolnego wąsa). W porównaniu z grupą ochroniarzy, urzędnicy też majązróżnicowane zarobki początkowe, choć i w mniejszym stopniu od menedżerów,też z obserwacjami odstającymi leżącymi powyżej górnego wąsa. Mimo bardzo

Page 28: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

26

Rysunek 18. Wykresy skrzynkowe dla salbegin w zależności od jobcat.

podobnych zarobków początkowych, wśród ochroniarzy też odnotowujemy dwieobserwacje odstające, ale leżące poniżej dolnego wąsa.Wreszcie, wykres skrzynkowy pozwala też wyciągnąć pewne wnioski na temat

symetryczności rozkładu zmiennej (w całości, jak też w obszarze połowy naj-bardziej typowych obserwacji, który określa się wnętrzem pudełka). Zarówno dlaurzędników, jak też menedżerów, wykresy skrzynkowe mają dłuższe górne wąsyaniżeli dolne; oznacza to, że rozkłady odpowiednich zmiennych są prawoskośne.Natomiast w obszarze połowy najbardziej typowych obserwacji sytuacja jest jużtrochę inna: rozkład początkowych zarobków menedżerów tutaj wygląda na mniejwięcej symetryczny, zaś dla urzędników na lewoskośny (linia środkowa leży bliżejgórnej krawędzi pudelka).Tak więc, reasumując, wykres skrzynkowy jest dość pożytecznym narzędziem

ilustrującym nie tylko położenie rozkładu zmiennej, ale też jego rozrzut orazsymetryczność. Dobrze też służy porównaniu rozkładu zmiennej dla różnych gruplub porównaniu rozkładów różnych zmiennych.Miary rozproszeniaZaczynając od tej grupy miar, nie będziemy już uwzględniać typu zmiennej, gdyż,w zasadzie, wszystkie charakterystyki, które będziemy przedstawiać, liczymy jużtylko dla zmiennych typu ilościowego. Wymienimy po kolei miary rozproszenia.Jak sama nazwa mówi, określają one stopień rozrzutu wartości zmiennej. Jestoczywiste, że charakterystyki te są potrzebne, gdyż łatwo sobie wyobrazić sytu-ację, w której miary położenia pokrywają się, ale rozkłady są istotnie różne (jedenrozkład jest mocno rozrzucony wokół pewnej wartości przeciętnej, a drugi wręczskupiony wokół tej samej wartości).Rozstęp: różnica pomiędzy największą a najmniejszą wartością zmiennej. Jest tonajprostsza miara rozproszenia, która określa się, w zasadzie, tylko przez dwiewartości zmiennej.

Page 29: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

27

Odchylenie przeciętne: 1n

∑ni=1 |xi − x|.

Wariancja: s2 = 1n−1

∑ni=1(xi − x)2.

Odchylenie standardowe: s =√1n−1

∑ni=1(xi − x)2.

Ostatnie trzy charakterystyki są najczęściej spotykanymi miarami rozproszenia.Określają stopień rozrzutu wartości zmiennej wokół średniej (teoretycznie za-miast średniej może też występować mediana) oraz w sposób istotny zależą odwszystkich wartości zmiennej. Spośród nich najczęściej używane jest odchyleniestandardowe, które w odróżnieniu od wariancji mierzy się w tych samych jed-nostkach co zmienna (jest to czasami bardziej wygodne). Zaletą odchylenia stan-dardowego w stosunku do odchylenia przeciętnego jest to, że określa się bardziejwygodnym, w pewnym sensie, wzorem matematycznym, gdyż funkcję kwadrato-wą i pierwiastek można np. różniczkować w każdym punkcie, w odróżnieniu odwartości bezwzględnej.Współczynnik zmienności: v = s/x pod warunkiem, że x 6= 0 (czasami jeszczemnoży się przez 100%). Jest to mniej znana lecz pożyteczna miara rozproszeniazwłaszcza w sytuacji, gdy zmienność cechy rośnie wraz ze wzrostem jej wartościlub przy przeskalowaniu wartości zmiennej czy też przy porównywaniu zmienno-ści różnych zmiennych. Rzecz w tym, że wszystkie poprzednie miary rozproszeniaistotnie zależały od położenia rozkładu (bowiem mnożenie wszystkich wartościzmiennej np. przez 100 powoduje, że miary te też mnożą się przez 100, a wa-riancja nawet przez 10 000). Czyli charakterystyki te, w zasadzie, rosną wrazze wzrostem przeciętnej wartości zmiennej, co nie zawsze jest wygodne. Współ-czynnik zmienności jest pozbawiony tej wady (np. skalowanie wszystkich wartościzmiennej nie zmienia jego wartości) i jest, w pewnym stopniu, bardziej „stabil-nym” wskaźnikiem rozproszenia.Miara asymetriiTutaj wymienimy tylko jedną charakterystykę liczbową, która nazywa się współ-czynnikiem skośności i określa się wzorem

Sk =n∑ni=1(xi − x)3

(n− 1)(n− 2)s3 ,

gdzie s to odchylenie standardowe.Potrzebę takiej miary można uzasadnić, rozważając następujący przykład,

zaczerpnięty z [3, s. 91–92].Przykład 3. Badano czasy reakcji na lek w trzech 100-osobowych grupach pa-cjentów. Histogramy rozkładu częstości tej zmiennej dla różnych grup przedsta-wiono na rysunkach 19-21.Zauważmy, że średnia i odchylenie standardowe (czyli podstawowe miary po-

łożenia i rozproszenia) są takie same we wszystkich trzech grupach (x = 35, s =11,01), ale jest oczywiste, że rozkłady te są różne! Pierwszy rozkład jest idealnie

Page 30: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

28

Rysunek 19. Histogram częstości zmiennej dla pierwszej grupy.

Rysunek 20. Histogram częstości zmiennej dla drugiej grupy.

Rysunek 21. Histogram częstości zmiennej dla trzeciej grupy.

Page 31: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

29

symetryczny, natomiast w drugim i trzecim przypadku mamy do czynienia z roz-kładami asymetrycznymi, przy czym ta asymetryczność jest różna. Asymetriarozkładu na rysunku 20 nazywa się prawostronną (lub mówią, że rozkład jestprawoskośny). Na rysunku 21 zaś mamy do czynienia z asymetrią lewostronną,inaczej z rozkładem lewoskośnym.Tym trzem typom rozkładów odpowiadają pewne wartości współczynnika

skośności: dla rozkładu symetrycznego mamy Sk = 0, w przypadku asymetriilewostronnej Sk < 0, prawostronnej Sk > 0. Licząc współczynniki skośnościw przykładzie 3 otrzymujemy odpowiednio Sk = 0, Sk = 0,232, Sk = −0,232.Miara koncentracjiTutaj wymienimy też tylko jedną charakterystykę liczbową, która nazywa siękurtozą i określa się wzorem

K =n(n + 1)

∑ni=1(xi − x)4 − 3(n− 1)(

∑ni=1(xi − x)2)2

(n− 1)(n− 2)(n− 3)s4 ,

gdzie ponownie s to odchylenie standardowe.Kurtoza opisuje koncentrację rozkładu zmiennej wokół wartości przeciętnej

(średniej). Im wyższa jest wartość K, tym bardziej wysmukła jest krzywa opi-sująca kształt histogramu, a zatem większa jest koncentracja wartości zmiennejwokół średniej. Wartość K = 0 odpowiada krzywej (gęstości, patrz dodatek A2)standardowego rozkładu normalnego. Zatem jeśli K < 0, to mamy do czynieniaz krzywą bardziej spłaszczoną od krzywej standardowego rozkładu normalnego,a jeśli K > 0, to z krzywą bardziej wysmukłą od krzywej standardowego rozkładunormalnego (patrz rysunek 22).

Rysunek 22. Krzywa rozkładu standardowego normalnego (1), bardziejwysmukła (2) i bardziej spłaszczona (3).

Page 32: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

30

4. Wstępna obróbka danych

Zanim zaczniemy pracować z danymi, należy je dokładnie przejrzeć. Dane mogązawierać:– wartości, które są błędne;– brak wartości w niektórych miejscach;– punkty oddalone (odstające).Wstępna obróbka danych polega na czyszczeniu danych i ich ewentualnym prze-kształceniu. Przy pisaniu tego rozdziału będziemy korzystać z materiałów roz-działu 2 z [4].Czyszczenie danych polega przede wszystkim na usunięciu błędów, a także na

obsłudze danych brakujących. Zacznijmy od wykrywania i usunięcia błędów. Abyzilustrować konieczność czyszczenia danych, rozważmy następujący przykład [4,s. 27–29].

Przykład 1.Weźmy fragment pliku stanowiącego bazę danych klientów pewnegosupermarketu znajdującego się w USA:

ID klienta Kod pocztowy Płeć Dochód Wiek Kwota transakcji1001 100048 M 75000 C 50001002 J2S7K7 K -40000 40 40001003 90210 10000000 45 70001004 6269 M 50000 0 10001005 55101 K 99999 30 3000

Przeanalizujmy wartości znajdujące się w tabeli. Zmienna ID klienta, oczywi-ście, służy tylko do identyfikacji klientów. Nie będziemy czepiać się też zmiennejKwota transakcji, choć zbyt zaokrąglone wartości wyglądają trochę podejrzanie.Ale pozostałe zmienne już nie są bez zarzutu.Jeśli chodzi o zmienną Kod pocztowy, to naturalnie jest oczekiwać, iż wszyscy

klienci mają typowy pięciocyfrowy kod pocztowy. Pod tym względem klient 1002ma bardzo dziwny kod pocztowy. Moglibyśmy uznać tę wartość jako błędną i np.wyrzucić tego klienta z bazy danych. Ale okazuje się, że nie wszystkie kraje mająwłaśnie pięciocyfrowy kod pocztowy. Dokładniej mówiąc, podany kod odpowiadarzeczywistemu kodowi pocztowemu miejscowości St. Hyancinthe w Quebecu (Ka-nada). Tak więc, prawdopodobnie, wartość ta nie jest błędna i po prostu mówi,że dany klient jest z Kanady. Dalej, klient 1004 też ma nietypowy kod poczto-wy składający się nie z pięciu lecz tylko z czterech cyfr. Ponownie wygląda tona błąd, tym bardziej, że kody czterocyfrowe nie istnieją. Skąd mogła tutaj siępojawić taka wartość? Najbardziej prawdopodobne tłumaczenie jest następujące.Przypuśćmy, że kod pocztowy to 06269. Programy statystyczne często posiadajątaką cechę, że jeśli przy wprowadzaniu danych zaznaczono, że dana zmienna jest

Page 33: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

31

numeryczna, to wartość wprowadzona jako 06269 automatycznie zostanie obcię-ta do 6269 (z racji tego, że liczba nie może zaczynać się od zera!). Czyli tylkoprzy zaznaczeniu, że zmienna jest tekstowa, możemy bez obaw wpisać wartość06269 (warto jednak dodać, że program IBM SPSS Statistics od niedawna umoż-liwia wybranie formatu o nazwie „ograniczony numeryczny”, który pozwala nawpisywanie wartości z zerami na początku). Czyli kod pocztowy klienta 1004 tonajprawdopodobniej 06269, co oznacza miejscowość Storrs, Connecticut (USA).Przejdźmy do następnej zmiennej Płeć. Tutaj od razu zauważamy wartość bra-

kującą (dla klienta 1003). Metody radzenia sobie z takimi wartościami omówimyniżej.Zmienna Dochód (chodzi o roczny dochód klienta) posiada aż trzy podejrzane

wartości. Przede wszystkim jest to wartość dla klienta 1002, przecież dochód niemoże być ujemny! Albo ktoś uznał, że w ujęciu rocznym ma stratę, którą możnatraktować jako dochód ze znakiem minus, albo jest to błąd przy wprowadzaniudanych. Ponieważ nie możemy być pewni, co jest w rzeczywistości z tym klientem,warto spróbować skontaktować się z administratorem bazy danych, który najlepiejzna historię tej bazy (jest to rozwiązanie, które, o ile jest możliwe, należy stosowaćw każdej wątpliwej sytuacji). Dochód klienta 1003 też wygląda na błąd, bo jestto zbyt duża wartość. Aczkolwiek biorąc pod uwagę kod pocztowy klienta (90210– Beverly Hills), należy przyznać, że wartość ta może być prawdziwa, chociaż napewno będzie ona wartością odstającą przy analizie danych. Wreszcie, podejrzaniewygląda też dochód klienta 1005. Może jest to wartość poprawna. Ale może byći tak, że wartość ta została przeniesiona do tej bazy z innej, w której kodem99999 były oznaczone braki danych dla zmiennej Dochód (jak zobaczymy niżej,najczęściej braki danych zastępowane są kodami o wartościach typu 0, 9, 99 itd.).Wreszcie, zmienna Wiek też ma kilka dziwnych wartości. I tak, klient 1001 ma

jako wiek wartość C. Prawdopodobnie źródłem tej wartości była jakaś wcześniej-sza kategoryzacja, w której wiek tego klienta został opisany jako C, co oznaczałopewną grupę wiekową. W każdym bądź razie program statystyczny nie poradzisobie z tą wartością tekstową, gdyż wszystkie inne wartości tej zmiennej są licz-bowe, i musimy jakoś rozwiązać ten problem. A co z klientem 1004, który ma 0lat? Czy jest to błąd, czy może ktoś po prostu wpisał swojego nowo narodzonegosyna jako klienta? A może jest to kod oznaczający brak danych? Nie wiemy tego,zatem ponownie warto zwrócić się w sprawie wyjaśnienia do osoby, która tworzyłatę bazę danych.Przejdźmy teraz do omówienia sposobów „walki” z brakującymi danymi. Jest

to prawdziwy problem, z którym dość często spotykamy się w analizie danych.Przyjrzyjmy się przykładowi zamieszczonemu w [4, 29–32].Przykład 2. Na rysunku 23 został przedstawiony fragment pliku dotyczący ba-dania samochodów używanych. Poszczególne zmienne to: mpg – zużycie paliwa,cylinders – liczba cylindrów, cubicinches – pojemność silnika, hp – przyspieszenie.

Page 34: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

32

Rysunek 23. Dane z wartościami brakującymi.

Niestety, z dziesięciu wierszy pełnych mamy tylko cztery. Częstą metodą ra-dzenia sobie z wartościami brakującymi jest pominięcie podczas analizy wierszy,w których występują takie wartości. Może to być jednak niebezpieczne, gdyżtakich wierszy może być zbyt dużo i jest to wtedy marnotrawienie informacjiznajdującej się mimo wszystko w tych wierszach. Dlatego rozważymy inne, bar-dziej fachowe metody pracy z wartościami brakującymi. Wśród nich wymienimy:– zastąpienie wartości brakujących pewną stałą (kodem);– zastąpienie wartości brakujących wartością średnią (dla zmiennych ilościowych)lub wartością modalną (dla zmiennych jakościowych);– zastąpienie wartości brakujących wartościami wygenerowanymi losowo z obser-wowanego rozkładu zmiennej.Każda z metod ma swoje wady i zalety. Przyjrzyjmy się bliżej tym metodom.Pierwsza metoda jest najbardziej popularna i niezbyt wygórowana. Po prostu

wpisujemy kody zamiast wartości brakujących i zaznaczamy, że te kody ozna-czają właśnie wartości brakujące. Jako kody najczęściej, jak już wspominaliśmy,wybieramy liczby 0, 9, 99 itd. Na rysunku 24 pokazany został ten sam fragmentpliku z zastosowaniem rozwiązania według pierwszej metody (jako kod wartościbrakującej dla wszystkich zmiennych wzięto 0). Kody te oczywiście nie uczest-niczą w analizie danych, ale wszystkie pozostałe wartości z tych wierszy – jaknajbardziej. Ale gdy brakujących wartości jest zbyt dużo, coraz częściej możnaspotkać metody próbujące zastąpić braki danych wartościami bardziej sensow-nymi, by używać ich jednak podczas analizy (pozostałe dwie metody). Oprócztej zalety, że teraz pracujemy z „pełnymi” plikami danych, zawsze trzeba jednakpamiętać o tym, że w pewien sposób fabrykujemy przy tym dane.Metoda druga proponuje zastąpienie wartości brakujących typowymi warto-

ściami zmiennych, czyli miarami położenia (patrz rysunek 25). Wartości bra-kujące zmiennych mpg, cubicinches, hp tutaj zostały zastąpione średnimi, zaś

Page 35: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

33

Rysunek 24. Zastąpienie wartości brakujących kodami.

zmiennej cylinders – modą. Wybranie tych wartości w miejsce braków danych cza-sami może dobrze zadziałać. Ale pamiętajmy, że jeśli dużo wartości brakującychzostanie zastąpionych typowymi, to rozkład zmiennej będzie w pewien sposóbzniekształcony (np. miary rozproszenia rozkładu zmiennej istotnie zmaleją).

Rysunek 25. Zastąpienie wartości brakujących typowymi.

Z kolei metoda trzecia proponuje zastąpienie wartości braków danych warto-ściami wygenerowanymi losowo z obserwowanego rozkładu zmiennej (patrz ry-sunek 26). W tym przypadku już nie ma mowy o zniekształceniu rozkładu, alewpadamy w inne niebezpieczeństwo. Otóż jest całkiem możliwe, że po takimzastąpieniu utworzą się wiersze, które nie będą miały sensu. Np. w naszym przy-padku piąty wiersz, po dopisaniu trzech wylosowanych wartości, może określaćbardzo dziwny silnik!

Page 36: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

34

Rysunek 26. Zastąpienie wartości brakujących losowymi.

Na koniec tego rozdziału opiszemy proste metody przekształcania danych,których czasami używamy na samym początku pracy z danymi.Wartości zmiennych, rozważanych w tym samym badaniu, mogą bardzo róż-

nić się od siebie. Przy niektórych procedurach statystycznych takie różnice będąpowodować, że zmienne przyjmujące duże wartości będą miały nadmierny wpływna wyniki. Dlatego na początku pracy w celu wyrównywania tych różnic czasamiwarto stosować pewne przekształcenia liniowe zmiennych typu normalizacja lubstandaryzacja.Normalizacja. Wartości x1, . . . , xn zmiennej przekształcamy na y1, . . . , yn nastę-pująco:

yi =xi − min

1¬j¬nxj

max1¬j¬n

xj − min1¬j¬n

xj, i = 1, . . . , n.

Efektem takiego przekształcenia jest sprowadzenie wartości zmiennej do przedzia-łu [0, 1].Standaryzacja. Wartości x1, . . . , xn zmiennej przekształcamy na z1, . . . , zn nastę-pująco:

zi =xi − xs, i = 1, . . . , n,

gdzie x to średnia, a s to odchylenie standardowe. Efektem tego przekształce-nia jest to, że średnia zmiennej przekształconej zawsze wynosi 0, a odchyleniestandardowe 1.Takie przekształcenia znacznie ułatwiają też porównywanie wartości różnych

zmiennych między sobą. Rozważmy prosty przykład. Niech średni wynik kolo-kwium grupy studentów z matematyki będzie równy x = 65, a z fizyki y = 52 (na100 punktów możliwych). Odpowiednie odchylenia standardowe niech wynoszą:

Page 37: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

35

sx = 8, sy = 12. Pewien student uzyskał wyniki: x = 57, y = 43. Czy na tlegrupy wypadł on lepiej z matematyki czy z fizyki?Odpowiemy na to pytanie, stosując standaryzację. Gdyby uzyskał on wyni-

ki odpowiednio 65 i 52, to na tle grupy wypadłby zupełnie przeciętnie, a jegoodpowiednie wyniki po standaryzacji byłyby równe 0 i 0. Przy jego wynikachpo standaryzacji otrzymujemy odpowiednio −1 i −0,75. Czyli z matematyki stu-dent osiągnął wynik o 1 odchylenie standardowe poniżej przeciętnej, a z fizykio 0,75 odchylenia standardowego poniżej przeciętnej. Wnioskujemy zatem, że natle grupy student trochę lepiej wypadł z fizyki niż z matematyki, chociaż w obuprzypadkach jego wynik jest poniżej przeciętnej.Przypomnijmy jeszcze, że punkty odstające najczęściej identyfikujemy za po-

mocą wykresów skrzynkowych lub wykresów rozrzutu.

Page 38: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

36

5. Estymacja nieznanych parametrów rozkładu

Niech dana będzie populacja generalna. Interesujemy się pewną cechą X, a do-kładniej pewną charakterystyką liczbową θ tej cechy (np. średnią wartością lubwariancją tej cechy); tę nieznaną charakterystykę liczbową nazywamy parametremrozkładu. Przeprowadzamy doświadczenia, w wyniku których otrzymujemy prób-kę (x1, . . . , xn). Na podstawie tej próbki należy odpowiedzieć na pewne pytaniana temat nieznanego θ ∈ Θ, gdzie Θ jest zbiorem możliwych wartości parametru.Klasyczna statystyka matematyczna dzieli się na dwa podstawowe działy: teo-

rię estymacji oraz teorię testowania hipotez.Jeśli pytanie, na które mamy odpowiedzieć, brzmi: „Ile mniej więcej wyno-

si θ?”, to mówimy o problemie estymacji (oszacowania). Jeżeli zaś zostało jużwysunięte pewne przypuszczenie (hipoteza) na temat wartości θ i mamy albopotwierdzić słuszność tego przypuszczenia, albo je obalić, to mamy do czynieniaz problemem testowania hipotez.Zacznijmy od podania przykładu, którym będziemy posługiwać się w tym

i w następnym rozdziale, i na którym na razie zaprezentujemy różnicę pomiędzyzagadnieniem estymacji i zagadnieniem testowania hipotez. Przykład ten jestwzięty z [1, s. 224–225].

Przykład 1. Pewien producent mleka, zamierzający wejść na rynek, aby spełnićwymogi co do jakości produktu, zleca niezależne badanie procentowej zawarto-ści tłuszczu w mleku (jest to cecha X). Tak naprawdę, w badaniu interesujego średnia wartość tej procentowej zawartości (jest to parametr θ). Załóżmy, żena podstawie wyników badania np. 10 kartonów z mlekiem, otrzymane zostałynastępujące wartości tego parametru:

3,26; 3,12; 3,24; 3,16; 3,08; 3,14; 3,23; 3,11; 3,09; 3,24.

Mamy odpowiedzieć na pytanie, ile mniej więcej wynosi θ, czyli mamy na podsta-wie otrzymanych wartości oszacować parametr θ. Jest to zagadnienie estymacji.A teraz sformułujmy treść zagadnienia w tym przykładzie w trochę inny spo-

sób. Przypuśćmy, że organizacja ochrony konsumentów podejrzewa, że mleko po-chodzące od pewnego już obecnego na rynku producenta ma niższą zawartośćtłuszczu niż deklarowana wartość 3,2% (czyli sformułowane już zostało przypusz-czenie na temat wartości nieznanego parametru θ). Czy na podstawie powyższychwyników badania 10 kartonów z mlekiem możemy twierdzić, że podejrzenie to jestsłuszne? Jest to zagadnienie testowania hipotez.

W tym rozdziale zaprezentujemy pewne zasady estymacji nieznanych para-metrów rozkładów zmiennych (w następnym – testowania hipotez o nieznanychparametrach rozkładów). Ponieważ znacznie więcej czasu poświęcimy zagadnie-niu estymacji średniej wartości cechy, dalej parametr θ będzie oznaczać średniąwartość interesującej nas cechy.

Page 39: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

37

Najpierw dokonajmy tzw. formalizacji probabilistyczno-statystycznej zagad-nienia estymacji. Mianowicie, wartości xi traktujemy (przed doświadczeniem)jako niezależne zmienne losowe o tym samym rozkładzie (równym rozkładowi ce-chy X), którego wartość oczekiwana θ (czyli średnia wartość cechy X) nie jestznana; mamy oszacować θ.Istnieją dwa podstawowe sposoby estymacji parametru θ:1. estymacja punktowa (w tym przypadku wynik estymacji brzmi: θ wynosimniej więcej, powiedzmy, θ0);

2. estymacja przedziałowa (w tej sytuacji wynik estymacji brzmi: θ leży w prze-dziale, powiedzmy, [θ−, θ+] z określoną dozą pewności).Pierwszy sposób zostanie rozważony w podrozdziale 5.1, drugi zaś w podroz-

dziale 5.2.

5.1. Estymacja punktowa

Zacznijmy od pierwszego sposobu estymacji; będzie to zarazem sposób trochęprostszy. Potrzebne nam będzie dalej pewne ważne pojęcie.Definicja 1. Statystyką nazywamy każdą funkcję mierzalną (zmienną losową)T (x1, . . . , xn), która jest określona na zbiorze wszystkich możliwych wartości prób-ki i przyjmuje wartości w R. Postać statystyki nie może zależeć od nieznanychparametrów rozkładu.Innymi słowy, statystyka to funkcja, wartość której można obliczyć na podsta-

wie próbki. Kilka bardzo prostych przykładów: (x1+ · · ·+xn)/n,∑ni=1(xi− x)2/n

są statystykami, natomiast (x1+ · · ·+xn)/θ,∑ni=1(xi−θ)2/n nie są statystykami.

Estymacja punktowa dokonuje się za pomocą estymatora punktowego.Definicja 2. Estymatorem punktowym parametru θ nazywamy dowolną statystykęT (x1, . . . , xn) o wartościach w zbiorze Θ, która naszym zdaniem dobrze przybliżawartość θ.Zauważmy, że definicja estymatora jest dość enigmatyczna, bowiem dopuszcza

prawie każdą „porządną” funkcję do bycia estymatorem. Możliwych estymatorówparametru θ mamy zatem bardzo dużo i musimy jakoś zmniejszyć ich liczbę,stawiając estymatorom pewne wymogi, czyli żądając od estymatorów spełnieniapewnych własności.Pierwszą taką własnością będzie nieobciążoność estymatora.

Definicja 3. Estymator T (x1, . . . , xn) parametru θ nazywamy nieobciążonym,jeśli

ET (x1, . . . , xn) = θ ∀θ,czyli średnia wartość estymatora jest równa szacowanemu parametrowi.Nieobciążoność estymatora oznacza brak błędu systematycznego w jedną bądź

w drugą stronę przy wielokrotnym korzystaniu z danego estymatora, czyli średnioestymator szacuje parametr θ bez błędu.

Page 40: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

38

Rozważmy statystykę x = (x1+ · · ·+xn)/n jako estymator nieznanej wartościoczekiwanej θ. Czy jest to estymator nieobciążony? Na mocy własności wartościoczekiwanej (patrz dodatek A1) mamy:

Ex = Ex1 + · · ·+ xn

n=Ex1 + · · ·+ Exn

n=nθ

n= θ,

tak więc odpowiedź na postawione pytanie jest twierdząca. Przy okazji, policzmyjeszcze wariancję tego estymatora (korzystając z własności wariancji):

Varx = Varx1 + · · ·+ xn

n=1n2

(Varx1 + · · ·+Varxn

)=nVarx1n2

=σ2

n,

gdzie przez σ2 została oznaczona wariancja cechy X, czyli σ2 = VarX. Wynik,który otrzymaliśmy, jest dość naturalny, przecież dobrze wiadomo, iż uśrednianieprowadzi do redukcji zmienności (przy uśrednianiu zbyt duże i zbyt małe wartościzmiennej redukują się nawzajem).Załóżmy teraz, że chcielibyśmy oszacować właśnie nieznaną wariancję σ2.Weź-

my jako estymator wariancję z próbki s2 = 1n−1

∑ni=1(xi − x)2 i sprawdźmy, czy

jest to estymator nieobciążony parametru σ2. Zauważmy, że

n∑

i=1

(xi − x)2 =n∑

i=1

(x2i − 2xxi + x2) =n∑

i=1

x2i − nx2. (1)

Zatem, korzystając z niezależności zmiennych losowych xi oraz wzoru Ex21 =θ2 + σ2, otrzymujemy:

Es2 =1n− 1E

n∑

i=1

(xi − x)2 =1n− 1

n∑

i=1

Ex2i −n

n− 1E(1n

n∑

i=1

xi

)2=

=1n− 1

n∑

i=1

Ex2i −1

n(n− 1)E

n∑

i=1

x2i + 2∑

i<j

xixj

=

=

(1n− 1 −

1n(n− 1)

)nEx21 −

2n(n− 1)

i<j

Exi ·Exj =

=(n

n− 1 −1n− 1

)(θ2 + σ2)− 2n(n− 1)θ

2

2n(n− 1) = σ2,

czyli estymator s2 jest estymatorem nieobciążonym parametru σ2. Zauważmy, żeczasami jako estymator parametru σ2 rozważają inna wersję wariancji z próbki,mianowicie s2 = 1

n

∑ni=1(xi− x)2; ten estymator, oczywiście, już będzie obciążony,

ponieważ

Es2 = En− 1ns2 =

n− 1nσ2.

Page 41: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

39

Zauważmy, że mimo tego, iż Es2 6= σ2, zachodzi Es2 → σ2, gdy n→∞.W takimprzypadku mówimy, że s2 jest asymptotycznie nieobciążony estymator parametruσ2.Drugą pożądaną i naturalną własnością estymatora jest zgodność.

Definicja 4. Estymator T (x1, . . . , xn) parametru θ nazywamy zgodnym, jeśli przyn→∞

T (x1, . . . , xn) → θ ∀θw pewnym sensie probabilistycznym (dokładniej, zbiega według prawdopodobień-stwa – patrz dodatek A1), czyli im większy jest rozmiar próbki, tym lepiej esty-mator szacuje parametr.Czy estymator x jest zgodny dla θ? Tak, bowiem na mocy prawa wielkich liczb

(patrz dodatek A1)

x =x1 + . . .+ xn

n→ Ex1 = θ, gdy n→∞

(według prawdopodobieństwa). Podobnie, s2 jest zgodnym estymatorem σ2, bo-wiem na mocy (1) i prawa wielkich liczb

s2 =(x1 − x)2 + . . .+ (xn − x)2

n− 1 =n

n− 1 ·x21 + . . .+ x

2n

n− n

n− 1(x1 + . . .+ xn

n

)2

→ Ex21 − (Ex1)2 = Varx1 = σ2, gdy n→∞(według prawdopodobieństwa). Analogicznie, s2 jest zgodnym estymatorem σ2.I tak, wracając do przykładu 1 z producentem mleka, na podstawie poda-

nej próbki można obliczyć estymatory dla parametrów θ i σ2 (zaokrąglając doczterech miejsc po przecinku): x = 3,1667, s2 = 0,0048, s2 = 0,0043.Uwaga 1. Podaliśmy wyżej, jaki estymator warto rozważyć przy szacowaniu σ2

(s2 bądź s2). Zauważmy, że wzory na s2 i s2 nie zależą ani od θ, ani od σ2,czyli s2 i s2 są statystykami niezależnymi od tego, czy średnia θ jest znana czyteż nieznana. Ale jeśli średnia θ jest znana, to można zaproponować jeszcze innyestymator σ2, mianowicie s2 = 1

n

∑ni=1(xi−θ)2 (przy znanym θ jest to statystyka).

Jest to nieobciążony i zgodny estymator σ2, bowiem

Es2 =1n

n∑

i=1

E(xi − θ)2 =1n

n∑

i=1

Varxi = Varx1 = σ2,

s2 =(x1 − θ)2 + . . .+ (xn − θ)2

n→ E(x1 − θ)2 = Varx1 = σ2, gdy n→∞

(według prawdopodobieństwa).Rozważmy jeszcze jeden przykład szacowania parametru, do którego często

dochodzi przy analizie statystycznej.

Page 42: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

40

Przykład 2. Niech naszym celem będzie oszacowanie nieznanej proporcji p posia-dania przez jednostki statystyczne pewnej własności. Posiadanie przez jednostkęstatystyczną tej własności można zakodować jako 1, nieposiadanie jako 0 (przy-kłady takich własności: próchnica zębów w populacji wszystkich uczniów szkółpodstawowych, poparcie wejścia do strefy euro w populacji wszystkich uprawnio-nych do głosowania itd.). Czyli mamy do czynienia z pewną cechą X, wartościktórej są kodami 0 bądź 1. W takiej sytuacji (x1, . . . , xn) jest próbką z rozkła-du zero-jedynkowego o nieznanym prawdopodobieństwie p. Dla takiego rozkładuP (X = 1) = p, P (X = 0) = 1 − p. Wówczas, jak nietrudno policzyć z definicjiwartości oczekiwanej dla rozkładu dyskretnego (patrz dodatek A1), zachodzi:EX = 1 · p+ 0 · (1− p) = p. Zatem zagadnienie szacowania parametru p sprowa-dza się do zagadnienia szacowania nieznanej wartości oczekiwanej, z którym jużwiemy, jak sobie radzić. Dobrym estymatorem p będzie więc proporcja jednostekw próbie posiadających tę własność, czyli p = (x1 + · · ·+ xn)/n.

5.2. Estymacja przedziałowa

Przejdźmy teraz do drugiego sposobu estymacji nieznanego parametru rozkładuzmiennej – estymacji przedziałowej. Na samym początku ustalmy pewną liczbęα ∈ (0, 1) (standardowo α = 0,05). Liczba 1− α jest nazywana poziomem ufno-ści i będzie charakteryzować dozę pewności, z której chcielibyśmy, by estymatorprzedziałowy zawierał nieznany parametr θ.

Definicja 5. Estymatorem przedziałowym (przedziałem ufności) parametru θ napoziomie ufności 1−α nazywamy przedział [θ−, θ+], którego końce są statystykami(czyli θ− = θ−(x1, . . . , xn), θ+ = θ+(x1, . . . , xn)), taki, że

P (θ ∈ [θ−, θ+]) > 1− α ∀θ. (2)

Uwaga 2. Tak naprawdę, zawsze staramy się skonstruować przedział ufności, dlaktórego prawdopodobieństwo w (2) jest równe 1 − α, ponieważ spośród wszyst-kich przedziałów ufności spełniających (2), warto wybrać ten, dla którego praw-dopodobieństwo jest mniejsze (czyli dokładnie równe 1− α), bo im mniejsze jestto prawdopodobieństwo, tym, na ogół, krótszy jest przedział [θ−, θ+], a krótszyprzedział, przy takim samym poziomie ufności, oznacza bardziej precyzyjne osza-cowanie.

Rozważmy tylko przypadek szacowania nieznanej średniej wartości θ cechy X.Prześledzimy konstrukcję przedziałów ufności dla trzech typowych sytuacji:

1. cecha X ma rozkład normalny, wariancja σ2 jest znana;

2. cecha X ma rozkład normalny, wariancja σ2 nie jest znana;

3. cecha X ma rozkład dowolny, ale n jest duże.

Page 43: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

41

Konstrukcje te są bardzo podobne do siebie. Bardziej szczegółowo rozważymypierwszą sytuację; w pozostałych zaś podkreślimy, jakie są zmiany w porównaniuz przypadkiem pierwszym.1. W tym przypadku xi to niezależne zmienne losowe o rozkładzie nor-

malnym N (θ, σ2), zatem statystyka x ma rozkład N (θ, σ2/n). Wynik ten jestkonsekwencją tego, że jak wyznaczyliśmy na s. 38, średnia i wariancja statystykix wynoszą odpowiednio θ i σ2/n, oraz znanej własności rozkładu normalnego, żekażda funkcja liniowa niezależnych zmiennych losowych o rozkładzie normalnymteż ma rozkład normalny (patrz dodatek A2). Dalej (standaryzacja!) zauważmy,że√n(x−θ)/σ ma rozkładN (0, 1) (normalność rozkładu ponownie wynika z tego,

że mamy do czynienia z przekształceniem liniowym).Weźmy teraz taką liczbę z1−α/2, żeby

P(−z1−α/2 6

√nx− θσ

6 z1−α/2

)= 1− α. (3)

Liczba z1−α/2 nosi nazwę kwantyla rzędu 1 − α/2 rozkładu normalnego N (0, 1),czyli jest to taka liczba, że pole pod krzywą (gęstością) odpowiadającą rozkładowiN (0, 1), na lewo od tej liczby, wynosi 1− α/2 (patrz też dodatek A1).

Rysunek 27. Gęstość rozkładu N (0, 1) oraz kwantyle ±z = ±z1−α/2.Na rysunku 27 przedstawiono gęstość rozkładu N (0, 1) oraz liczby z = z1−α/2,

−z = −z1−α/2; zaznaczono też, ile wynoszą pola trzech obszarów pod krzywą(całe pole pod krzywą zawsze wynosi 1). Ponieważ krzywa ta jest symetrycznawzględem prostej x = 0 (funkcja jest parzysta), to −z1−α/2 = zα/2, czyli pole podkrzywą, na lewo od tej liczby, wynosi α/2.Uwaga 3. Tak naprawdę, na tym etapie konstrukcji estymatora przedziałowegopotrzebowaliśmy wybrać przedział [a, b], dla którego zachodzi

P(a 6√nx− θσ

6 b)= 1− α, (4)

Page 44: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

42

czyli do którego, z prawdopodobieństwem 1− α, wpadają wartości zmiennej lo-sowej o rozkładzie normalnym N (0, 1). Przedział [−z1−α/2, z1−α/2], który wybra-liśmy i który charakteryzuje się symetrycznością względem 0, jest tylko jednymz możliwych. Oczywiście, że taki przedział nie wyznacza się w sposób jednoznacz-ny! Poruszając liczbami −z1−α/2, z1−α/2 (przesuwając obie w lewo bądź w prawo),możemy znaleźć inne przedziały spełniające własność (4). Jak zobaczymy dalej,przedział, który wybieramy na tym etapie konstrukcji, będzie decydować o jakościestymatora przedziałowego dla θ; jakość przedziału ufności naturalnie jest okre-ślić poprzez jego długość. Czyli im krótszy przedział teraz wybierzemy, tym krót-szy będzie estymator przedziałowy [θ−, θ+]. Nie poruszamy tutaj kwestii wyborunajkrótszego przedziału [a, b] spełniającego (4), a zaznaczmy, że w przypadku sy-metrycznej gęstości rozkładu najkrótszy będzie przedział symetryczny względem0, czyli właśnie wybrany przez nas przedział [−z1−α/2, z1−α/2].Biorąc teraz podwójną nierówność pod prawdopodobieństwem w równości (3),

będziemy ją przekształcać w sposób równoważny, dopóki w środku podwójnejnierówności nie zostanie samo θ; przy przekształceniach równoważnych wartośćprawdopodobieństwa 1− α nie zmienia się:

−z1−α/2 6√nx− θσ

6 z1−α/2 ⇐⇒ −z1−α/2σ√n6 x− θ 6 z1−α/2

σ√n

⇐⇒ −x− z1−α/2σ√n6 −θ 6 −x+ z1−α/2

σ√n

⇐⇒ x− z1−α/2σ√n6 θ 6 x+ z1−α/2

σ√n.

Ostatecznie, estymator przedziałowy dla nieznanego parametru θ ma postać:

[θ−, θ+] =

[x− z1−α/2

σ√n, x+ z1−α/2

σ√n

]. (5)

Zauważmy, że długość uzyskanego przedziału losowego (5) nie jest losowa i wy-nosi 2z1−α/2σ/

√n. Jak już zaznaczaliśmy w Uwadze 3, jakość estymatora prze-

działowego określamy długością tego przedziału: im krótszy jest przedział, tymlepszy jest estymator. Patrząc na długość uzyskanego przedziału ufności widzimy,że zależy ona od σ (na co nie mamy wpływu) oraz od α i od n. Im mniejsze jestα, tym większą jest liczba 1 − α (co jest równoważne z większą dozą pewności,że estymator przedziałowy zawiera nieznany parametr), i dalej, tym większą jestliczba z1−α/2, co oznacza większą długość przedziału (5) i tym samym niższą jegojakość. Czyli w celu powiększenia jakości przedziału (5) mielibyśmy zmniejszyć1−α, a tego nie bardzo chcemy robić, bo to zmniejsza naszą pewność, że przedziałzawiera nieznany parametr θ. Zatem wartość standardowa 1 − α = 0,95 wzięłasię z tego kompromisu pomiędzy większą pewnością, którą chcemy mieć, a długo-ścią przedziału, którą chcemy mieć mniejszą. Oczywiście, długość przedziału (5)

Page 45: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

43

zależy też, jak wspominaliśmy, od rozmiaru próbki n i tutaj już nie ma żadnych„pułapek”: większa wartość n oznacza mniejszą długość przedziału (5) i lepszyestymator, co jest całkiem naturalne, bowiem im więcej mamy informacji, tymlepiej potrafimy szacować.Warto też zwrócić uwagę Czytelnika, że przedział (5) jest losowy, dopóki nie

są znane nam wyniki próbki. Przy znanych już wartościach xi jest to zwykłyprzedział na prostej i albo zawiera on wartość θ, albo nie zawiera. Jak zatemmamy rozumieć równość P (θ ∈ [θ−, θ+]) = 1− α? Odpowiedź na to pytanie dajerysunek 28, gdzie odwołujemy się do częstościowej interpretacji prawdopodobień-stwa. Gdybyśmy mogli powtórzyć nasze badanie m razy, czyli gdybyśmy mieli mpróbek rozmiaru n, i skonstruowalibyśmy m przedziałów ufności postaci (5), tooczekujemy, iż ok. (1− α) ·m przedziałów będzie zawierać nieznany parametr θ,a pozostałe nie. Rysunek 28 odpowiada sytuacji, w której 1−α = 0,9, a m = 10;więc oczekujemy, iż 0,9·10 = 9 przedziałów będzie zawierało θ, a 1 nie (co widzimyna rysunku).

1

2

3

4

5

6

7

8

9

10

θp

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

Rysunek 28. Przedziały ufności dla θ, gdy 1− α = 0,9, m = 10.Wróćmy jeszcze na chwilę do przykładu 1 z producentem mleka i policzmy

estymator przedziałowy dla średniej procentowej zawartości tłuszczu w mlekuθ na podstawie podanej próby przy założeniu, że cecha ma rozkład normalnyi σ = 0,05. Przy 1− α = 0,95 otrzymujemy: z0,975 = 1,960 oraz

[θ−, θ+] =

[3,1667− 1,9600,05√

10; 3,1667 + 1,960

0,05√10

]= [3,1357; 3,1977].

2. W tym przypadku całe rozumowanie zamieszczone w punkcie 1. pozostajepoprawne, lecz nie możemy w pełni z niego skorzystać, bo postać estymatora prze-

Page 46: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

44

działowego (patrz (5)) nie może zależeć od nieznanego parametru σ. Aby pozbyćsię zależności od σ, musimy zamiast zmiennej losowej

√n(x − θ)/σ o rozkładzie

N (0, 1) wziąć jakąś inną zmienną losową. Rozwiązaniem jest wybór zmiennej lo-sowej postaci

√n(x− θ)/s, który uzyskujemy, zamieniając nieznany parametr σ

na jego estymator punktowy s (skoro s2, jak wiemy, jest estymatorem σ2, to sbędzie estymatorem σ). Wówczas, oczywiście, zmienna losowa

√n(x − θ)/s już

posiada inny rozkład. Rozkład tej zmiennej losowej zbadał i opisał szkocki mate-matyk W. S. Gosset (pseudonim Student) w roku 1908. Ten rozkład jest nazywa-ny rozkładem Studenta (lub t-rozkładem) (patrz dodatek A2) i też jest opisanyi stablicowany, jak rozkład normalny, we wszystkich podręcznikach do statystykimatematycznej. Rozkład ten zależy od jednego parametru, którym jest pewnaliczba naturalna nazywana stopniami swobody.Tak więc rozkład zmiennej losowej

√n(x−θ)/s jest rozkładem Studenta o n−1

stopniach swobody. Jak się okazuje, gęstość rozkładu Studenta też jest symetrycz-na względem prostej x = 0, zatem zamiast przedziału [−z1−α/2, z1−α/2] spełniają-cego (3), bierzemy przedział [−t1−α/2,n−1, t1−α/2,n−1] spełniający

P(−t1−α/2,n−1 6

√nx− θs

6 t1−α/2,n−1

)= 1− α.

Tutaj liczba t1−α/2,n−1 jest kwantylem rzędu 1− α/2 rozkładu Studenta o n − 1stopniach swobody, czyli pole pod wykresem gęstości tego rozkładu, na lewo odtej liczby, wynosi 1− α/2 (patrz rysunek 29).

Rysunek 29. Gęstość rozkładu Studenta oraz kwantyle ±t = ±t1−α/2,n−1.

Powtarzając z tymi zmianami rozumowanie z punktu 1. dochodzimy do esty-matora przedziałowego dla nieznanego parametru θ postaci:

[θ−, θ+] =

[x− t1−α/2,n−1

s√n, x+ t1−α/2,n−1

s√n

]. (6)

Page 47: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

45

Ponownie biorąc dane z przykładu 1 i rezygnując z wiedzy na temat σ, przypozostawieniu założenia o normalności cechy otrzymujemy dla 1 − α = 0,95 :t0,975,9 = 2,2622 oraz

[θ−, θ+] =

[3,1667− 2,2622

√0,0048√10; 3,1667 + 2,2622

√0,0048√10

]= [3,1171; 3,2163].

Zwróćmy uwagę, że w tym przypadku przedział ufności wyszedł u nas dłuższy,niż wcześniej, gdy mieliśmy założenie, że σ = 0,05. Czy jest to przypadek? Otóżnie, należało oczekiwać większego przedziału ufności, bowiem teraz mamy mniejinformacji na temat θ (nie znamy wariancji).Długość przedziału ufności (6) jest już wielkością losową (w odróżnieniu od

przedziału ufności (5)) i wynosi 2t1−α/2,n−1s/√n. Dlatego charakteryzując ja-

kość tego estymatora przedziałowego, lepiej posługiwać się średnią długością tegoprzedziału, czyli wielkością 2t1−α/2,n−1Es/

√n.Wszystko, co było powiedziane na

temat przedziału ufności na koniec punktu 1., w szczególności wątek zależnościod α oraz od n, można też powtórzyć i w tym miejscu.3. W tym przypadku, powtarzając rozumowanie z punktu 2., ponownie ko-

rzystamy ze zmiennej losowej postaci√n(x − θ)/s, tylko teraz, bez założenia

o normalności rozkładu cechy X, jej rozkład już nie jest rozkładem Studenta.Aby uprościć rozumowanie, skorzystamy z założenia, że n jest liczbą dużą. W tejsytuacji potrafimy otrzymać estymator przybliżony, korzystając z twierdzeń gra-nicznych zamieszczonych w dodatku A1.Przy pomocy centralnego twierdzenia granicznego można pokazać, że rozkład

zmiennej losowej√n(x − θ)/s, gdy n → ∞, zbiega (według rozkładu) do zmien-

nej losowej o rozkładzie normalnym N (0, 1). Zatem przy dużych wartościach nmożna zakładać, w przybliżeniu, że rozkład zmiennej losowej

√n(x − θ)/s jest

rozkładem N (0, 1). Co za tym idzie, powtarzamy całe rozumowanie z punktu1. i dochodzimy do estymatora przedziałowego (przybliżonego!) dla nieznanegoparametru θ postaci

[θ−, θ+] =

[x− z1−α/2

s√n, x+ z1−α/2

s√n

](7)

o średniej długości 2z1−α/2Es/√n.

Jak duża musi być liczba n, by skutecznie korzystać z powyższego przybliże-nia? Otóż uważa się, że w przypadku rozkładów cech niezbyt dalekich od syme-trycznych, wystarczy mieć n > 30; w najgorszym przypadku ma być n > 100.Oczywiście, dla danych z przykładu 1 nie możemy, w przypadku braku za-

łożenia o normalności cechy, korzystać z przedziału ufności (7) z powodu zbytmałego rozmiaru próbki.Przykład 2 cd. Jak już zaznaczaliśmy, w tej sytuacji mamy do czynienia z cechąX, która ma rozkład zero-jedynkowy. Jest to rozkład bardzo daleki od symetrycz-nego i dlatego musimy zakładać, że n > 100. Jak nietrudno policzyć, dla rozkładu

Page 48: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

46

zero-jedynkowego zachodzi EX = p, VarX = p(1−p). Zatem, biorąc w tym przy-padku zamiast s2 estymator wariancji postaci p(1− p) i korzystając z twierdzeniade Moivre’a-Laplace’a (szczególny przypadek centralnego twierdzenia graniczne-go – patrz dodatek A1), można uzyskać następujący estymator przedziałowy dlanieznanego parametru p (porównaj z (7)):

[p−, p+] =

p− z1−α/2

√p(1− p)n, p+ z1−α/2

√p(1− p)n

.

Page 49: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

47

6. Testowanie hipotez statystycznych

W tym rozdziale rozważymy przykłady zagadnień testowania hipotez statystycz-nych. Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wy-powiedź na temat rozkładu interesującej nas cechy (lub cech). Będziemy tutajrozważać hipotezy parametryczne (podrozdział 6.1), jak też przykłady hipoteznieparametrycznych (podrozdział 6.2).

6.1. Hipotezy parametryczne

Hipotezami parametrycznymi nazywamy hipotezy na temat nieznanego parame-tru θ cechy X. Parametrem θ, jak w poprzednim rozdziale, będzie średnią wartośćcechy X.Nieściśle mówiąc, testem statystycznym nazywamy sposób postępowania, któ-

ry prowadzi do podjęcia decyzji. Jak zobaczymy niżej, konstrukcja testów staty-stycznych dla hipotez parametrycznych bardzo przypomina konstrukcję przedzia-łów ufności z poprzedniego rozdziału. Ale najpierw zapoznajmy się z pewnymizasadami testowania hipotez przyjętymi w klasycznej statystyce matematycznej.Zasady te, na ogół, były sformułowane przez wybitnych statystyków J. Neymanaoraz E. Pearsona.Podejście Neymana i Pearsona zakłada, że będziemy wybierać spośród dwóch

wzajemnie wykluczających się hipotez: albo odrzucamy pierwszą hipotezę i przyj-mujemy drugą, albo na odwrót. Jeśli w zagadnieniu jest podana tylko jedna hipo-teza, to drugą należy sformułować. Tak, np. w przykładzie 1 z poprzedniego roz-działu (przykład z producentem mleka) jako przykład hipotezy zostało podane:„średnia zawartość tłuszczu w mleku jest niższa niż 3,2%” (hipoteza o oszustwieproducenta). Zatem jako hipotezę drugą naturalnie jest wziąć: „średnia zawar-tość tłuszczu w mleku wynosi 3,2%” (hipoteza o uczciwości producenta), bądź„średnia zawartość tłuszczu w mleku jest nie mniejsza od 3,2%” albo „średniazawartość tłuszczu w mleku jest większa od 3,2%”; choć akurat te dwie ostatniewersje drugiej hipotezy są mało realistyczne.Jak wiemy, dobrym estymatorem dla nieznanej średniej wartości cechy jest

średnia z próbki. Jak pamiętamy z poprzedniego rozdziału, w przykładzie z pro-ducentem mleka wynosi ona x = 3,1667%. Jest jasne, że taka wartość średniej niepozwala jednak ani przyjąć, że zawartość tłuszczu w mleku przeciętnie wynosi3,2%, ani powiedzieć, że jest ona mniejsza niż 3,2%. Dlaczego? Przede wszystkimdlatego, że wartość x = 3,1667% jest losowa i została obliczona na podstawie prze-prowadzonych badań 10 kartonów z mlekiem. Przy powtórzeniu lub uzupełnieniutych badań wyliczona wartość x na pewno zmieni się. Oprócz tego, gdyby oka-zało się np., że x = 2,8%, to bylibyśmy bardziej pewni, że hipotezę o uczciwościproducenta należy odrzucić. Ale ponieważ zaobserwowana wartość x = 3,1667%nie różni się aż tak bardzo od 3,2%, to decyzja o odrzuceniu bądź nieodrzuceniu

Page 50: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

48

hipotezy o uczciwości producenta już nie jest tak oczywista.Rozsądnym wydaje się zatem następujące postępowanie. Przypuśćmy, że hipo-

teza o uczciwości producenta jest prawdziwa, tzn. że przeciętna zawartość tłusz-czu w mleku wynosi 3,2%. Jeśli prawdopodobieństwo zaobserwowania przy tymzałożeniu wartości x = 3,1667% jest bardzo małe, powiedzmy nie większe niżα = 0,05, to nasze przypuszczenie odrzucimy, bo zdarzyło się coś, co powin-no zdarzać się niezmiernie rzadko. Dalej liczbę α będziemy nazywać poziomemistotności testu.Załóżmy więc, że sformułowaliśmy dwie wzajemnie wykluczające się hipotezy

i określiliśmy poziom istotności testu α ∈ (0, 1) (standardowo α = 0,05). Jed-ną z hipotez nazywamy zerową i oznaczamy H0, drugą nazywamy alternatywnąi oznaczamy H1. Jak już wiemy z poprzednich rozdziałów, nawet przy poprawnymwnioskowaniu statystycznym możemy popełniać błędy, ponieważ mamy do czy-nienia z wynikami próbki, a wnioski wyciągamy dla całej populacji. Zatem i przytestowaniu hipotez możemy popełniać błędy. Spójrzmy na następującą tabelę:

stan rzeczy/decyzja przyjąć H0 przyjąć H1H0 prawdziwa OK błąd I rodzajuH1 prawdziwa błąd II rodzaju OK

W tabelce tej zostały ujęte wszystkie sytuacje, które mogą się zdarzyć: w rze-czywistości tylko jedna z dwóch hipotez jest prawdziwa, a na końcu naszego rozu-mowania my też orzekamy na rzecz jednej z dwóch hipotez; czyli mogą zdarzyć sięcztery przypadki. W dwóch przypadkach nasze decyzje są prawidłowe (w tabelceoznaczone symbolem OK), a w dwóch innych są błędne. Te dwa możliwe błędy sąnazywane błędem I rodzaju (prawdziwa jest H0, a my ją odrzucamy) oraz błędemII rodzaju (prawdziwa jest H1, a my decydujemy na rzecz H0).Kilka słów na temat, którą z dwóch sformułowanych hipotez wyznaczyć naH0,

a którą na H1. Okazuje się, że nie jest to wszystko jedno. Rzecz w tym, że błędyI i II rodzaju mają często różną wagę. Wróćmy na chwilę do przykładu z pro-ducentem mleka i niech H0 – producent jest uczciwy, H1 – producent oszukuje.Przy takim oznaczeniu hipotez błąd I rodzaju polega na tym, że producent jestuczciwy, a my orzekamy, że oszukuje, natomiast błąd II rodzaju polega na tym, żeproducent oszukuje, a my orzekamy, że jest uczciwy. Zgodnie z przyjętymi ogólniew społeczeństwie zasadami, cięższym (gorszym) tutaj wydaje się błąd I rodzaju.Zauważmy, że gdybyśmy inaczej oznaczyli hipotezy (H0 i H1 zamienili miejsca-mi), to bardziej ciężki wyszedłby błąd II rodzaju. Reasumując, jeśli potrafimyokreślić, który z dwóch błędów jest gorszy, to oznaczamy hipotezy tak, by gorszywyszedł błąd I rodzaju. Czyli oznaczenie hipotez w przykładzie z producentemmleka, zrobione na początku tego akapitu, jest właściwe.Jeśli nie potrafimy określić, który z dwóch błędów jest gorszy, to innym sposo-

bem na właściwe oznaczenie hipotez jest wybór hipotezy H0 jako hipotezy prostej.

Page 51: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

49

Prostą nazywamy taką hipotezę parametryczną, której odpowiada określona war-tość parametru; zaś hipotezę, której odpowiada więcej niż jedna wartość parame-tru, nazywamy hipotezą złożoną. I tak, hipoteza θ = 3,2% jest prosta, natomiasthipoteza θ < 3,2% jest złożona. Najczęściej mamy do czynienia z przypadkiem,w którym jedna z dwóch sformułowanych hipotez jest prosta, a druga złożona.Zatem nasz wybór w przykładzie z producentem mleka to H0 : θ = 3,2% orazH1 : θ < 3,2%.Wracając do możliwych błędów I i II rodzaju, oczywiście, chcielibyśmy oba

te błędy popełniać jak najrzadziej. Niestety, nie da się tego zrobić jednocześnie.Wobec tego postępujemy tak, że przede wszystkim staramy się kontrolować praw-dopodobieństwo popełnienia błędu I rodzaju (bo ma on gorsze skutki). Poziomistotności testu α to w naszym postępowaniu jest liczba, która charakteryzu-je maksymalne dopuszczane przez nas prawdopodobieństwo popełnienia błęduI rodzaju. Zatem przyjęcie wartości α = 0,05 oznacza, że powtarzając badanie,powiedzmy, 100 razy, średnio, nie więcej niż w 5 przypadkach, możemy popełnićbłąd I rodzaju. Jeśli chodzi o prawdopodobieństwo popełnienia błędu II rodzaju,to staramy się też go zmniejszyć, o ile jest to możliwe.Następnym krokiem przy testowaniu hipotez, po sformułowaniu i właściwym

oznaczeniu hipotez oraz przyjęciu poziomu istotności testu α, jest wybór pewnejzmiennej losowej, nazywanej statystyką testową, której rozkład, przy założeniuprawdziwości hipotezyH0, jesteśmy w stanie określić, i nie zależy on od nieznanychparametrów. Dalej, zgodnie z tym rozkładem oraz wartością α, określamy tzw.zbiór krytyczny K. Jest to podzbiór R taki, że prawdopodobieństwo wpadnięciado niego statystyki testowej wynosi właśnie α (czyli jest dość małe). Na koniec,po obliczeniu na podstawie próbki wartości statystyki testowej, jeśli wartość tawpada do K, to hipotezę H0 odrzucamy, jeżeli zaś nie wpada do K, to nie mamypodstaw do odrzucenia hipotezy H0.

Uwaga 1. Decyzje brzmią różnie! Decyzja o odrzuceniu H0 jest dość definityw-na, natomiast decyzja o nieodrzuceniu H0 jest bardzo ostrożna i nie mówi, żedefinitywnie należy przyjąć H0. Dlaczego tak jest? Jest to skutkiem logicznejkonstrukcji przyjętej w naszym postępowaniu. Jeśli hipoteza H0 jest prawdziwa(teza A), to statystyka testowa ma określony rozkład, na podstawie którego bu-dujemy obszar krytyczny K tak, by prawdopodobieństwo niewpadnięcia wartościstatystyki testowej do K (teza B) było prawie pewne. Jeśli z tezy A wynika tezaB (A =⇒ B), to zgodnie z zasadami logiki matematycznej jest to równoważnetemu, że zaprzeczenie tezy B pociąga zaprzeczenie tezy A (Bc =⇒ Ac). Tak więcdecyzja: wartość statystyki testowej wpadła do K, więc H0 nie jest prawdziwa,jest właśnie implikacją Bc =⇒ Ac. Natomiast decyzja: wartość statystyki testowejnie wpadła do K, więc H0 jest prawdziwa, jest implikacją B =⇒ A, która niemusi zachodzić, jeśli A =⇒ B. Dlatego, przy niewpadnięciu wartości statystykitestowej do K (zaszła teza B) nie możemy orzekać definitywnie, że pociąga toprawdziwość hipotezy H0 (zajście tezy A), czyli w tej ostatniej sytuacji nasze

Page 52: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

50

orzeczenie jest ostrożne (teza A może zajść).Prześledzimy teraz konstrukcję testów statystycznych dotyczących nieznanej

średniej wartości cechy w trzech typowych sytuacjach, które są dokładnie takiesame, jak przy konstrukcji przedziałów ufności (patrz s. 40):

1. cecha X ma rozkład normalny, wariancja σ2 jest znana;

2. cecha X ma rozkład normalny, wariancja σ2 nie jest znana;

3. cecha X ma rozkład dowolny, ale n jest duże.

Ponownie, bardziej szczegółowo rozważymy pierwszą sytuację, w pozostałychzaś podkreślimy, jakie są zmiany w porównaniu z przypadkiem pierwszym. Wewszystkich trzech przypadkach testujemy następujące hipotezy: H0 : θ = θ0,gdzie θ0 ∈ R jest pewną zadaną liczbą, przeciw H1 : θ 6= θ0 lub θ < θ0 lubθ > θ0. Zwracamy uwagę Czytelnikowi, że hipoteza alternatywna H1 może miećjedną z trzech wskazanych postaci.1. Jeśli H0 jest prawdziwa, to xi są niezależnymi zmiennymi losowymi

o rozkładzie normalnym N (θ0, σ2), zatem statystyka x ma rozkład N (θ0, σ2/n)(wszystkie uzasadnienia tu i dalej są analogiczne do tych, które robiliśmy w pod-rozdziale 5.2 przy konstrukcji przedziałów ufności). Stąd

√n(x−θ0)/σ ma rozkład

N (0, 1). Zatem zmienna losowa √n(x− θ0)/σ będzie statystyką testową w tej sy-tuacji.Określamy teraz zbiór krytyczny K, który jest takim podzbiorem R, że praw-

dopodobieństwo wpadnięcia do niego zmiennej losowej o rozkładzie N (0, 1) wy-nosi α. Typ zbioru krytycznego zależy od postaci hipotezy alternatywnej H1. Podtym względem rozróżniamy trzy typy zbiorów krytycznych:– zbiór krytyczny dwustronny postaci K = (−∞,−z1−α/2) ∪ (z1−α/2,+∞) (gdyH1 : θ 6= θ0);– zbiór krytyczny lewostronny postaci K = (−∞,−z1−α) (gdy H1 : θ < θ0);– zbiór krytyczny prawostronny postaci K = (z1−α,+∞) (gdy H1 : θ > θ0)(indeksy przy liczbach z oznaczają, jak w podrozdziale 5.2, rząd kwantyla).I tak, dla danych z przykładu 1 z poprzedniego rozdziału, niech testowane

będą hipotezy H0 : θ = 3,2% (producent jest uczciwy) przeciw H1 : θ <3,2% (producent oszukuje). Przy założeniu, że cecha ma rozkład normalny i σ =0,05, otrzymujemy: z0,95 = 1,6449 oraz K = (−∞,−1,6449). Wartość statystykitestowej wynosi:

√103,1667− 3,20,05

= −2,1061, czyli wpada ona do K.

Zatem należy odrzucić hipotezę H0 i przyznać, że producent mleka oszukuje.2. Zmiany, które mamy w tym przypadku w porównaniu do poprzedniego, są

analogiczne do zmian w punkcie 2. (w porównaniu z punktem 1.) z podrozdziału5.2. Statystyka testowa ma postać

√n(x − θ0)/s i przy założeniu prawdziwości

Page 53: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

51

hipotezy H0 ma ona rozkład Studenta o n−1 stopniach swobody. Ponownie zbiorykrytyczne są trzech typów:– K = (−∞,−t1−α/2,n−1) ∪ (t1−α/2,n−1,+∞) (gdy H1 : θ 6= θ0);– K = (−∞,−t1−α,n−1) (gdy H1 : θ < θ0);– K = (t1−α,n−1,+∞) (gdy H1 : θ > θ0).Dla danych z przykładu 1 z poprzedniego rozdziału przy testowaniu tych sa-

mych hipotez i założeniu, że cecha ma rozkład normalny (σ nie jest znane), otrzy-mujemy: t0,95,9 = 1,8331 oraz K = (−∞,−1,8331). Wartość statystyki testowejwynosi:

√103,1667− 3,2√0,0048

= −1,520, czyli nie wpada ona do K.

Zatem nie mamy podstaw do odrzucenia hipotezy H0, czyli nie mamy podstawdo orzeczenia, iż producent mleka oszukuje.

3. Zmiany, które mamy w tym przypadku w porównaniu do poprzednich, sąanalogiczne do zmian w punkcie 3. (w porównaniu z punktami 1. i 2.) z podroz-działu 5.2. Statystyka testowa ponownie ma postać

√n(x − θ0)/s. Rozkład tej

statystyki przy dużym rozmiarze próbki n, w przybliżeniu, jest rozkładem nor-malnym N (0, 1). Zatem możliwe zbiory krytyczne mają postać:– K = (−∞,−z1−α/2) ∪ (z1−α/2,+∞) (gdy H1 : θ 6= θ0);– K = (−∞,−z1−α) (gdy H1 : θ < θ0);– K = (z1−α,+∞) (gdy H1 : θ > θ0).Dla przykładu 2 z poprzedniego rozdziału, gdy mamy do czynienia z cechą X

o rozkładzie zero-jedynkowym z nieznanym parametrem p (występowanie pewnejwłasności wśród jednostek statystycznych), statystyka testowa ma postać

√n(p−

p0)/√p0(1− p0) (patrz s. 45) i ma ona, w przybliżeniu (korzystamy z niego, gdy

n > 100), rozkład N (0, 1). Zbiory krytyczne zapisują się tak, jak w punkcie 3.Uwaga 2. Wróćmy do wyników, które otrzymaliśmy dla danych z przykładu1 z poprzedniego rozdziału. Przy założeniu, że rozkład procentowej zawartościtłuszczu w mleku jest normalny oraz σ = 0,05, orzekliśmy, że producent oszuku-je, natomiast rezygnując z założenia o tym, że σ = 0,05, orzeczenie nasze byłozupełnie przeciwne. Ten przykład dobitnie pokazuje, jak istotnie wyniki zależąod poczynionych założeń.

Uwaga 3. Zagadnienie testowania hipotez w dużym stopniu jest podatne na „ma-nipulowanie wynikiem”. Istotnie, wartość statystyki testowej we wszystkich trzechrozważonych typowych sytuacjach zależy m. in. od przyjętego poziomu istotnościtestu α. Zmniejszając wartość α, zmniejszamy w ten sposób zbiór krytyczny. Stądwynika bardzo ważny wniosek: jakie by nie były wyniki próbki, można zawsze do-brać takie α, że wartość statystyki testowej nie wpadnie do zbioru krytycznego

Page 54: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

52

K i tym samym nie będziemy mieli podstaw do odrzucenia hipotezy H0 (np.zmniejszając α do zera, zmniejszamy tym samym do zera prawdopodobieństwopopełnienia błędu I rodzaju, czyli zawsze przyjmujemy H0, ale jednocześnie dra-stycznie, do jedności, rośnie prawdopodobieństwo popełnienia błędu II rodzaju).Dlatego jeszcze raz podkreślimy, że w celu uniknięcia oskarżenia o manipulacjęwynikami, należy zawsze wybierać α przed procedurą testowania i raczej trzymaćsię standardowej wielkości α = 0,05.

Na koniec podrozdziału wspomnijmy jeszcze o pewnym ważnym pojęciu, którejest potrzebne np. przy testowaniu hipotez za pomocą programu statystycznego.Jest to pojęcie p-wartości. Jeżeli oznaczymy statystykę testową przez S, a jej za-obserwowaną na podstawie próbki wartość przez s0, to p-wartość określamy jako:– P (|S| > s0) w przypadku dwustronnego zbioru krytycznego;– P (S < s0) w przypadku lewostronnego zbioru krytycznego;– P (S > s0) w przypadku prawostronnego zbioru krytycznego(rozkład statystyki S jest przecież znany). Decyzje teraz podejmujemy na podsta-wie porównania p-wartości z wartością α.Mianowicie, jeśli p-wartość jest mniejszaod α, to odrzucany hipotezę H0, natomiast jeśli p-wartość jest nie mniejsza odα, to nie mamy podstaw do odrzucenia H0. Nie jest trudno zrozumieć, że ta-kie podejście do podjęcia decyzji jest równoważne podejściu zaproponowanemuwcześniej i polegającemu na konstrukcji zbiorów krytycznych.

6.2. Testy chi-kwadrat

W tym podrozdziale rozważymy kilka przykładów testów nieparametrycznych;oba testy będą związane z tzw. rozkładem chi-kwadrat χ2 (patrz dodatek A2),dlatego mają one właśnie nazwę testów chi-kwadrat.

Test zgodności χ2

Tutaj testujemy hipotezy, czy rozważana cecha ma pewien ustalony rozkład, czyteż jej rozkład różni się od tego ustalonego. Test zgodności χ2 przede wszystkimtestuje takie hipotezy w przypadku, gdy rozkłady cech są dyskretne. Ograniczymysię zatem do rozważania tylko takiej sytuacji.Niech rozważana cecha X może przyjąć tylko skończoną liczbę wartości, po-

wiedzmy, a1, . . . , ak, ale nie wiemy w jakich odpowiednich proporcjach p1, . . . , pk(∑ki=1 pi = 1, pi > 0, i = 1, . . . , k). Jak zwykle, prowadząc badanie i otrzymując

próbkę (x1, . . . , xn), patrzymy na wartości xi (przed doświadczeniem) jako naniezależne zmienne losowe o tym samym rozkładzie, co rozkład cechy X. Rozkładten opisuje się naborem par liczb (ai, pi), i = 1, . . . , k, gdzie pierwsza liczbato możliwa wartość cechy, a druga reprezentuje prawdopodobieństwo (częstość)występowania tej wartości, przy czym pi są nieznane.Niech p0i będzie pewnym zadanym naborem liczb dodatnich. Testujemy hi-

potezę H0 : pi = p0i , i = 1, . . . , k, przeciw hipotezie H1 : pi są inne.

Page 55: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

53

Niech w próbce (x1, . . . , xn) występuje n1 razy wartość a1, n2 razy wartośća2, . . . , nk razy wartość ak, gdzie n1+ . . .+nk = n. Rozważmy statystykę testowąpostaci:

χ2 =k∑

i=1

(ni − np0i )2np0i

= nk∑

i=1

(ni/n− p0i )2p0i

.

Statystyka ta jest nazywana statystyką chi-kwadrat. Jeśli hipoteza H0 jest praw-dziwa, to gdy n jest dostatecznie duże, rozkład tej statystyki, w przybliżeniu, jestrozkładem χ2k−1 (rozkładem chi-kwadrat o k−1 stopniach swobody; liczba stopniswobody jest parametrem rozkładu, tak jak w przypadku rozkładu Studenta).Liczby ni są obserwowanymi wartościami występowania poszczególnych war-

tości ai w próbce, natomiast liczby np0i interpretujemy jako oczekiwane war-tości występowania wartości ai w próbce, gdyby rozkład rzeczywiście był taki,jak określa to hipoteza H0. Tak więc, gdy H0 jest prawdziwa, liczniki składni-ków we wzorze na statystykę testową χ2 są małe i statystyka ta nie przyjmujedużych wartości, natomiast duże wartości statystyki χ2 przemawiają przeciw hi-potezie H0.Zatem zbiór krytyczny ma postać: K = (χ21−α,k−1,∞), gdzie liczba χ21−α,k−1

jest kwantylem rzędu 1− α rozkładu χ2k−1 zgodnie z przyjętym poziomem istot-ności testu α. Krzywa rozkładu χ2k−1 przykładowo dla k = 5 oraz odpowiednikwantyl są przedstawione na rysunku 30.

Rysunek 30. Krzywa rozkładu χ24 oraz kwantyl v = χ21−α,4.

Dla poprawnego stosowania testu niekiedy zaleca się, aby spełnione były nie-równości: np0i > 10, i = 1, . . . , k.Test niezależności χ2

Tutaj testujemy hipotezy dotyczące dwóch cech X i Y , każda z których możeprzyjąć tylko skończoną liczbę wartości. Niech, powiedzmy, X przyjmuje wartości

Page 56: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

54

a1, . . . , ak, a Y wartości b1, . . . , bm. Testujemy hipotezę H0 : cechy X i Y sąniezależne przeciw hipotezie H1 : cechy X i Y są zależne (zależność dwóch cechrozumiemy w tym sensie, że wartości tych cech są ze sobą związane; dokładniejo zależności dwóch cech – w następnym rozdziale).Niech w próbce rozmiaru n postaci (x1, y1), . . . , (xn, yn) para liczb (ai, bj) wy-

stępuję nij razy, i = 1, . . . , k; j = 1, . . . , m (oczywiście,∑mj=1

∑ki=1 nij = n). Sta-

tystyka testowa ma postać:

χ2 =k∑

i=1

m∑

j=1

(nij − n0ij)2n0ij

,

gdzie

n0ij =∑mj=1 nij ·

∑ki=1 nij

n

(liczbę tę interpretujemy jako oczekiwaną wartość występowania pary (xi, yj)w próbie, gdyby cechy X i Y były niezależne). Jeśli hipoteza H0 jest prawdziwa,to gdy liczba n jest dostatecznie duża, rozkład statystyki testowej, w przybliżeniu,jest rozkładem χ2(k−1)(m−1).Zatem zbiór krytyczny ma postać: K = (χ21−α,(k−1)(m−1),+∞), gdzie liczba

χ21−α,(k−1)(m−1) jest kwantylem rzędu 1 − α rozkładu χ2(k−1)(m−1) zgodnie z przy-jętym poziomem istotności testu α.Dla poprawnego stosowania testu niekiedy zaleca się, aby spełnione były nie-

równości: n0ij > 10, i = 1, . . . , k; j = 1, . . . , m.

Page 57: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

55

7. Korelacja liniowa

Nawet gdy naszym celem jest analiza tylko jednej cechy jednostek statystycznychw populacji, z reguły nie ograniczamy badania tylko do obserwacji wartości tejwłaśnie cechy, lecz zbieramy informacje dotyczące też innych cech, które mogąmieć znaczenie w analizie wybranej przez nas cechy. Dlatego prawie zawsze posia-dając dane, mamy do czynienia z co najmniej kilkoma zmiennymi. Cechę, którabardziej interesuje nas w badaniu, będziemy oznaczać przez Y i nazywać zmiennązależną, natomiast wszystkie pozostałe cechy uczestniczące w badaniu oznaczamyprzez X1, . . . , Xm i nazywamy zmiennymi niezależnymi.Często w badaniu interesujemy się też stopniem powiązania cech między sobą.

Pod słowem korelacja rozumiemy współzależność. Mówimy np. o korelacji pewnejpary cech między sobą lub o korelacji między jedną wybraną cechą a zestaweminnych cech.Przede wszystkim zauważmy, ze zależność między cechami może być funk-

cyjna i statystyczna. Związek funkcyjny odznacza się tym, że każdemu naborowiwartości zmiennych niezależnych odpowiada tylko jedna, jednoznacznie określo-na wartość zmiennej zależnej (np. pole kwadratu jest funkcją jego boku). Bardzorzadko jednak mamy do czynienia z danymi, które dokładnie opisują się podobnązależnością. Częściej mamy do czynienia z tzw. zależnością statystyczną. Związekstatystyczny polega na tym, że określonym wartościom zmiennych niezależnychmogą odpowiadać różne wartości zmiennej zależnej (np. waga człowieka nie jestfunkcją jego wzrostu; ludzi o tym samym wzroście mogą mieć zupełnie różnąwagę). Właśnie z zależnością statystyczną będziemy mieć do czynienia dalej.Wśród typów zależności statystycznej wyróżniamy zależność liniową i zależ-

ność krzywoliniową. Czym charakteryzuje się zależność liniowa, objaśnimy naprzykładzie. Od razu też zaznaczmy, że podstawowym wstępnym narzędziem ba-dania zależności pomiędzy dwoma zmiennymi jest wykres rozrzutu. Jeśli cecha Xw trakcie badania przyjęła wartości (x1, . . . , xn), a cecha Y , odpowiednio, war-tości (y1, . . . , yn), to wykresem rozrzutu nazywamy wykres na płaszczyźnie, gdziezaznaczone są wszystkie punkty o współrzędnych (xi, yi), i = 1, . . . , n.Przykład 1. Rozważmy przykładowy plik danych programu IBM SPSS Stati-stics Employee data.sav (badanie na 474 respondentach), który już rozważaliśmyw przykładzie 1 z rozdziału 1 oraz w przykładzie 2 z rozdziału 3. W pliku danychwśród innych zmiennych są zmienne salbegin – początkowe wynagrodzenie (bę-dzie to zmienna X), oraz salary – bieżące wynagrodzenie (zmienna Y ). Wykreswszystkich punktów o współrzędnych (xi, yi), czyli wykres rozrzutu dla tychzmiennych jest przedstawiony na rysunku 31. Można stwierdzić, że widzimy natym wykresie pewną liniową zależność statystyczną, czyli można wyobrazić sobieistnienie pewnej prostej (funkcja liniowa), wokół której skupiają się te punkty.

Page 58: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

56

Rysunek 31. Wykres rozrzutu z widoczną liniową zależnością statystyczną.

Dla odmiany, wybierzmy teraz zmienną prevexp – poprzednie zatrudnienie(w miesiącach) jako zmienną X i jobtime – staż pracy (w miesiącach) jako zmien-ną Y. Wykres rozrzutu dla tych zmiennych pokazany jest na rysunku 32. Stwier-dzamy, że nie potrafimy tutaj wyobrazić sobie prostej, wokół której skupiałybysię punkty (xi, yi). Punkty te tworzą dość bezładną chmurę na płaszczyźnie,bez jakiejkolwiek wyraźnej struktury. W takim przypadku wstępnie wysuwamywniosek o braku (bądź bardzo słabej) statystycznej zależności liniowej pomiędzyzmiennymi.

Rysunek 32. Wykres rozrzutu z brakiem liniowej zależności statystycznej.

O zależności krzywoliniowej mówimy wtedy, gdy na wykresie rozrzutu punktyskupiają się wokół pewnej krzywej (paraboli, hiperboli, itd.).

Page 59: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

57

Skoncentrujmy się dalej na badaniu statystycznej zależności liniowej. Zależ-ność liniową pomiędzy dwoma zmiennymi można scharakteryzować siłą (na wy-kresie rozrzutu punkty mogą być bardziej lub mniej skupione wokół pewnej pro-stej) oraz kierunkiem. Kierunek zależności może być dodatni (wzrost wartościzmiennej X powoduje wzrost wartości zmiennej Y ) lub ujemny (wzrost wartościzmiennej X powoduje spadek wartości zmiennej Y ).Oczywiście, jak już zaznaczaliśmy, wykres rozrzutu jest tylko wstępnym na-

rzędziem badania zależności pomiędzy dwoma zmiennymi. Bardziej wiarygodnąodpowiedź na pytanie o sile i kierunku statystycznej zależności liniowej pomiędzydwoma zmiennymi dają współczynniki korelacji liniowej.

7.1. Współczynniki korelacji liniowej

Istnieje wiele mierników zależności liniowej pomiędzy dwoma zmiennymi. Tutajograniczymy się tylko do rozważania dwóch najczęściej używanych.

Współczynnik korelacji liniowej PearsonaJest najbardziej znanym współczynnikiem mierzącym zależność liniową dwóchzmiennych typu ilościowego. Niech x1, x2, . . . , xn będą obserwowanymi wartościa-mi zmiennej X, a y1, y2, . . . , yn odpowiednimi wartościami zmiennej Y. Współ-czynnikiem korelacji liniowej Pearsona pomiędzy X a Y nazywamy

rxy =∑nj=1(xj − x)(yj − y)√∑n

j=1(xj − x)2∑nj=1(yj − y)2

. (8)

Wymienimy podstawowe własności tego współczynnika:

• rxy = ryx ∈ [−1, 1];

• rxy > 0 – zależność dodatnia; rxy < 0 – zależność ujemna;

• rxy = 0 – brak zależności liniowej; rxy = ±1 – „idealna” zależność liniowa(czyli zmienne są powiązane liniową zależnością funkcyjną);

• im bliższe |rxy| jedności, tym zależność liniowa jest mocniejsza, im bliższe|rxy| zeru, tym zależność liniowa jest słabsza.

W niektórych książkach można spotkać pewną klasyfikacje wartości współ-czynnika korelacji Pearsona. I tak, w [3, s. 205] można znaleźć następującą cha-rakteryzację tych wartości (używamy niżej wartości bezwzględnej; w wymienionejzaś książce klasyfikacja ta została podana bez wartości bezwzględnej, co nie jestpoprawne):– 0 < |rxy| < 0,1 − korelacja nikła;– 0,1 6 |rxy| < 0,3 − korelacja słaba;

Page 60: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

58

– 0,3 6 |rxy| < 0,5 − korelacja przeciętna;– 0,5 6 |rxy| < 0,7 − korelacja wysoka;– 0,7 6 |rxy| < 0,9 − korelacja bardzo wysoka;– 0,9 6 |rxy| < 1 − korelacja prawie pełna.Możemy, do pewnego stopnia, uznać taką klasyfikację za podstawową, ale pa-

miętajmy, że jest to po pierwsze klasyfikacja zbyt ogólna i nie zawsze pasująca dowszystkich możliwych sytuacji, a po drugie – subiektywna, i w innych podręczni-kach można napotkać nieco inne rekomendacje.Wróćmy do danych z przykładu 1 i policzmy wartości rxy dla zmiennych przed-

stawionych na rysunkach 31 i 32. Otrzymujemy rxy = 0,880 (korelacja bardzowysoka według powyższej klasyfikacji) w pierwszym przypadku oraz rxy = 0,003(korelacja nikła) w drugim, co w pełni zgadza się z tym, co zauważyliśmy narysunkach.Uwaga 1.Warto podkreślić, iż współczynnik korelacji Pearsona jest miernikiemzależności liniowej. Zatem wartości współczynnika rxy, wskazujące na brak za-leżności, oznaczają tylko brak zależności liniowej, co zupełnie nie wyklucza, żezmienne mogą być w dużym stopniu zależne, ale zależność ta jest krzywoliniowa.Z drugiej zaś strony, nie można otrzymując względnie wysokie wartości rxy byćod razu przekonanym, że istnieje wysoka zależność liniowa pomiędzy zmienny-mi; czasami wysoka wartość współczynnika korelacji liniowej Pearsona pomiędzydwoma zmiennymi X i Y jest spowodowana np. nie tyle mocną zależnością li-niową pomiędzy tymi zmiennymi, lecz istnieniem innej zmiennej lub zmiennych,z którymi X i Y osobno są mocno skorelowane (patrz następny podrozdział).Współczynnik korelacji rang SpearmanaJest to odpowiednik poprzedniego współczynnika, który mierzy zależność liniowądwóch zmiennych typu porządkowego. Zanim podamy wzór na wyliczenie tegowspółczynnika należy wytłumaczyć pojęcie rangi. Najpierw wartościom zmien-nych nadajemy rangi; rangą wartości zmiennej nazywamy numer jej miejsca w sze-regu niemalejącym tych wartości. Jeśli kilka wartości w szeregu są równe, to ichrangi będą jednakowe i równe średniej arytmetycznej numerów miejsc. Rangi bę-dziemy oznaczać odpowiednimi dużymi literami.Niech np. zmienna X przyjmuje wartości: x1 = 2, x2 = 8, x3 = 10, x4 = 5,

x5 = 9, x6 = 5.Wówczas, przeliczając te wartości na rangi, otrzymujemy: X1 = 1,X2 = 4, X3 = 6, X4 = 2,5, X5 = 5, X6 = 2,5 (są to miejsca, które zajmują liczbyx1, x2, x3, x4, x5, x6 po uporządkowaniu w szereg niemalejący). Jeśli zmienna Yprzyjmuje odpowiednio wartości: y1 = 3, y2 = 6, y3 = 8, y4 = 8, y5 = 9, y6 = 1,to Y1 = 2, Y2 = 3, Y3 = 4,5, Y4 = 4,5, Y5 = 6, Y6 = 1.Dalej, dla obliczonych w taki sposób rang Xj wartości zmiennej X oraz

Yj wartości zmiennej Y kładziemy

Rxy = 1−6∑nj=1(Xj − Yj)2n(n2 − 1) (9)

Page 61: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

59

– jest to właśnie wzór na współczynnik korelacji rang Spearmana. Np. dla poda-nych powyżej wartości otrzymamy Rxy = 0,662.Na pierwszy rzut oka nie ma żadnych powiązań pomiędzy współczynnikiem

korelacji rang Spearmana i współczynnikiem korelacji liniowej Pearsona. Ale jaksię okazuje, w rzeczywistości związek pomiędzy nimi istnieje i jest on dość istot-ny. Mianowicie, współczynnik korelacji rang Spearmana jest to nic innego, jakwspółczynnik korelacji liniowej Pearsona zastosowany do rang (a nie do warto-ści) zmiennych. Czyli jeśli zamiast wartości (xi, yi) podstawimy do wzoru (8)wartości (Xi, Yi), to otrzymamy wzór (9). Nie będziemy tutaj dowodzić tegofaktu, dowód jego nie jest trudny i znajduje się np. w [2, s. 230–231]. Bazuje onna tym, że przyjmując, iż wśród wartości xi (jak i wśród yi) żadne się niepowtarzają, otrzymamy, że wartości Xi (jak i wartości Yi) to ciąg liczb od1 do n, a 1 + · · · + n = n(n + 1)/2, zaś 12 + · · · + n2 = n(n + 1)(2n + 1)/6.Podstawiając te obliczenia do (8) i upraszczając ten wzór, otrzymamy (9).Z powodu wyżej wymienionego związku pomiędzy współczynnikami (8) i (9),

własności współczynnika korelacji rang Spearmana są dokładnie takie same, jakwłasności współczynnika korelacji liniowej Pearsona podane na s. 57.

7.2. Pojęcie korelacji cząstkowej i wielorakiej

Jak już wymieniliśmy na początku tego rozdziału, zazwyczaj w badaniu mamy doczynienia z więcej niż dwoma cechami (zmiennymi). Współczynniki korelacji li-niowej, o których mówiliśmy w poprzednim podrozdziale, są miernikami korelacjipomiędzy wybraną parą zmiennych X i Y. Ale często interesuje nas także zależ-ność badanej zmiennej Y od zestawu innych zmiennych (wszystkich pozostałychlub tylko części), z którymi mamy do czynienia w badaniu. Taką współzależnośćnazywamy korelacją wieloraką (wielokrotną) i mierzymy ją za pomocą odpowied-niego współczynnika.Oprócz korelacji wielorakiej, często interesujemy się również korelacją cząst-

kową. Co to jest? Otóż okazuje się, że inne zmienne, poprzez swoje różne po-wiązania z wybraną parą zmiennych, wpływają na pomiar zależności pomiędzyX i Y, i mogą w sposób istotny „zakłócić” wartość współczynnika korelacji li-niowej Pearsona. Istnieje możliwość „oczyszczenia” korelacji od tych „zaburzeń”i w tym przypadku sięgamy po pojęcie korelacji cząstkowej i odpowiedni jej współ-czynnik. Czyli korelacją cząstkową pomiędzy parą zmiennych X i Y nazywamywspółzależność pomiędzy tymi zmiennymi, po wykluczeniu wpływu innych zmien-nych (wszystkich pozostałych lub tylko części) na zmienne X i Y, czyli jest totzw. „czysta” współzależność pomiędzy X i Y.Jak już wspomnieliśmy, oba rodzaje korelacji zazwyczaj mierzymy za pomo-

cą odpowiednich współczynników. Podstawą do obliczania tych współczynnikówjest macierz korelacji C, odpowiadająca wszystkim zmiennym, które bierzemypod uwagę; element ij tej macierzy to współczynnik korelacji liniowej Pearsona

Page 62: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

60

rij dla zmiennych i i j (na przekątnej, oczywiście, stoją jedynki jako wartościwspółczynnika korelacji zmiennej samej z sobą). Dalej wygodnie jest kojarzyćzmienne z liczbami naturalnymi.Współczynnikiem korelacji cząstkowej pomiędzy zmiennymi i, j z wyłącze-

niem wpływu pozostałych zmiennych od 1 do k nazywamy

rij.1...(i−1)(i+1)...(j−1)(j+1)...k = −Cij√CiiCjj

,

gdzie Cij jest dopełnieniem algebraicznym elementu rij macierzy C, czyli iloczy-nem (−1)i+j oraz wyznacznika macierzy, którą otrzymamy z macierzy C poprzezwykreślenie i-tego wiersza oraz j-tej kolumny (analogicznie, Cii jest dopełnieniemalgebraicznym elementu rii = 1 macierzy C, a Cjj jest dopełnieniem algebraicz-nym elementu rjj = 1 macierzy C). Indeks tego współczynnika wskazuje: przedkropką – dla których zmiennych jest on mierzony, a po kropce – wpływ którychzmiennych jest eliminowany.Podobnie jak współczynnik korelacji liniowej Pearsona, współczynnik korelacji

cząstkowej przyjmuje wartości w przedziale [−1, 1] i informuje zarówno o sile jaki kierunku zależności pomiędzy badanymi zmiennymi (interpretacja jego wartościjest analogiczna do wartości współczynnika korelacji liniowej Pearsona). Współ-czynnik korelacji cząstkowej może być większy bądź mniejszy od współczynnikakorelacji liniowej Pearsona.Współczynnikiem korelacji wielorakiej pomiędzy zmienną i oraz zespołem po-

zostałych zmiennych od 1 do k nazywamy

Ri.1...(i−1)(i+1)...k =

1− |C|Cii,

gdzie, jak wyżej, Cii jest dopełnieniem algebraicznym elementu rii = 1 macierzyC, a |C| oznacza wyznacznik macierzy C. Ponownie, indeks tego współczynnikawskazuje: przed kropką – dla której zmiennej jest on mierzony, a po kropce –względem zestawu których zmiennych jest on mierzony.Współczynnik korelacji wielorakiej przyjmuje wartości w przedziale [0, 1] i in-

formuje tylko o sile zależności pomiędzy badanymi zmiennymi. Jest on równy 0tylko wtedy, gdy zmienna i nie zależy od pozostałych zmiennych, oraz równy 1,gdy zmienna i jest funkcją liniową pozostałych zmiennych. Oczywiście, im bliż-szy jedności jest współczynnik korelacji wielorakiej, tym związek pomiędzy danązmienną a pozostałymi jest silniejszy i odwrotnie, im bliższy zeru tym słabszy.Jeżeli przynajmniej jeden ze współczynników korelacji cząstkowej ma wartość 1,to współczynnik korelacji wielorakiej także wynosi 1; jeżeli wszystkie współczyn-niki korelacji cząstkowej są równe 0, to współczynnik korelacji wielorakiej takżejest równy 0.Rozważmy przykład zaczerpnięty z [5, s. 150–152].

Page 63: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

61

Przykład 2. Rozważmy dane badania trzech cech ludzi: wzrostu (w centyme-trach), wagi (w kilogramach) oraz pojemności płuc (w decymetrach sześciennych).Dane dla 16 zbadanych osób są zamieszczone w następującej tabeli:

1 2 3 4 5 6 7 8 9 10 11 12Wzrost 173 183 174 165 178 168 190 175 176 169 181 172Waga 78 89 75 67 73 74 84 75 81 65 86 70Poj.płuc 5,2 5,7 6,1 4,3 5,6 4,9 6,3 5,7 7,1 5,2 6,3 5,6

13 14 15 16Wzrost 179 185 161 177Waga 81 88 57 70Poj.płuc 5,8 6,4 4,4 5,9

Interesuje nas zależność, jaka zachodzi pomiędzy tymi zmiennymi. Zacznijmy odwyliczenia współczynnika korelacji liniowej Pearsona. Oznaczając zmienne odpo-wiednio cyframi 1, 2, 3, mamy: r12 = 0,860, r13 = 0,763, r23 = 0,706. Zatemwszystkie trzy współczynniki świadczą o bardzo wysokiej korelacji (zgodnie z kla-syfikacją z poprzedniego podrozdziału). Czy rzeczywiście tak jest?Zapiszmy macierz korelacji:

C =

1 0,860 0,7630,860 1 0,7060,763 0,706 1

.

Policzmy wszystkie współczynniki korelacji cząstkowej. Otrzymujemy: r12.3 =0,702, r13.2 = 0,432, r23.1 = 0,151. Stąd wniosek: zmienne Wzrost i Waga rze-czywiście skorelowane są dość wysoko w sposób dodatni, ponieważ wyeliminowa-nie wpływu Pojemności płuc nie zmieniło tego współczynnika w sposób rażący;zmienne Wzrost i Pojemność płuc po wyeliminowaniu wpływu Wagi już nie sąskorelowane wysoko lecz przeciętnie; wreszcie zmienne Waga i Pojemność płuc sąteraz, po wyeliminowaniu wpływu Wzrostu, skorelowane słabo.Policzmy jeszcze wszystkie współczynniki korelacji wielorakiej. Otrzymujemy:

R1.23 = 0,888, R2.13 = 0,863, R3.12 = 0,769. Wartości tych współczynnikówświadczą o tym, że każda zmienna jest dość wysoko skorelowana z zestawempozostałych dwóch zmiennych.Na koniec jeszcze zamieścimy wykresy rozrzutu dla każdej pary zmiennych

(rysunki 33–35).Reasumując, można stwierdzić, że liczenie oprócz zwykłych współczynników

korelacji również współczynników korelacji cząstkowej oraz wielorakiej dodajesporo informacji na temat rzeczywistych powiązań pomiędzy zmiennymi.

Page 64: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

62

Rysunek 33. Wykres rozrzutu dla zmiennych Wzrost i Waga.

Rysunek 34. Wykres rozrzutu dla zmiennych Wzrost i Pojemność płuc.

Rysunek 35. Wykres rozrzutu dla zmiennych Waga i Pojemność płuc.

Page 65: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

63

8. Prosta regresja liniowa

Analiza regresji zajmuje się badaniem zależności pomiędzy zmiennymi, mającna celu konstrukcję modelu, który dobrze odzwierciedla tę zależność. Najczęściejjedyną możliwością badania takich zależności jest przeprowadzenie doświadczeńi tylko w nielicznych przypadkach mogą one być uzyskane teoretycznie. Przykła-dy takich zależności to: zależność wydajności ziemi od różnych nawozów mineral-nych; zależność poziomu zysku banku od liczby klientów, wysokości inwestycji,liczby udzielonych kredytów itd.Warto zaznaczyć, że słowo regresja w tłumaczeniu z łaciny oznacza cofanie.

Stosowanie w nazwie tej dziedziny, jak też w nazwie kilku innych pojęć, słowaregresja jest historyczne i raczej niefortunne. Nazwa ta została, prawdopodobnie,po raz pierwszy użyta w 1885 r. przez angielskiego naukowca Sir F. Galtona(ucznia K. Darwina) podczas badania zależności wzrostu potomstwa od wzrosturodziców. Wykazał on bowiem, że niezwykle wysocy rodzice (znacznie powyżejprzeciętnej), mają dzieci niższego wzrostu, natomiast rodzice o wzroście znacznieniższym niż przeciętny, mają dzieci wyższe od nich. Galton nazwał to zjawiskocofaniem w kierunku przeciętności.W tym rozdziale rozważymy tylko prosty przypadek, gdy mamy dwie zmien-

ne: X (zmienna niezależna) i Y (zmienna zależna). Chcielibyśmy, w przypadkuistnienia zależności pomiędzy Y a X, wyrazić tę zależność za pomocą pewnegomodelu (równania).Załóżmy, że przeprowadzamy n pomiarów wielkości zmiennej Y w zależności

od pewnych wielkości zmiennej X. Zatem punktem wyjścia w naszych rozumo-waniach będą obserwacje (xi, yi), i = 1, . . . , n.Oczywiście, chcąc skonstruować model opisujący zależność Y od X, najpierw

należałoby sporządzić wykres rozrzutu. Rozważmy przykład zaczerpnięty z [1, s.260–261].Przykład 1. Rozpatrzmy rezultaty kolokwium (skala od 0 do 25 punktów) i egza-minu końcowego (skala od 0 do 50 punktów) ze statystyki matematycznej. W ko-lokwium i egzaminie brało udział 19 studentów pewnej szkoły technicznej. Wynikikolokwium i egzaminu są podane w tabelce:

1 2 3 4 5 6 7 8 9 10 11 12 13Kolokwium 7 11 12 14 17 15 21 22 19 13 5 12 16Egzamin 20 24 25 30 35 30 43 42 41 24 14 27 35

14 15 16 17 18 19Kolokwium 14 21 20 17 10 17Egzamin 28 42 40 34 23 40

Naszym celem jest skonstruowanie modelu zależności pomiędzy wynikiem eg-zaminu końcowego (zmienna zależna) a kolokwium (zmienna niezależna). Wykresrozrzutu dla tych zmiennych przedstawiono na rysunku 36. Sugeruje on wyraźnie

Page 66: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

64

Rysunek 36. Wykres rozrzutu dla zmiennych Kolokwium i Egzamin.

istnienie prostej, wokół której koncentrują się umieszczone na wykresie punkty.W analizie regresji zakładamy, że model opisuje się, w przybliżeniu, funk-

cją postaci h(x, b), gdzie b jest pewnym wektorem parametrów, a h jest zadanąfunkcją ciągłą (nazywaną funkcją regresji). Naszym celem jest znalezienie takichwartości wektora parametrów b, by model jak najlepiej pasował do danych. Jeślifunkcja h jest liniowa względem parametrów b, to regresja (i odpowiedni model)nazywa się liniową, w przeciwnym przypadku – nieliniową. Funkcja regresji li-niowej jednej zmiennej to h(x, b) = b1x+ b0. Dalej będziemy rozważać tylko takimodel.Jak wśród wszystkich możliwych prostych wybrać właściwą? Rozwiązanie tego

zagadnienia opiera się na tzw. metodzie najmniejszych kwadratów, wprowadzonejjeszcze na początku XIX wieku przez A.-M. Legendre’a i K. F. Gaussa. Polegaona na tym, że mając obserwacje (xi, yi), i = 1, . . . , n, wybieramy b1 i b0 tak, bywartość

Q(b0, b1) =n∑

i=1

(yi − (b1xi + b0))2 była jak najmniejsza (patrz rysunek 37).

Zwróćmy uwagę, że tak zdefiniowany problem minimalizacji nie jest problememminimalizacji sumy kwadratów odległości punktów obserwacji od prostej, lecz su-my kwadratów różnic względem wartości zmiennej zależnej. Można by było teżsformułować (i rozwiązać) analogiczny problem minimalizacji dla prawdziwych od-ległości punktów obserwacji od prostej; proponujemy zaawansowanym Czytelni-kom pomyśleć nad sformułowaniem i rozwiązaniem tego problemu (to rozwiązaniemożna znaleźć w [2, podrozdział 4.3]).Okazuje się, że metoda najmniejszych kwadratów, o ile nie wszystkie punkty

xi są jednakowe, ma jednoznaczne rozwiązanie, mianowicie:

b1 =∑ni=1(xi − x)(yi − y)∑ni=1(xi − x)2

, b0 = y − b1x. (10)

Page 67: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

65

Rysunek 37. Metoda najmniejszych kwadratów.

Rozwiązanie to otrzymujemy poprzez wyznaczenie pochodnych funkcji Q wzglę-dem b0 oraz względem b1 i przyrównanie ich do zera. Rozwiązując otrzymanyukład dwóch równań liniowych względem b0 i b1, uzyskujemy (10).Zwróćmy uwagę, ze współczynnik kierunkowy b1 ze wzoru (10) można zapi-

sać jeszcze w innej pożytecznej postaci (przypominającej wzór na współczynnikkorelacji liniowej Pearsona (8)):

b1 = rxy

√√√√∑ni=1(yi − y)2∑ni=1(xi − x)2

,

czyli współczynnik kierunkowy b1 prostej regresji w sposób liniowy zależy odwspółczynnika korelacji liniowej Pearsona i ma ten sam znak.Dobroć dopasowania modelu do danych najczęściej określa się za pomocą tzw.

współczynnika determinacji mającego postać

R2 =∑ni=1(b1xi + b0 − y)2∑ni=1(yi − y)2

.

Współczynnik ten przyjmuje wartości z przedziału [0, 1]; większe wartości R2

oznaczają lepsze dopasowanie modelu do danych. Interpretacja tego współczyn-nika jest następująca: zmienność zmiennej zależnej daje się wyjaśnić za pomocąstworzonego modelu w R2 ·100%.Wmodelu prostej regresji liniowej współczynnikdeterminacji R2 jest równy kwadratowi współczynnika korelacji liniowej Pearsona,czyli R2 = r2xy.Zauważmy, że z reguły metoda najmniejszych kwadratów jest bardzo skutecz-

na i prowadzi do bardzo dobrego rozwiązania.Dla danych z przykładu 1 równanie regresji ma postać:

Egzamin= 1,760·Kolokwium+5,200.Współczynnik R2 wynosi 0,948, co świadczy o bardzo wysokim stopniu dopaso-wania modelu do danych. Wykres rozrzutu wraz z najlepszą prostą regresji jestprzedstawiony na rysunku 38.

Page 68: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

66

Rysunek 38. Prosta regresji dla zmiennej Egzamin względem Kolokwium.

Metoda najmniejszych kwadratów jest czuła na obecność punktów nietypo-wych bądź odstających. Dodajmy np. do danych z przykładu 1 jeszcze jednegostudenta z wynikami: 10 (Kolokwium) oraz 50 (Egzamin). Teraz wykres rozrzutuwraz z najlepszą prostą regresji jest zobrazowany na rysunku 39.

Rysunek 39. Wykres rozrzutu i prosta regresji dla zmiennej Egzamin względemKolokwium z dodaną nietypową obserwacją.

Widzimy, że dodana obserwacja dość istotnie nie pasuje do pozostałych. Analizaregresji też to wykazuje, bowiem równanie prostej ma teraz postać:

Egzamin= 1,464·Kolokwium+10,905,a dopasowanie modelu do danych znacznie pogorszyło się i wynosi teraz R2 =0,555.Na koniec, rozważmy jeszcze przykład danych specjalnie dobranych przez an-

gielskiego statystyka J. F. Anscombe’a. Ma on na celu zwrócenie uwagi na fakt, iż

Page 69: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

67

współczynnik determinacji R2 nie zawsze jest wystarczający do oceny dobroci do-pasowania modelu do danych. Jako uzupełnienie wyników zawsze należy stworzyćwykres rozrzutu wraz z dopasowaną prostą regresji.Przykład 2. Mamy 11 obserwacji i cztery pary zmiennych: (X1, Y1), (X2, Y2),(X3, Y3), (X4, Y4). Dla każdej pary zmiennych należy znaleźć najlepszą prostą re-gresji i zbadać dobroć dopasowania modelu do danych. Dane znajdują się w na-stępującej tabeli:

1 2 3 4 5 6 7 8 9 10 11X1 10 8 13 9 11 14 6 4 12 7 5Y1 8,04 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,68X2 10 8 13 9 11 14 6 4 12 7 5Y2 9,14 8,14 8,74 8,77 9,26 8,10 6,13 3,10 9,13 7,26 4,74X3 10 8 13 9 11 14 6 4 12 7 5Y3 7,46 6,77 12,74 7,11 7,81 8,84 6,08 5,39 8,15 6,42 5,73X4 8 8 8 8 8 8 8 19 8 8 8Y4 6,58 5,76 7,71 8,84 8,47 7,04 5,25 12,50 5,56 7,91 6,89

Wykresy rozrzutu wraz z najlepszą prostą regresji dla poszczególnych parzmiennych są przedstawione na rysunkach 40–43. Zwróćmy uwagę, że proste re-gresji we wszystkich przypadkach są takie same (prawie, po zaokrągleniu współ-czynników do dwóch liczb po przecinku), a mianowicie: Yi = 0,50Xi + 3,00. Jaksię okazuje, wartości współczynnika determinacji też są takie same (0,666 bądź0,667, co jest wynikiem zaokrąglenia). Nie mając wykresów rozrzutu moglibyśmystwierdzić, że dobroć dopasowania prostej regresji do danych jest taka sama i niejest zła. Ale jakże różne są wykresy rozrzutu!

Rysunek 40. Wykres rozrzutu i prosta regresji dla zmiennej Y1 względem X1.

Page 70: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

68

Rysunek 41. Wykres rozrzutu i prosta regresji dla zmiennej Y2 względem X2.

Rysunek 42. Wykres rozrzutu i prosta regresji dla zmiennej Y3 względem X3.

Rysunek 43. Wykres rozrzutu i prosta regresji dla zmiennej Y4 względem X4.

Page 71: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

69

Wykresy te zupełnie zmieniają nasze zdanie na temat jakości dopasowaniamodeli do danych. O ile wykres pierwszy, w zasadzie, odpowiada naszym ocze-kiwaniom, to wykres drugi wyraźnie pokazuje, że tutaj należy dopasować modelkrzywoliniowy (kwadratowy), a nie liniowy. Na wykresie trzecim mamy do czynie-nia z punktem odstającym, natomiast czwarty wykres sugeruje, że model liniowyjest zupełnie nieudany (żadna funkcja liniowa nie jest w stanie dobrze przybliżyćzależność badanych zmiennych).

Page 72: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

70

A1. Podstawowe pojęcia i fakty z rachunku praw-

dopodobieństwa

Rachunek prawdopodobieństwa (łac. probabilitis – prawdopodobny) zajmuje sięzdarzeniami zachodzącymi przy wykonywaniu doświadczeń losowych.

Doświadczenie losowe jest realizacją, zależną od nas bądź nie, rzeczywistą bądźtylko umysłowa, pewnego działania takiego, że:– jego wynik nie da się przewidzieć wcześniej;– zbiór możliwych wyników (zdarzeń elementarnych) Ω jest określony z góry;– może ono być powtarzane zasadniczo w tych samych warunkach.

Przestrzeń probabilistycznaPrzestrzeń probabilistyczna jest podstawowym pojęciem rachunku prawdopodo-bieństwa; składa się ona z trzech elementów. Pierwszym elementem jest zbiórzdarzeń elementarnych Ω, o którym zakładamy, że jest on niepusty. Zbiór Ω mo-że być jednego z trzech typów:– skończony,– nieskończony, ale przeliczalny,– nieskończony i nieprzeliczalny.

Oznaczmy jako 2Ω zbiór wszystkich możliwych podzbiorów Ω.

Drugim elementem przestrzeni probabilistycznej jest pewna rodzina F podzbio-rów Ω, czyli F ⊂ 2Ω. Na temat tej rodziny zakładamy, że musi ona być σ-ciałem(σ-algebrą) podzbiorów Ω, czyli dla niej muszą zachodzić następujące warunki:– Ω ∈ F ;– ∀A ⊂ Ω A ∈ F =⇒ Ac ∈ F (Ac jest dopełnieniem zbioru A);– ∀A1, A2, . . . ⊂ Ω, A1, A2, . . . ∈ F =⇒ ∪∞i=1Ai ∈ F .Każdy zbiór A ∈ F nazywamy zdarzeniem losowym. Na ogół, nie każdy podzbiórΩ jest zdarzeniem losowym, czyli F 6= 2Ω.Uwaga. σ-ciało jest zamknięte na operacje: ∪∞i=1, ∩∞i=1, ∪ni=1, ∩ni=1, ·c, \ .Fakt. Iloczyn σ-ciał jest również σ-ciałem.

Wniosek. Niech A będzie pewną rodziną podzbiorów Ω. Wśród σ-ciał zawiera-jących A istnieje najmniejsze σ-ciało. Oznaczamy je σ(A) i nazywamy σ-ciałem,generowanym przez A; zbiór A nazywamy generatorem σ(A).σ-ciało generowane przez rodzinę wszystkich podzbiorów otwartych w R nazywa-my σ-ciałem podzbiorów borelowskich w R i oznaczamy jako B(R). Generatoramitego σ-ciała jest także rodzina przedziałów (a, b], rodzina półprostych (−∞, a],rodzina półprostych (a,∞) i wiele innych rodzin. Zauważmy, że każdy zbiór „po-rządny” w R należy do B(R), choć B(R) 6= 2R.Trzecim elementem przestrzeni probabilistycznej jest pewna funkcja nazywanaprawdopodobieństwem. Niech F ⊂ 2Ω będzie σ-ciałem. Funkcję P : F → [0, 1]nazywamy prawdopodobieństwem (miarą probabilistyczną), jeśli

Page 73: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

71

– P (Ω) = 1;– ∀A1, A2, . . . ∈ F : Ai ∩Aj = ∅ ∀i 6= j =⇒ P (∪∞i=1Ai) =

∑∞i=1 P (Ai).

Trójkę (Ω,F , P ), gdzie Ω 6= ∅, F jest σ-ciałem podzbiorów Ω, a P jest prawdo-podobieństwem określonym na F , nazywamy przestrzenią probabilistyczną.Zmienna losowaCzęsto z doświadczeniem losowym wiążemy pewną funkcję przyporządkowującązdarzeniom elementarnym liczby rzeczywiste i staramy się odpowiedzieć na py-tanie, jakie jest prawdopodobieństwo, że rozważana funkcja przyjmuje wartościz pewnych zbiorów.

Niech (Ω,F , P ) będzie pewną przestrzenią probabilistyczną. Funkcję X : Ω 7→ R

nazywamy zmienną losową, jeśli X−1(B) ∈ F ∀B ∈ B(R), gdzie X−1(B) jestprzeciwobrazem zbioru B ∈ B(R), czyli X−1(B) = ω : X(ω) ∈ B = X ∈ B.Funkcja X : Ω 7→ R, która spełnia powyższy warunek, jest też nazywana funk-cją mierzalną. Zauważmy, że w zasadzie każda „porządna” funkcja jest funkcjąmierzalną.

Jeśli X jest zmienną losową i funkcja g : R 7→ R jest taka, że g−1(B) ∈ B(R)∀B ∈ B(R), to g(X) też jest zmienną losową.Rozkładem zmiennej losowej X nazywamy funkcję („nowe” prawdopodobieństwo)PX : B(R) 7→ [0, 1] zdefiniowaną wzorem

PX(B) = P (X−1(B)) = P (ω : X(ω) ∈ B) ∀B ∈ B(R).

Uwaga. „Nowe” prawdopodobieństwo PX wyznacza się na podstawie „starego”prawdopodobieństwa P oraz zmiennej losowej X.

Wśród rozkładów wyróżniamy dwa podstawowe typy: dyskretne i ciągłe (absolut-nie ciągłe).

Mówimy, że zmienna losowa X ma rozkład dyskretny (lub że PX jest rozkła-dem dyskretnym), jeśli istnieje zbiór S ⊂ R, co najwyżej przeliczalny, taki, żePX(S) = 1.

Niech S = x1, . . . , xn lub S = x1, . . . , xn, . . .. Wówczas ∀B ∈ B(R)

PX(B) = PX(B ∩ S) = PX (∪k:xk∈Bxk) =∑

k:xk∈B

PX (xk) ,

czyliPX(B) =

k:xk∈B

pk ∀B ∈ B(R),

gdzie pk = PX(xk) = P (X = xk) dla k = 1, . . . , n lub k = 1, . . . , n, . . . Potocz-nie mówimy, że rozkład PX jest wyznaczony przez (xk, pk), k = 1, . . . , n lubprzez (xk, pk), k = 1, . . . , n, . . ..

Page 74: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

72

Mówimy, że zmienna losowa X ma rozkład ciągły (lub że PX jest rozkłademciągłym), jeśli istnieje nieujemna całkowalna funkcja fX : R 7→ R taka, że

PX(B) =∫

BfX(x)dx ∀B ∈ B(R).

Funkcja fX jest nazywana gęstością rozkładu PX lub zmiennej losowej X. Pod-stawowa własność gęstości to

∫ +∞

−∞

fX(x)dx = 1.

Rysunki funkcji gęstości niektórych ważnych w statystyce rozkładów można zna-leźć w dodatku A2.Dystrybuantą zmiennej losowej X nazywamy funkcję FX : R 7→ [0, 1] określonąwzorem

FX(x) = PX((−∞, x]) = P (X 6 x), x ∈ R.

Dystrybuanta wyznacza rozkład zmiennej losowej w sposób jednoznaczny.

6

-0 x

y

a1 a2 a3 a4 a5

1/5

2/5

3/5

4/5

1

q

q

q

q

q

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

p

q

q

q

q

q

qqqqq

Rysunek 44. Dystrybuanta rozkładu dyskretnego.

Na rysunku 44 widzimy przykładową dystrybuantę rozkładu dyskretnego: zmien-na losowa przyjmuje wartości ai, i = 1, . . . , 5, przy czym a1 < . . . < a5, z jedna-kowymi prawdopodobieństwami 1/5 (co powoduje, że wszystkie skoki tej funkcjisą jednakowe i wynoszą 1/5). Postaci dystrybuant dwóch rozkładów ciągłychprzedstawiono na rysunkach 45 i 46.Najważniejsze własności dystrybuanty:– FX jest funkcją niemalejącą;– FX jest funkcją prawostronnie ciągłą (czyli ciągłą z prawej strony i niekoniecznieciągłą ze strony lewej);– limx→−∞ FX(x) = 0, limx→+∞ FX(x) = 1.

Page 75: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

73

Rysunek 45. Dystrybuanta rozkładu N (0, 1).

Rysunek 46. Dystrybuanta rozkładu χ24.

Zachodzi bardzo pożyteczny wzór:

P (a < X 6 b) = P (X 6 b)− P (X 6 a) = FX(b)− FX(a). (11)

Dla ciągłej zmiennej losowej: jeśli dystrybuanta ma pochodną w każdym punk-cie, to pochodna ta jest równa gęstości tej zmiennej losowej, czyli F ′X(x) =fX(x); i na odwrót, dystrybuanta wyznacza się za pomocą gęstości jako FX(x) =∫ x−∞ fX(u)du. Oprócz tego, dla rozkładu ciągłego prawdopodobieństwo (11) moż-na zapisać za pomocą gęstości:

P (a < X 6 b) =∫ b

afX(x)dx (patrz rysunek 47), (12)

przy czym znaki nierówności pod prawdopodobieństwem w obu przypadkach mo-gą być tak ostre („<”), jak i nieostre („6”).

Page 76: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

74

Rysunek 47. Zaznaczone pole pod wykresem gęstości jest równeprawdopodobieństwu (12).

Liczbowe charakterystyki zmiennych losowychWymienimy tutaj dwie najważniejsze charakterystyki liczbowe rozkładów zmien-nych losowych.Wartością oczekiwaną zmiennej losowej X nazywamy liczbę

EX =∑

k

xkpk (o ile istnieje),

gdy X ma rozkład dyskretny wyznaczony przez (xk, pk), k = 1, 2, . . ., orazliczbę

EX =∫xfX(x)dx (o ile istnieje),

gdy X ma rozkład ciągły o gęstości fX .Jeśli zmienna losowaX posiada wartość oczekiwaną, to zmienna losowa aX+b dladowolnych a, b ∈ R też posiada wartość oczekiwaną oraz zachodzi E(aX + b) =aEX + b.Jeśli zmienne losowe X1, X2, . . . , Xn posiadają wartości oczekiwane, to zmiennalosowa X1 + X2 + · · · + Xn też posiada wartość oczekiwaną oraz E(X1 + X2 +· · ·+Xn) = EX1 + EX2 + · · ·+ EXn.Wariancją zmiennej losowej X nazywamy liczbę

VarX = E (X − EX)2 = EX2 − (EX)2 (o ile istnieje).

Dla rozkładu dyskretnego

VarX =∑

k

x2kpk −(∑

k

xkpk

)2,

Page 77: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

75

natomiast dla rozkładu ciągłego o gęstości fX

VarX =∫x2fX(x)dx−

(∫xfX(x)dx

)2.

Jeśli zmienna losowa X posiada wariancję, to zmienna losowa aX + b dla dowol-nych a, b ∈ R też posiada wariancję oraz Var(aX + b) = a2VarX.

Jeśli zmienna losowa posiada wariancję, to posiada też wartość oczekiwaną; od-wrotna teza nie musi zachodzić (przykład - rozkład Studenta z 2 stopniami swo-body, patrz dodatek A2).

Zmienne losowe X1, X2, . . . , Xn nazywamy niezależnymi, jeśli dla dowolnychzbiorów B1, B2, . . . , Bn ∈ B(R) zachodzi

P (X1 ∈ B1, X2 ∈ B2, . . . , Xn ∈ Bn) = P (X1 ∈ B1)P (X2 ∈ B2) · . . . ·P (Xn ∈ Bn).

Dla niezależnych zmiennych losowych spełnione są dodatkowe własności:E(X1 ·X2 · . . . ·Xn) = EX1 · EX2 · . . . ·EXn;Var(X1 +X2 + . . .+Xn)=VarX1 +VarX2 + . . .+VarXn.

Twierdzenia graniczneTutaj przedstawimy najważniejsze, z punktu widzenia statystyki, twierdzenia gra-niczne rachunku prawdopodobieństwa, czyli twierdzenia, które mówią o własno-ściach pewnych ciągów zmiennych losowych, gdy n→∞.Zacznijmy od pojęć zbieżności ciągów zmiennych losowych.

Mówimy, że ciąg zmiennych losowych X1, . . . , Xn, . . . jest zbieżny według prawdo-podobieństwa do zmiennej losowej X, jeśli

∀ε > 0 limn→∞P (|Xn −X| > ε) = 0.

Uwaga. W szczególności, zbieżność może też być do stałej c, czyli do takiejzmiennej losowej X, dla której P (X = c) = 1.

Mówimy, że ciąg zmiennych losowych X1, . . . , Xn, . . . o dystrybuantach odpowied-nio F1, . . . , Fn, . . . jest zbieżny według rozkładu do zmiennej losowej X o dystry-buancie F, jeśli

limn→∞Fn(x) = F (x)

dla każdego punktu x ∈ R będącego punktem ciągłości dystrybuanty F.

Jeśli X1, . . . , Xn, . . . jest ciągiem niezależnych zmiennych losowych o jednakowymrozkładzie z wartością oczekiwaną EX1 oraz E|X1| < ∞, to spełnia on prawowielkich liczb, czyli dla niego zachodzi:

X1 + · · ·+Xnn

→ EX1, gdy n→∞

Page 78: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

76

według prawdopodobieństwa.Jeśli X1, . . . , Xn, . . . jest ciągiem niezależnych zmiennych losowych o jednakowymrozkładzie z wartością oczekiwaną EX1 oraz wariancją VarX1, to spełnia on cen-tralne twierdzenie graniczne, czyli dla niego zachodzi:

X1 + · · ·+Xn − nEX1√nVarX1

→ ξ, gdy n→∞,

według rozkładu, gdzie ξ jest zmienną losową o rozkładzie normalnym N (0, 1).Szczególnym przypadkiem powyższego twierdzenia jest twierdzenie de Moivre’a-Laplace’a: jeśliX1, . . . , Xn, . . . jest ciągiem niezależnych zmiennych losowych o tymsamym rozkładzie zero-jedynkowym z parametrem p = P (X1 = 1), to

X1 + · · ·+Xn − np√np(1− p)

→ ξ, gdy n→∞,

według rozkładu, gdzie ξ jest zmienną losową o rozkładzie normalnym N (0, 1).

Page 79: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

77

A2. Rozkład normalny i inne rozkłady stosowane

w statystyce

Przegląd ważnych z punktu widzenia statystyki rozkładów zmiennych losowychrozpoczniemy, rzecz jasna, od najważniejszego rozkładu, którym bez wątpieniajest rozkład normalny. Ważność tego rozkładu w głównej mierze można wytłu-maczyć treścią centralnego twierdzenia granicznego (patrz dodatek A1), któreorzeka, że przy pewnych dość ogólnych warunkach rozkład normalny jest granicz-nym rozkładem ciągu odpowiednio scentrowanych i unormowanych zmiennychlosowych.Mówiąc o rozkładzie normalnym, tak naprawdę, lepiej użyć słów „rodzina roz-kładów normalnych”; jest to rozkład ciągły, który w pełni jest określony poprzezzadanie dwóch parametrów: a i σ. Liczba a jest wartością oczekiwaną tego roz-kładu, a dodatnia (o ile rozkład normalny nie jest zdegenerowany) liczba σ jestodchyleniem standardowym tego rozkładu, czyli pierwiastkiem z wariancji.Postać gęstości rozkładu normalnego, który oznaczamy przez N (a, σ2), to

f(x) =1√2πσe−(x−a)

2/(2σ2), x ∈ R.

Omawiane parametry mają też inną ważną interpretację. Na rysunku 48 jestpokazane, jak zmienia się wykres gęstości rozkładu normalnego w zależności odzmiany parametru a, a na rysunku 49 zobaczymy, jak zmienia się wykres gęstościrozkładu normalnego w zależności od zmiany parametru σ.

Rysunek 48. Gęstości rozkładów normalnych (po kolei z lewej):N (−3, 1),N (0, 1),N (3, 1).

Page 80: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

78

Rysunek 49. Gęstości rozkładów normalnych: N (0, 1) (1); N (0, 4) (2)N (0, 1/4) (3).

Jak widać na rysunku 48, zmiana parametru a powoduje tylko przesunięcie wykre-su w lewo bądź w prawo, w zależności od znaku a; dlatego parametr ten nazywasię również parametrem przesunięcia, czy parametrem położenia. Natomiast narysunku 49 widać, że zmiana parametru σ nie wpływa na położenie wykresu, leczpowoduje jego skalowanie; dlatego parametr ten nazywa się parametrem skali.Rozkład normalny posiada następującą wspaniałą własność: funkcja liniowa nie-zależnych zmiennych losowych o rozkładzie normalnym nadal jest zmienną losowąo rozkładzie normalnym.W szczególności, jeśli X jest zmienną losową o rozkładzie normalnym N (a, σ2),to zmienna losowa Y = (X − a)/σ (przekształcenie liniowe – standaryzacja) mastandardowy rozkład normalny, czyli N (0, 1). I na odwrót, jeśli wziąć zmiennąlosową Y o rozkładzie N (0, 1), to aby uzyskać zmienną losową o rozkładzie nor-malnym N (a, σ2), wystarczy rozważyć X = σY + a.Dla zmiennej losowej X o rozkładzie N (a, σ2) zachodzi:

P (a− σ 6 X 6 a+ σ) = 0,6827,

P (a− 2σ 6 X 6 a+ 2σ) = 0,9545,

P (a− 3σ 6 X 6 a+ 3σ) = 0,9973;

ostatnia równość jest ilustracją tzw. reguły trzech sigma, mówiącej, że prawiewszystkie wartości zmiennej losowej o rozkładzie N (a, σ2) leżą w przedziale [a−3σ, a+ 3σ].Niech zmienne losoweX1, . . . , Xn będą niezależne, o tym samym rozkładzieN (0, 1).Wówczas rozkład zmiennej losowej X21 + · · ·+X2n nazywa się rozkładem χ2n (chi-

Page 81: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

79

Rysunek 50. Gęstości rozkładów χ2n dla: n = 1 (1); n = 2 (2); n = 3 (3);n = 4 (4); n = 10 (5).

kwadrat) z n stopniami swobody (jest to parametr tego rozkładu). Gęstość roz-kładu χ2n zadaje się wzorem:

f(x) =xn/2−1e−x/2

2n/2Γ(n/2), x > 0;

dla pozostałych wartości x gęstość wynosi 0, czyli zmienna losowa o rozkładzie χ2nprzyjmuje tylko wartości dodatnie. Gęstości rozkładów χ2n dla niektórych wartościn są przedstawione na rysunku 50.Niech zmienne losowe X o rozkładzie N (0, 1) oraz Y o rozkładzie χ2n będą nieza-leżne. Wówczas rozkład zmiennej losowejX/

√Y/n nazywa się rozkładem Studenta

Rysunek 51. Gęstości rozkładów Studenta z n stopniami swobody dla:n = 1 (1); n = 2 (2); n = 10 (3).

Page 82: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

80

z n stopniami swobody (jest to parametr tego rozkładu). Gęstość rozkładu Stu-denta z n stopniami swobody zadaje się wzorem:

f(x) =Γ((n + 1)/2)√

πnΓ(n/2)(1 + x2/n)(n+1)/2, x ∈ R.

Gęstości rozkładów Studenta z n stopniami swobody dla niektórych wartości nsą przedstawione na rysunku 51.Zgodnie z definicją rozkładu χ2n, rozkład Studenta z n stopniami swobody możnateż określić w sposób następujący: jeśli X,X1, . . . , Xn są niezależnymi zmien-nymi losowymi o tym samym rozkładzie N (0, 1), to rozkład zmiennej losowejX/√(X21 + · · ·+X2n)/n jest rozkładem Studenta z n stopniami swobody.

Niech zmienne losoweX1, . . . , Xn będą niezależne, o tym samym rozkładzieN (a, σ2).Wówczas zmienne losowe X =

∑ni=1Xi/n oraz S

2 =∑ni=1(Xi − X)2/(n − 1) są

niezależne, przy czym rozkład X to N (a, σ2/n), a rozkład (n− 1)S2/σ2 to χ2n−1.Wówczas, zgodnie z powyższym,

√nX − aS

ma rozkład Studenta o n− 1 stopniach swobody.

Niech zmienne losowe X o rozkładzie χ2n oraz Y o rozkładzie χ2m będą niezależne.

Wówczas rozkład zmiennej losowej (X/n)/(Y/m) nazywa się rozkładem Fisheraz n i m stopniami swobody (są to parametry tego rozkładu). Gęstość rozkładuFishera z n i m stopniami swobody zadaje się wzorem:

f(x) =Γ((n+m)/2)(n/m)n/2xn/2−1

Γ(n/2)Γ(m/2)(1 + (n/m)x)(n+m)/2, x > 0;

Rysunek 52. Gęstości rozkładów Fishera z n i m stopniami swobody dla:n = 1, m = 1 (1); n = 1, m = 2 (2); n = 5, m = 1 (3); n = 3, m = 5 (4);

n = 5, m = 3 (5).

Page 83: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

81

dla pozostałych wartości x gęstość wynosi 0, czyli zmienna losowa o rozkładzieFishera z n i m stopniami swobody przyjmuje tylko wartości dodatnie. Gęstościrozkładów Fishera z n i m stopniami swobody dla niektórych wartości n i m sąprzedstawione na rysunku 52.Niech zmienne losowe X1, . . . , Xn, Y1, . . . , Ym będą niezależne, przy czym Ximają ten sam rozkład N (a, σ2X), a Yi mają ten sam rozkład N (b, σ2Y ).Wówczaszmienna losowa

S2Xσ2Y

S2Y σ2X

ma rozkład Fishera o n− 1 i m− 1 stopniach swobody,

gdzie S2X =∑ni=1(Xi − X)2/(n− 1), S2Y =

∑mj=1(Yj − Y )2/(m− 1).

Page 84: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

82

Bibliografia

1 Koronacki J., Mielniczuk J. Statystyka. WNT, Warszawa, 2006.

2 Krysicki W., Bartos J., Dyczka W., Królikowska K., Wasilewski M. Rachu-nek prawdopodobieństwa i statystyka matematyczna w zadaniach. Cześć II.Statystyka Matematyczna. PWN, Warszawa, 1995.

3 Stanisz A. Przystępny kurs statystyki. Tom 1. StatSoft Polska, Kraków,1998.

4 Larose D. T. Metody i modele eksploracji danych. PWN, Warszawa, 2008.

5 Zieliński T. Jak pokochać statystykę, czyli STATISTICA do poduszki. Stat-Soft Polska, Kraków, 1999.

Page 85: Aleksander Zaigrajew STATYSTYKAalzaig/zsi.pdf · Przedmiot Statystyka jest jednym z najważniejszych przedmiotów należących do zastosowań matematyki. W dzisiejszych czasach, gdy

Spis treści

Rozdział 1. Wprowadzenie do przedmiotu 3

Rozdział 2. Rozkład częstości zmiennej 9

Rozdział 3. Statystyka opisowa: liczbowe charakterystyki (miary) 21

Rozdział 4. Wstępna obróbka danych 30

Rozdział 5. Estymacja nieznanych parametrów rozkładu 365.1. Estymacja punktowa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.2. Estymacja przedziałowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

Rozdział 6. Testowanie hipotez statystycznych 476.1. Hipotezy parametryczne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476.2. Testy chi-kwadrat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

Rozdział 7. Korelacja liniowa 557.1. Współczynniki korelacji liniowej. . . . . . . . . . . . . . . . . . . . . . . . . . . . 577.2. Pojęcie korelacji cząstkowej i wielorakiej. . . . . . . . . . . . . . . . . . . . . . 59

Rozdział 8. Prosta regresja liniowa 63

Dodatek A1. Podstawowe pojęcia i fakty z rachunku prawdopodobieństwa. . 70

Dodatek A2. Rozkład normalny i inne rozkłady stosowane w statystyce . . . 77

Literatura 82