PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ...

73
1 SPOLECZNA AKDAEMIA NAUK W LODZI KIERUNEK STUDIÓW: ZARZĄDZANIE PRZEDMIOT: METODY ILOŚCIOWE W ZARZĄDZANIU (MATERIAL POMOCNICZY – PRZEDMIOT PODSTAWOWY ) Lódź

Transcript of PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ...

Page 1: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

1

SPOŁECZNA AKDAEMIA NAUK W ŁODZI

KIERUNEK STUDIÓW: ZARZĄDZANIE

PRZEDMIOT:

METODY ILO ŚCIOWE W ZARZ ĄDZANIU

(MATERIAŁ POMOCNICZY – PRZEDMIOT PODSTAWOWY )

Łódź

Page 2: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

2

Spis treści Moduł 1 Wprowadzenie do metod ilościowych w zarządzaniu 4

1.1. Wprowadzenie 4

1.2. Wybrane metody badań statystycznych 4

1.3. Prawdopodobieństwo – ilościowa miara niepewności 8

1.4. Zmienna losowa i jej rozkład 10

1.4.1. Zmienna losowa skokowa 11

1.4.2. Zmienna losowa ciągła 15

Moduł 2 Wybrane elementy teorii podejmowania decyzji 24

2.1. Wprowadzenie 24

2.2. Rola i wartość informacji w procesie podejmowania decyzji 24

2.3. Podejmowanie decyzji w warunkach niepewności i ryzyka – gry

z „naturą”

25

2.3.1. Gry z „naturą” w warunkach niepewności 25

2.3.2. Podejmowanie decyzji w warunkach ryzyka 28

2.4. Cena graniczna doskonałej informacji 30

2.5. Wykorzystanie dodatkowej informacji 30

Moduł 3 Wybrane zagadnienia z zakresu estymacji przedziałowej

parametrów rozkładu populacji generalnej

33

3.1. Wprowadzenie 33

3.2. Estymacja parametryczna – pojęcia wstępne 33

3.3. Przedział ufności dla wartości przeciętnej 35

3.4. Przedział ufności dla wskaźnika struktury 39

Moduł 4 Weryfikacja hipotez statystycznych 43

4.1. Pojęcia podstawowe 43

4.2. Weryfikacja (testowanie) hipotez o wartości przeciętnej 44

4.3. Weryfikacja hipotez statystycznych o równości wartości

przeciętnej w dwóch zbiorowościach generalnych

46

4.4. Weryfikacja hipotezy o równości dwóch wskaźników struktury 48

4.5. Weryfikacja hipotezy o równości dwóch wskaźników struktury 50

4.6. Test niezależności 2χ 52

Page 3: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

3

Aneks 1 Statystyczna analiza struktury zbiorowości 56

A.1.1. Rodzaje szeregów statystycznych; skale pomiarowe 56

A.1.2. Podstawowe charakterystyki liczbowe struktury badanej

zbiorowości

57

A.1.3. Badanie zależności między cechami 62

Aneks 2 Rozkłady wybranych statystyk próbkowych 66

Aneks 3 Tablice wybranych rozkładów ciągłych 70

A.3.1. Dystrybuanta rozkładu normalnego 70

A.3.2. Rozkład Studenta 71

A.3.3. Rozkład 2χ 72

Page 4: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

4

Moduł 1 Wprowadzenie do metod ilo ściowych w zarz ądzaniu

1.1. Wprowadzenie

W dobie rozwoju gospodarki cyfrowej proces pozyskiwania informacji staje się coraz łatwiejszy. Ogromna liczba informacji, dostępnych często bezpłatnie przyczynia się do dynamicznego rozwoju metod, za pomocą których możliwe jest przeprowadzenie syntetycznej analizy określonych zjawisk. Metody te mają coraz częściej charakter ilościowy, co oznacza, że w procesie analizy wykorzystuje się szeroko rozumiane metody matematyczno-statystyczne. Znajomość przynajmniej części tych metod oraz świadome ich zastosowanie jest podstawą racjonalnego funkcjonowania podmiotów w gospodarce.

Szerokie spektrum problemów zawiązanych z właściwą oceną współczesnego życia gospodarczego, wynikających często z faktu, iż podmioty działają w warunkach niepełnej informacji wymaga odwoływania się w sytuacjach praktycznych do ilościowych metod analizy tych problemów. Szczególną rolę pełnią tu metody statystyczne mające ogromne zastosowanie w działalności gospodarczej, i to zarówno w odniesieniu do pojedynczego przedsiębiorstwa, grupy przedsiębiorstw, wybranej sfery działalności gospodarki, jak również gospodarki jako całości. Popularność metod statystycznych wynika z samej specyfiki statystyki, która jest dziedziną nauki badającą prawidłowości zachodzące w zjawiskach masowych (czyli takich, które występują w dużej liczbie przypadków). Z podstawowymi metodami statystycznymi stosowanymi do opisu badanej zbiorowości statystycznej Słuchacz powinien się zapoznać się na kursie statystyki opisowej. Przypomnienie wybranych metod, które są konieczne z punktu widzenia treści zawartych w niniejszym kursie znaleźć można w aneksie 1 do modułu 1. W niniejszym module uwaga skoncentrowana zostanie głównie na podstawowych pojęciach statystycznych, wybranych metodach badań statystycznych oraz elementach rachunku prawdopodobieństwa i statystyki matematycznej, które są niezbędne do zrozumienia treści zawartych w kolejnych modułach.

1.2. Wybrane metody badań statystycznych

Celem każdego badania statystycznego jest syntetyczny opis badanej zbiorowości statystycznej, który może być podstawą do formułowania szerszych wniosków dotyczących populacji generalnej. Ważne jest więc poprawne rozumienie podstawowych pojęć statystycznych takich jak zbiorowość statystyczna, jednostka statystyczna, populacja generalna, cecha statystyczna, etc. Poniżej podajemy krótkie ich definicje. Więcej informacji można znaleźć w opracowaniach Sobczyka (2000, s. 13-18), Starzyńskiej i Michalskiego (1996, s. 9-12).

Pod pojęciem zbiorowości (populacji) statystycznej rozumie się zbiór jednostek (osób, rzeczy lub zjawisk) objętych badaniem statystycznym. Elementy zbiorowości statystycznej poddane bezpośredniej obserwacji lub pomiarowi określane są mianem jednostek statystycznych. Jeśli przedmiotem badania są wszystkie jednostki statystyczne, co do których chcemy formułować wnioski ogólne, to taką zbiorowość nazywamy zbiorowością (populacją) generalną. Podzbiór populacji generalnej wybrany w określony sposób nosi nazwę zbiorowości próbnej (próby).

Badanie statystyczne sprowadza się głównie do zebrania, odpowiedniego przetworzenia i analizy informacji dotyczących badanej zbiorowości statystycznej i cech jednostek statystycznych. Do podstawowych etapów badania statystycznego zalicza się:

1) Projektowanie badania. 2) Obserwacja statystyczna (zbieranie informacji). 3) Opracowanie i prezentacja zebranych informacji.

Page 5: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

5

4) Analiza otrzymanych wyników (opis lub wnioskowanie statystyczne).

1. Projektowanie badania:

a) Etap pierwszy rozpoczynamy od określenia celu badania oraz hipotezy badawczej, którą staramy się zweryfikować w toku badania.

b) Drugą czynnością jest określenie zakresu badania, poprzez co rozumiemy:

b1) określenie jednostki i zbiorowości statystycznej, jako zbioru jednostek posiadających pewne wspólne właściwości – cechy stałe;

b2) wybór zmiennych cech statystycznych, czyli właściwości jednostek, których poziom w badanej zbiorowości jest zróżnicowany i zgodnie z celem badania, będzie podlegał obserwacji;

c) określenie rodzaju badania (całkowite, czy częściowe);

d) określenie źródeł informacji (pierwotne, czy wtórne – jakie);

e) opracowanie formularzy statystycznych i makiet tablic wynikowych;

f) sporządzenie kosztorysu badania. 2. Obserwacja statystyczna:

Charakter obserwacji statystycznej zależy od rodzaju badania, liczebności badanej zbiorowości oraz częstotliwości badania (np. wypełnienie ankiety, czy formularzy spisowych, nadsyłania okresowych sprawozdań itp.).

Opracowanie i prezentacja zebranych wyników.

Pierwszą czynnością jest kontrola zebranych wyników pod względem zupełności materiału (w badaniach pełnych – czy wszystkie jednostki nadesłały odpowiedzi, w badaniach częściowych – czy liczba uzyskanych informacji jest dostatecznie duża, aby móc przeprowadzić wnioskowanie statystyczne), pod względem zupełności zapisów (czy na każdym formularzu uzyskano odpowiedzi na wszystkie pytania) oraz logiczności zapisów.

Grupowanie (porządkowanie) indywidualnych informacji polega na podziale ogółu jednostek na podzbiory według poziomu określonej cechy. Pozwoli to na wykrycie prawidłowości tkwiących w badanym zjawisku. Rozróżnia się dwa sposoby grupowania: mechaniczne i typologiczne. Pierwsze polega na tworzeniu podzbiorów w oparciu o ogólnie przyjęte podstawy podziału; przy grupowaniu typologicznym wydzielone podzbiory tworzą określony typ jednostek (np. przy grupowaniu według wieku wydzielamy grupy ludności w wieku: przedprodukcyjnym, produkcyjnym, poprodukcyjnym).

W wyniku grupowania otrzymujemy szeregi statystyczne szczegółowe, lub rozdzielcze: punktowe lub przedziałowe (przedział klasowy zawiera wtedy więcej, niż jeden wariant badanej cechy). Zastosowane metody budowy szeregów zależą przede wszystkim od celu badania oraz od charakteru danych.

Prezentacja otrzymanych szeregów w postaci tablic lub wykresów. Przy budowie i publikacji tablic prostych (jedna zbiorowość pogrupowana według jednej cechy), złożonych (różne zbiorowości pogrupowane według tej samej cechy), czy kombinacyjnych (jedna zbiorowość pogrupowana według więcej, niż jednej cechy) trzeba zwrócić uwagę na właściwy tytuł tablicy, stosowane jednostki pomiaru i podanie źródła informacji. Prezentacja graficzna (wykresy) służy

Page 6: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

6

przede wszystkim celom publikacyjnym – ułatwia porównania oraz zaobserwowanie prawidłowości charakteryzujących badaną zbiorowość. Dostępne programy komputerowe standardowo już oferują wiele różnorodnych typów wykresów.

Analiza wyników obserwacji

Analiza materiałów statystycznych może być przeprowadzona z różnych punktów widzenia, przede wszystkim w zależności od celu badania. Przy badaniu całkowitym otrzymujemy opis statystyczny, natomiast badanie częściowe przeprowadzone metodą reprezentacyjną daje materiał liczbowy dla wnioskowania o całej zbiorowości (populacji generalnej) na podstawie wyników uzyskanych z losowo dobranej próby. Najczęściej analiza idzie w kierunku badania:

• struktury zbiorowości,

• zależności tkwiących w zbiorowości,

• tendencji rozwojowej zjawiska.

Dobór odpowiedniej metody badania zbiorowości statystycznej zależy od wielu czynników, wśród których wymienić należy (Starzyńska, Michalski, 1996, s. 14):

− cel badania; − rodzaj zbiorowości statystycznej; − tematyka badania; − stopień szczegółowości badania.

Powyższe czynniki określa się mianem czynników statystycznych. Równie ważne wydają się także czynniki pozastatystyczne, takie jak:

− ograniczoność środków na badania; − ograniczona liczba członków zespołu przeprowadzającego badanie; − limit czasu przeznaczonego na przeprowadzenie badania.

Głównym kryterium podziału metod badań statystycznych, które wynika z wymienionych wyżej czynników jest liczba elementów zbadanej zbiorowości statystycznej, które zostaną poddane bezpośredniej obserwacji statystycznej. Według tego kryterium dokonuje się podziału badań statystycznych na badania pełne i badania częściowe. W badaniu pełnym (kompletnym, generalnym, całkowitym, wyczerpującym) każda jednostka tworząca zbiorowość statystyczną jest poddana obserwacji statystycznej. Wnioski uzyskane na podstawie prawidłowo przeprowadzonego (!) badania pełnego są zawsze najbardziej dokładne i kompletne. Rodzaje badań pełnych zostały omówione m.in. w podręczniku Starzyńskiej i Michalskiego (1996, s. 15-17).

W praktyce badań statystycznych badania o charakterze pełnym stanowią niewielki odsetek prowadzonych badań. Zdecydowanie częściej prowadzi się badania częściowe (niekompletne, niepełne, niecałkowite), w których bezpośredniej obserwacji statystycznej poddaje się tylko część jednostek zbiorowości statystycznej, który określa się mianem próby statystycznej. Często jednak prowadzący badanie statystyczne chciałby, aby wyniki uzyskane na podstawie badania częściowego można było uogólnić na całą populację generalną. Jest to oczywiście możliwe, pod warunkiem jednak, iż próba objęta badaniem ma charakter próby reprezentatywnej, czyli takiej, która dobrze reprezentuje badaną populację. Próbę uznaje się za reprezentatywną jeśli jest odpowiednio liczna, a jednostki dobrano do próby w sposób losowy. Poniżej przedstawiono różne metody losowego doboru próby.

Page 7: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

7

Przed przystąpieniem do losowania z reguły sporządzamy tzw. operat losowania, czyli spis wszystkich jednostek tworzących zbiorowość generalną (np. kartoteka ogółu pracowników, wykaz budynków mieszkalnych itp.).

Dobór elementów do próby może się odbywać przy pomocy różnych schematów. Do najważniejszych należy podział na: losowanie niezależne (ze zwrotem) i zależne (bez zwrotu).

W pierwszym przypadku wylosowany element wraca do zbiorowości generalnej (np. do urny czy kartoteki), struktura tej zbiorowości nie ulega zmianie, a więc prawdopodobieństwo wylosowania jednostki o danym wariancie pozostaje stałe. Wynik następnego losowania nie jest zależny od wyniku przeprowadzonych losowań.

W drugim przypadku nie zwracamy wylosowanego elementu, wynik każdego następnego losowania zależy od poprzednich wyników. Słuszne jest więc stosowanie niezależnego schematu; warto jednak dodać, że przy bardzo licznej zbiorowości zależność ta jest niewielka. Stosując niezależny schemat losowania otrzymujemy tzw. próbę prostą.

Według innego kryterium podziału schematów, stosujemy losowanie indywidualne i zespołowe. W pierwszym przypadku losujemy oddzielnie poszczególne elementy (np. z kartoteki - kartę poszczególnego pracownika), a w drugim – pewne naturalne zespoły elementów (np. wszystkie gospodarstwa domowe w wylosowanych posesjach).

Ważny jest też podział schematów losowania na nieograniczone i warstwowe. Przy nieograniczonym losujemy elementy bezpośrednio z całej próby, przy warstwowym natomiast – zbiorowość dzielimy najpierw na podzbiory (warstwy) bardziej jednorodne z określonego punktu widzenia (np. ludność miast i wsi, pracownicy różnych gałęzi itp.) i losujemy oddzielnie z każdej warstwy. W zależności od celu badania – wyniki analizujemy oddzielnie dla każdej warstwy lub łącznie dla całej próby; w tym drugim przypadku struktura liczebna podzbiorów w próbie powinna być proporcjonalna do struktury całej zbiorowości.

W niektórych przypadkach stosowany jest tzw. wielostopniowy schemat losowania (np. losowanie trójstopniowe). Na podstawie operatu losowania wybieramy elementy do próby pierwszego stopnia (np. budynki mieszkalne w danej zbiorowości), spośród nich losowo jednostki drugiego stopnia (np. lokale w wylosowanych budynkach) i wreszcie jednostki do próby właściwej (np. osoby w wylosowanych lokalach). Sposób ten może zwiększyć reprezentatywność próbki.

W pewnych przypadkach, zwłaszcza, gdy nie mamy możliwości sporządzenia operatu losowania, stosujemy tzw. losowanie systematyczne. Zadajemy np. (przy badaniu opinii) to samo pytanie co dwudziestej (dziesiątej, piątej itp.) osobie wychodzącej z lokalu wyborczego, robiącej zakupy w danym sklepie itp.

W konkretnych przypadkach zwykle stosujemy kombinację różnych schematów losowania (np. losowanie niezależne może być warstwowe lub indywidualne, wielostopniowe może być zależne lub niezależne itp.).

Bez względu na zastosowany schemat losowania, musimy się liczyć z możliwością popełnienia błędu przy uogólnianiu wyników z próby na całą zbiorowość. Przy badaniu częściowym zawsze taka możliwość istnieje. Wyróżniamy tu dwa rodzaje błędów: przypadkowe (losowe) i systematyczne (wynikające np. ze świadomego wyboru pewnej grupy jednostek). Błędy losowe maleją wraz ze wzrostem liczebności wybranego do obserwacji podzbioru elementów, natomiast systematyczne – nie maleją. Zastosowanie losowego doboru jednostek pozwala na uniknięcie błędów systematycznych, musimy się jednak liczyć z możliwością wystąpienia błędów losowych.

Page 8: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

8

Wyniki otrzymane na podstawie badania próby reprezentatywnej są podstawą do wnioskowania o całej populacji generalnej. W procesie wnioskowania statystycznego stosuje się jednak reguły rachunku prawdopodobieństwa i statystyki matematycznej. Z tego też powodu w dalszej części modułu omówione zostaną podstawowe pojęcia z zakresu rachunku prawdopodobieństwa, które są niezbędne do zrozumienia treści zawartych w dalszej części kursu.

1.3. Prawdopodobieństwo – ilościowa miara niepewności

W potocznym języku bardzo często używa się sformułowania, że coś jest mało prawdopodobne, lub bardzo prawdopodobne, lub pewne albo niemożliwe. Intuicyjnie pojęcie, że coś jest mało prawdopodobne rozumiemy, iż ma małe szanse na zajście; jeśli jest bardziej prawdopodobne, to ma większe szanse zajścia, jeśli coś jest niemożliwe, tzn. że nie ma szans, aby się wydarzyło. Można więc stwierdzić, iż prawdopodobieństwo to pewna ilościowa (liczbowa) miara niepewności, czyli liczba która wyraża przekonanie o tym, że zajdzie pewne niepewne zdarzenie. Teoria prawdopodobieństwa jest więc niezbędnym narzędziem analizy sytuacji, w których pojawia się element niepewności. Jest ona także podstawą do wnioskowania o populacji generalnej na podstawie wyników próby losowej, a także podstawą dociekań, gdy niezbędne jest ilościowe oszacowanie szans zajścia określonych zdarzeń w takich dziedzinach jak: kontrola jakości, analiza decyzji kierowniczych, etc. (Aczel, 2000, s. 65).

Podstawowymi pojęciami w teorii prawdopodobieństwa są pojęcia doświadczenia losowego, zdarzenia elementarnego oraz zdarzenia losowego. Mianem doświadczenia losowego określa się każdą czynność, której wyniku nie można dokładnie przewidzieć w momencie jej wykonywania. Doświadczeniem losowym (znanym z kursu rachunku prawdopodobieństwa prowadzonego w szkole średniej) jest rzut monetą, kostką, losowanie kul z urny zawierającej kule o różnych kolorach. W odniesieniu do badań statystycznych doświadczeniem losowym jest każdy losowy dobór jednostek do próby. Najprostszy wynik doświadczenia losowego określa się mianem zdarzenia elementarnego. Zbiór wszystkich zdarzeń elementarnych zachodzących w danym doświadczeniu losowym określa się mianem przestrzeni zdarzeń elementarnych i w teorii prawdopodobieństwa określa symbolem Ω. Każdy podzbiór przestrzeni zdarzeń elementarnych jest zdarzeniem losowym. Jeżeli A=Ø (tzn. zdarzeniu A nie sprzyja żadne zdarzenie elementarne – zbiór zdarzeń sprzyjających jest pusty) to A nazywamy zdarzeniem niemożliwym , jeżeli A=Ω (tzn. zdarzeniu A sprzyjają wszystkie zdarzenia elementarne), to A nazywamy zdarzeniem pewnym.

Na zdarzeniach losowych możemy wykonywać takie same działania, jak na zbiorach, tzn. możemy określić sumę zdarzeń: A∪ B, iloczyn zdarzeń A∩ B i różnicę zdarzeń A\B.

O zdarzeniach A i B, których iloczyn jest zdarzeniem niemożliwym mówimy, że wykluczają się (są rozłączne). Dla zdarzenia A określamy zdarzenie do niego przeciwne ( Ω=′A \A). Jest to zdarzenie, które zachodzi wtedy, gdy nie zachodzi zdarzenie A.

Dla zdarzeń losowych chcemy badać szansę ich zajścia. Miarą tej szansy jest prawdopodobieństwo. Prawdopodobieństwo jest ilościową miarą niepewności; jest to liczba, która wyraża siłę przekonania o tym, że zajdzie niepewne zdarzenie.

Sposób obliczania prawdopodobieństwa dla określonego typu przestrzeni zdarzeń elementarnych podaje np. klasyczna definicja prawdopodobieństwa.

Page 9: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

9

Klasyczna definicja prawdopodobieństwa:

Jeżeli Ω jest zbiorem skończonym i wszystkie zdarzenia elementarne są jednakowo możliwe, to prawdopodobieństwo dowolnego zdarzenia losowego A zawartego w Ω określa wzór:

n

kAP =)( (1.1)

gdzie:

k – liczba zdarzeń elementarnych sprzyjających A,

n – liczba wszystkich zdarzeń elementarnych.

Skoro k ≤ n, więc dla dowolnego zdarzenia A mamy 0 ≤ P(A) ≤ 1.

Łatwo zauważyć, że prawdopodobieństwo zdarzenia niemożliwego jest równe 0, tzn. P(Ø)=0 oraz, że dla zdarzenia przeciwnego A′ mamy: )(1)'( APAP −= .

Przykład 1.1

W pewnej firmie pracuje 15 osób: dyrekcja – 2 osoby, sekretariat – 2 osoby, informatycy – 3 osoby, pracownicy techniczni – 5 osób, marketing – 1 osoba, pracownicy pomocniczy – 2 osoby. Wybieramy losowo spośród pracowników tej firmy jedną osobę. Jakie jest prawdopodobieństwo, że wylosowany zostanie informatyk (zdarzenie A)?

Zdarzeniami elementarnymi będą wybory poszczególnych osób. Przestrzeń zdarzeń elementarnych składa się więc z 15 elementów. Wybieramy osoby w sposób losowy, czyli wybór każdej z nich jest jednakowo możliwy. Zdarzenie elementarne sprzyjające zdarzeniu A to wybór jednego z informatyków, a takich wyborów jest tyle, ilu informatyków pracuje w firmie, tzn. trzech. Zgodnie z klasyczną definicją prawdopodobieństwa:

2,05

1

15

3)( ===AP

Prawdopodobieństwo warunkowe (względne)

Jak wspomniano wcześniej prawdopodobieństwo jest liczbową miarą niepewności, jego wartość zależy więc od posiadanej informacji. Przykładowo, oszacowanie prawdopodobieństwa tego, iż następnego dnia akcje spółki „X” pójdą w górę zależy m.in. od tego, jakie informacje posiadamy na temat kondycji spółki „X”. Można więc stwierdzić, iż prawdopodobieństwo zajścia określonego zdarzenia uwarunkowane jest posiadaniem dodatkowych informacji. Mówimy zatem o prawdopodobieństwie zajścia zdarzenia A pod warunkiem zajścia zdarzenia B. Prawdopodobieństwo to nazywamy prawdopodobieństwem warunkowym i określamy je symbolem )|( BAP . Obliczam je jako:

)(

)()|(

BP

BAPBAP

∩= (1.2)

Page 10: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

10

Przykład 1.2.

Urzędnik bankowy wie, że 12% kredytobiorców hipotecznych traci pracę i przestaje spłacać pożyczkę w ciągu 5 lat. Wie także, że 20% kredytobiorców hipotecznych traci pracę w ciągu 5 lat. Jakie jest prawdopodobieństwo tego, iż kredytobiorca przestanie spłacać pożyczkę, jeśli wiadomo, że stracił on pracę?

Niech zdarzenia A oznacza, że kredytobiorca przestanie spłacać pożyczkę w ciągu 5 lat, zaś B – zdarzenie, że kredytobiorca straci pracę. Zdarzenie, że kredytobiorca traci pracę i przestaje spłacać pożyczkę w ciągu 5 lat jest zdarzeniem BA ∩ , stąd 12,0)( =∩ BAP . Jednocześnie wiadomo, że 20,0)( =BP . Należy oszacować, jakie jest prawdopodobieństwo, że kredytobiorca przestanie spłacać, pod warunkiem (jeśli) stracił pracę, czyli )|( BAP . NA podstawie wzoru (1.2) prawdopodobieństwo to jest równe:

6,020,0

12,0)|( ==BAP

Zatem urzędnik może stwierdzić, że z prawdopodobieństwem 60% kredytobiorca, który stracił pracę przestanie spłacać pożyczkę.

W rachunku prawdopodobieństwa istotną rolę odgrywa pojęcie niezależności zdarzeń. Zdarzenia A i B nazywamy niezależnymi, gdy spełniony jest warunek:

)()()( BPAPBAP ⋅=∩ (1.3)

Warunek ten oznacza, że zajście jednego ze zdarzeń nie ma wpływu na prawdopodobieństwo zajścia drugiego z nich.

UWAGA: Jeśli w badaniu statystycznym próba została pobrana losowo w sposób niezależny lub gdy pobieramy próbę losową z wielkiej populacji, TO WYNIKI LOSOWAŃ SĄ OD SIEBIE NIEZALEŻNE.

1.4. Zmienna losowa i jej rozkład

Wyobraźmy sobie sytuację, w której przeprowadzając jakieś doświadczenie losowe otrzymanym zdarzeniom elementarnym przyporządkujemy pewną określoną wartość liczbową. Przykładowo, rzucając dwiema monetami o różnych nominałach (monety rozróżnialne) każdemu zdarzeniu elementarnemu przyporządkujemy liczbę wyrzuconych reszek, co można zapisać jako:

Otrzymujemy wówczas pewien ciąg wartości, które różnią się miedzy sobą (są zmienne) w zależności od wyniku doświadczenia losowego, Można więc powiedzieć, że wartości te są wyznaczone przez los. Tak powstałą zmienną określa się mianem zmiennej losowej. Cytując A. Aczela (2000, s. 111) można więc powiedzieć, że „zmienną losową jest zmienna, która przyjmuje ró żne wartości liczbowe wyznaczone przez los” 1.

1 Z formalnego punktu widzenia zmienna losowa jest funkcją X, która zdarzeniom elementarnym

Ω∈ω przyporządkowuje liczby rzeczywiste ∈)(ωX R, czyli jest funkcją X: Ω → R.

Page 11: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

11

Podobnie można mówić o zmiennej losowej gdy dobieramy w sposób losowy próbę statystyczną. Wyobraźmy sobie, że z populacji gospodarstw domowych w Polsce pobrano w sposób losowy próbę 100 gospodarstw i poddano badaniu statystycznemu ze względu na liczbę dorosłych osób zamieszkujących w tym gospodarstwie domowym. Wówczas każdemu z wylosowanych gospodarstw domowych (zdarzenia elementarne) przyporządkowujemy liczbę osób dorosłych w tym gospodarstwie. Ponieważ wylosowane do próby gospodarstwa domowe różnią się liczbą dorosłych członków gospodarstwa domowego, zatem uzyskamy pewną zmienną (przyjmującą wartości 1, 2, 3, 4, 5, ….). Ponieważ o uzyskanym wyniku decyduje los, zatem tak uzyskaną zmienną można określić mianem zmiennej losowej.

Wyróżnia się dwa rodzaje zmiennych losowych: zmienną losową skokową (dyskretną) oraz zmienną losową ciągłą. Zmienna losowa skokowa to taka, która przyjmuje skończoną przeliczalną liczbę wartości. Zmienna losowa ciągła może przyjmować wszystkie wartości z pewnego przedziału liczbowego. Zmienna losowa jest więc odpowiednikiem używanego w statystyce opisowej pojęcia cechy statystycznej (zmiennej statystycznej). O ile jednak wartościom (wariantom) cechy statystycznej odpowiadają empiryczne liczebności jednostek zbiorowości, o tyle w odniesieniu do zmiennej losowej poszczególnym jej realizacjom odpowiadają określone prawdopodobieństwa. Zmienne losowe określamy za pomocą dużych liter X, Y, Z, T, …..

1.4.1. Zmienna losowa skokowa

Zmienną losową o charakterze skokowym można opisać za pomocą rozkładu prawdopodobieństwa tej zmiennej losowej. Jeśli każdej wartości zmiennej losowej przyporządkujemy prawdopodobieństwo, z jakim ta zmienna losowa przyjęła daną wartość, to mówimy, że określony został rozkład prawdopodobieństwa tej zmiennej losowej. Najczęściej zapisujemy go w formie tabeli (dla zmiennych losowych przyjmujących skończoną liczbę wartości), w której wymienione zostają wartości przyjęte przez zmienną losową ( ) oraz prawdopodobieństwa, z jakimi zmienna losowa przyjmuje daną wartość .

Przykład 1.3. Zmienna losowa X określa liczbę wyrzuconych reszek w rzucie dwiema monetami o różnych nominałach. Rozkład tej zmiennej losowej jest następujący:

0 1 2

0,25 0,5 0,25

Graficznie rozkład ten można przedstawić następująco:

Page 12: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

12

Przykład 1.4. Zmienna losowa X określa liczbę dorosłych osób w gospodarstwie domowym, w próbie 100 losowo wybranych gospodarstw domowych w Polsce (dane umowne):

1 2 3 4 5 6 7

0,25 0,35 0,18 0,1 0,07 0,03 0,02

Graficznie rozkład ten można przedstawić jako:

UWAGA 1:

Rozkład prawdopodobieństwa skokowej zmiennej losowej X spełnia następujące warunki:

1) dla wszystkich wartości zmiennej losowej X oraz

2) suma prawdopodobieństw po wszystkich wartościach zmiennej losowej X jest równa 1.

UWAGA 2:

Skąd w praktyce biorą się prawdopodobieństwa takie jak te rozpatrywane w przykładzie 1.4.? Są to po prostu częstości, z jakimi pojawiła się dana wartość w próbie losowej.

Dystrybuanta zmiennej losowej – skumulowana funkcja rozkładu

Na podstawie rozkładu prawdopodobieństwa zmiennej losowej skokowej możemy określić prawdopodobieństwo przyjęcia przez zmienną losową określonych wartości. Przykładowo, na podstawie danych z przykładu 1.4. stwierdzić, że prawdopodobieństwo, iż w gospodarstwie

Page 13: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

13

domowym są 4 dorosłe osoby jest równe 0,1. Możemy także obliczyć prawdopodobieństwo, że w gospodarstwie domowym są więcej niż 3 dorosłe osoby. Wówczas interesuje nas określenie P(X>3), które obliczamy jako:

Oznacza to, że prawdopodobieństwo, iż w gospodarstwie domowym są więcej niż trzy dorosłe osoby jest równe 0,22. Podobnie określamy prawdopodobieństwo, że liczba dorosłych osób w gospodarstwie domowym nie przekracza 2, czyli P(X≤2):

Szczególne znaczenie przypisuje się skumulowanym prawdopodobieństwom, czyli prawdopodobieństwu, że zmienna losowa X przyjmuje wartości co najwyżej równe . Określa się je mianem dystrybuanty zmiennej losowej X i oznacza symbolem F(). Zatem:

(1.4)

Dla zmiennej losowej typu skokowego dystrybuantę określa się jako:

(1.5)

Graficznie można ją przedstawić następująco (na podstawie rozkładu z przykładu 1.4.)

Dla przykładu 1.4. dystrybuanta analizowanej zmiennej losowej ma postać:

Wartość oczekiwana, wariancja i odchylenie standardowe zmiennej losowej skokowej

W celu syntetycznego opisu zmiennej losowej (zarówno skokowej, jak i ciągłej, o czym będzie mowa w dalszej części modułu) możemy posłużyć się pewnymi charakterystykami liczbowymi. Do najważniejszych zalicza się:

Page 14: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

14

1) wartość oczekiwaną zmiennej losowej – charakterystyka służąca do opisu przeciętnej wartości zmiennej losowej oraz

2) wariancję i otrzymywane na jej podstawie odchylenie standardowe - charakterystyki służące do określenie wielkości rozproszenia wartości zmiennej losowej wokół jej średniego poziomu.

Wartością oczekiwaną zmiennej losowej skokowej nazywamy liczbę określoną jako:

(1.6)

Jest to więc średnia ważona z wartości jakie przyjmuje zmienna losowa skokowa, z wagami określonymi przez prawdopodobieństwa z jaką daną wartość przyjmuje ta zmienna losowa.

Wariancja zmiennej losowej X jest określana jako wartość oczekiwana (lub prościej średnia wartość) kwadratów odchyleń wartości zmiennej losowej od jej wartości oczekiwanej. Oznaczamy ją symbolem lub ( . Dla zmiennej losowej typu skokowego obliczamy ją jako:

(1.7)

Odchylenie standardowe zmiennej losowej oblicza się jako pierwiastek z wariancji:

(1.8)

Odchylenie standardowe określa o ile średnio wartości zmiennej losowej odchylają się od jej wartości oczekiwanej.

Wariancja, a tym samym i odchylenie standardowe jest miarą rozproszenia wartości zmiennej losowej wokół jej średniego poziomu wyznaczonego przez wartość oczekiwaną. Tym samym parametry te dają pewne wyobrażenie o zmienności wartości zmiennej losowej, czyli o niepewności związanej z wartościami zmiennej losowej. Tym bardziej one odbiegają od średniej wartości im większa jest wariancja (czyli także odchylenie standardowe). Przykładowo, odchylenie standardowe stopy przychodu z określonej lokaty kapitału powszechnie jest uznawane jako miara ryzyka związanego z tą lokatą. Gdy porównujemy lokaty o tej samej przeciętnej stopie zwrotu (tej samej wartości oczekiwanej), lokata o wyższym odchyleniu standardowym jest uważana za gorszą, mimo, że wyższe odchylenie standardowe oznacza, że oczekiwane przychody mogą się bardziej odchylać od średniego poziomu, zarówno w górę, jak i w dół.

Przykład 1.5. Dla zmiennej losowej z przykładu 1.4. wyznaczyć wartość oczekiwaną, wariancję i odchylenie standardowe. Wyniki zinterpretować.

Zmienna losowa X opisana w przykładzie 1.4. określa liczbę dorosłych osób w gospodarstwie domowym. Obliczamy jej wartość oczekiwaną korzystając ze wzoru (1.6). Otrzymujemy:

Powyższy wynik oznacza, że średnia liczba dorosłych członków gospodarstw domowych objętych badaniem wynosi około 2,6 osoby (czyli w 10 gospodarstwach domowych mamy średnio rzecz biorąc 26 dorosłych osób).

Wariancja tej zmiennej losowej jest równa:

Page 15: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

15

Wariancja jest wyrażona w kwadratach jednostek, nie interpretujemy więc tej miary. Interpretujemy odchylenie standardowe:

osoby

Oznacza to, że liczba dorosłych członków w badanej grupie gospodarstw domowych różni się od średniej (czyli od 2,56) średnio o 1,46 osoby.

1.4.2. Zmienna losowa ciągła

Większość cech mierzalnych w statystyce ma charakter cech ciągłych lub quasi ciągłych2. W wyniku losowania próby, którą badamy ze względu na cechy ciągłe otrzymujemy zmienną losową, która może przyjmować dowolne wartości z pewnego przedziału liczbowego. Wyobraźmy sobie sytuację, w której z populacji gospodarstw domowych pobrano w sposób losowy 100 elementową próbę, którą poddano badaniu ze względu na przeciętne miesięczne wydatki na żywność w przeliczeniu na członka rodziny. Otrzymane wyniki zostały pogrupowane w formie szeregu rozdzielczego z przedziałami klasowymi i przedstawione graficznie za pomocą histogramu (patrz przykład 1.6).

Przykład 1.6. Rozkład gospodarstw domowych (n=100) ze względu na wysokość przeciętnych miesięcznych wydatków na żywność w przeliczeniu na członka rodziny (w zł/osobę, dane umowne).

Podstawa każdego „słupka” powyższego histogramu wyznacza granice przedziału, zaś jego wysokość określa częstość występowania danego wariantu cechy (ujętego w formie określonego

2 Mianem cech quasi ciągłych określa się cechy mające charakter skokowe o bardzo dużej liczbie wariantów cechy.

Page 16: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

16

przedziału). Zauważmy, że suma tych częstości jest równa 100% (lub w przeliczeniu na liczbę = 1).

Załóżmy teraz, że każdy z przedziałów został skrócony o połowę. Wówczas należy wziąć po uwagę większą liczbę przedziałów klasowych, tak aby przedstawić rozkład wartości badanej cechy.

Takie postępowanie można kontynuować dalej, zmniejszając rozpiętości przedziałów klasowych, zwiększając tym samym ich liczbę, choć oczywiście dalej wysokość „słupka” oznacza prawdopodobieństwo przyjęcia przez zmienną losową określonej wartości, a suma wysokości wszystkich prostokątów jest równa 100% (lub jeśli częstości są przedstawione w postaci liczby, a nie procentu, to suma ta jest równa 1). Wraz ze wzrostem dokładności pomiaru schodkowa powierzchnia utworzona przez wierzchołki prostokątów w histogramie staje się pewną gładką krzywą, która jest wykresem pewnej funkcji. W naszym przykładzie funkcja ta ma kształt „kapelusza” Funkcję tą określa się mianem funkcji g ęstości prawdopodobieństwa (lub po prostu funkcją gęstości) pewnej ciągłej zmiennej losowej X. Miarami prawdopodobieństwa są nadal pola powierzchni pod wykresem funkcji gęstości. Oczywiste jest więc, że pole to jest równe 1.

Reasumując, ciągła zmienna losowa to taka zmienna, która może przyjmować dowolne wartości z pewnego przedziału liczbowego. Prawdopodobieństwa związane z ciągła zmienną losową X są wyznaczane przez funkcję gęstości prawdopodobieństwa tej zmiennej losowej. Funkcja ta ma następujące własności:

1) jej wykres jest położony nad osią ox, lub co najwyżej do niej styczny (czyli dla wszystkich wartości );

Page 17: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

17

2) prawdopodobieństwo, że zmienna losowa X przyjmie dowolną wartość z przedziału jest równe wartości pola pod wykresem funkcji gęstości położonego między punktami a i b;

3) całe pole pod wykresem funkcji gęstości jest równe 1.

Dystrybuantę zmiennej losowej ciągłej definiujemy analogicznie do zmiennej losowej skokowej (por. wzór 1.4). Dystrybuanta zmiennej losowej X w punkcie oznacza prawdopodobieństwo przyjęcia przez zmienną losową wartości co najwyżej równej . Wartość dystrybuanty jest miarą pola zawartego pod wykresem funkcji gęstości w przedziale .

UWAGA! Dla zmiennej losowej typu ciągłego prawdopodobieństwo, że zmienna losowa przyjmie konkretną wartość jest równe zero ( .

Wśród wszystkich rozkładów ciągłych (a jest ich nieskończenie wiele, gdyż z matematycznego punktu widzenia istnieje nieskończenie wiele funkcji matematycznych spełniających własności funkcji gęstości) istnieje jeden, który ma szczególne znacznie w statystyce. Jest to rozkład normalny, zwany także rozkładem Gaussa3. Kształt krzywej normalnej jest podobny do kapelusza, stąd często nazywana jest krzywą „kapeluszową” .

Nie będziemy przytaczać tu matematycznego równania krzywej normalnej, Czytelnik może je znaleźć w każdym podręczniku statystyki, w którym prowadzone są rozważania na temat zmiennej losowej. Niemniej jednak interesujące są własności krzywej normalnej , wśród których wymienić należy:

1) symetryczność krzywej normalnej (lewa połowa krzywej normalnej jest lustrzanym odbiciem jej prawej połowy);

2) rozkład jest jednomodalny, czyli posiada jedno maksimum, które zlokalizowane jest na środku rozkładu. Punkt ten odpowiada wartości oczekiwanej tej zmiennej losowej ( );

3) punkty przegięcia rozkładu są oddalone od wartości średniej (oczekiwanej m) o wartość równą odchyleniu standardowemu tej zmiennej losowej σ.

3 Od nazwiska niemieckiego matematyka, któremu przypisywano odkrycie tego rozkładu. Jednak prawdziwym jego odkrywca był francuski matematyk Abraham de Moivre, który odkrył ten typ rozkładu sto lat wcześniej. Krzywa normalna opisywała „prawo normalności błędów”.

Funkcja gęstości pewnego rozkładu ciągłego

x

F(x)=P(X≤x)

Page 18: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

18

Poniżej przedstawione są wykresy zmiennej losowej o rozkładzie normalnym o wartościach m i różnych wartościach odchylenia standardowego σ4.

Źródło: http://upload.wikimedia.org/wikipedia/commons/7/74/Normal_Distribution_PDF.svg

UWAGA!

Jeśli zmienna losowa ma rozkład normalny z wartością oczekiwaną równą m i odchyleniem standardowym równym σσσσ, to oznaczamy ją symbolem .

Dlaczego rozkład normalny jest tak ważny dla statystyków? Otóż badania statystyczne opierają się głównie na badaniu prób losowo pobranych z populacji generalnej. Na podstawie fundamentalnego twierdzenia statystyki matematycznej, zwanego centralnym twierdzeniem granicznym rozkłady wielu wielkości obserwowanych w próbie (np. średniej z próby) zmierzają do rozkładu normalnego wraz ze wzrostem liczebności próby (Aczel, 2000, s. 156).

Jak wynika z powyższego rozkład normalny jest scharakteryzowany przez dwa parametry: wartość oczekiwaną m oraz odchylenie standardowe σ. Wartość oczekiwana może być dowolną liczbą rzeczywistą, odchylenie standardowe – dowolną liczbą rzeczywistą dodatnią. Z formalnego punktu widzenia istnieje nieskończenie wiele rozkładów normalnych. Jednak jeden z nich ma szczególne znaczenie, uznawany jest bowiem jako pewien standard, za pomocą którego można opisać każdy rozkład normalny o dowolnych parametrach. Jest to rozkład, w którym wartość oczekiwana jest równa 0 (m=0), zaś odchylenie standardowe jest równe 1 ( . Jest to tzw. Rozkład normalny zestandaryzowany. Oznaczamy go jako .

Dla rozkładu normalnego wartości dystrybuanty są stablicowane, Czytelnik może je znaleźć w załączniku 3 do niniejszego kursu.

4 Na poniższym rysunku µ oznacza wartość oczekiwaną zmiennej losowej (µ=m).

Page 19: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

19

Przykład 1.7. Korzystając z tablic dystrybuanty rozkładu normalnego zestandaryzowanego wyznaczyć:

a) P(U ; b) P(U>1,63); c) P(1<U<3); d) P( ).

a) ;

b) ;

c) ;

d) ;

Najważniejsze własności dystrybuanty rozkładu normalnego:

a) ;

b) ;

c) ;

Standaryzacja rozkładu zmiennej losowej o dowolnym rozkładzie normalnym

Dostępne tablicy dystrybuanty rozkładu normalnego dotyczą tylko rozkładu zestandaryzowanego. Mając dowolny inny rozkład normalny ( ) można go poprzez proste przekształcenia doprowadzić do rozkładu normalnego zestandaryzowanego. Procedurę tą nazywa się standaryzacją rozkładu.

Jeśli zmienna losowa , to zmienna losowa:

(1.9)

jest zmienną losową o rozkładzie normalnym zestandaryzowanym. Przekształcenie opisane wzorem (1.9) nazywamy standaryzacją rozkładu.

Przykład 1.8.

Zbadano, że popularność pewnego czasopisma mierzona ilością sprzedanych egzemplarzy ma rozkład normalny o średniej równej 35 tys. egzemplarzy i odchyleniu wynoszącym 10 tys. egzemplarzy. Wyznaczyć prawdopodobieństwo tego, że w ciągu miesiąca sprzedanych zostanie:

a) poniżej 30 tys. egzemplarzy;

b) powyżej 50 tys. egzemplarzy;

c) miedzy 35 a 40 tys. egzemplarzy. X~N(m, σ) gdzie m=35, σ=10 ( tys. egz.) czyli otrzymujemy rozkład N(35,10).

Zmienna standaryzowana U =10

35−=− XmX

σ, U~N(0,1)

X < 30 ⇒ 5,010

3530

10

35−=

−<

−X

a) 309,0)(691,01)5,0(1)5,0()5,0()30( =−≈−=−=−<=< tabliceFFUPXP

Page 20: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

20

b) P(X > 50) = P(U >1,5 ) = 1 - P(U ≤ 1,5) = 1 - F(1,5) ≈ 1 – 0,933 = 0,067

c) 191,05,0691,0)0()5,0()5,00(10

3540

10

3535)4035( =−≈−=<<=

−<<

−=<<

FFUPUPXP

Przykład 1.9. Grubość lodu na jeziorze jest zmienna losową o rozkładzie normalnym z następującymi parametrami: wartością oczekiwaną równą 50 cm i odchyleniu 10 cm. Obliczyć prawdopodobieństwo tego, że grubość lodu:

a) będzie większa niż 45 cm;

b) będzie mniejsza niż 35 cm;

c) będzie mniejsza niż 32 lub większa niż 52 cm. X~ N(50,10) a)

6915.0)5,0(

)]5,0(1[1)5,0(1)5,0(1)5,0()10

5045()45(

==

=−−=−−=−≤−=−>=−

>=>

F

FFUPUPUPXP

b) P(X < 35 ) = P(U < - 1,5) = F(-1,5) = 1 - F(1,5) = 1 - 0,9332 = 0,0668

c)

4567,05793,09641,02)2,0()8,1(2

)2,0(1)8,1(1)2,0(1)8,1()2,0(1)8,1()2,0(

)8,1()10

5052()

10

5032()52()32()5235(

=−−=−−=

=−+−=−+−=≤−+−=>+

+−<=−

>+−

<=>+<=>∨<

FF

FFFFUPFUP

UPUPUPXPXPXXP

Omówimy teraz dwa rozkłady, które są związane z rozkładem normalnym, a mianowicie rozkład chi–kwadrat oraz rozkład Studenta. W określeniu każdego z tych rozkładów pojawia się pojęcie „stopień swobody”, które jest kluczem do zrozumienia wielu ważnych rozkładów używanych przez statystyków. Przykład 1.10. Rozpatrzmy możliwe wyniki obserwacji czterech zmiennych: X1, X2, X3, X4. Niech ich wartościami w próbie będą: x1 = 10, x2 = 12, x3 = 16, x 4 = 18. Średnią w próbie jest:

144

4321 =+++

=xxxx

x

Ilu wynikom obserwacji, spośród czterech możliwych, można swobodnie przypisać dowolne wartości, jeżeli ich średnia jest znana? Załóżmy, że nie jest znana wartość zmiennej X4 w próbie. Zatem:

144

161210 4 =+++ x

Stąd mamy x4 = 18. W rozważanym przykładzie mamy 3 stopnie swobody. Czwarty możliwy wynik obserwacji „ nie może się swobodnie poruszać”. Wnioskujemy więc, że gdy mamy n możliwych wyników obserwacji i znamy ich średnią, to średnia działa jako pewnego rodzaju ograniczenie na wynik obserwacji, pozostawiając nam n–1 stopni swobody.

Page 21: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

21

Liczba stopni swobody jest równa liczbie wszystkich pomiarów pomniejszonej o liczbę wszystkich ograniczeń narzuconych na te pomiary. Ograniczeniem jest każda wielkość, która zostaje obliczona na podstawie tych samych pomiarów.

Przypuśćmy na przykład, że dwie niezależne próby o znanych średnich zostały połączone. Jeżeli próba pierwsza składa się z n1, a próba druga z n2 wyników obserwacji, to liczba stopni swobody związana z odchyleniem od dwóch średnich jest równa liczbie wszystkich wyników obserwacji pomniejszonej o liczbę wszystkich ograniczeń, czyli n1+n2 – 2.

Powyższy przykład pokazuje, że stopnie związane z niezależnymi próbami są addytywne. Liczba stopni swobody związanych z pierwszą próbą jest n1 – 1, z drugą próbą n2 – 1, a z połączoną próbą (n1 -1) + (n2 – 1) = n1+n2 – 2.

Rozkład chi–kwadrat

Rozkładem chi–kwadrat ( 2kχ ) nazywamy rozkład następującej sumy:

222

21 ..... kXXX +++ (1.10)

gdzie kXXX ,....,, 21 są niezależnymi zmiennymi losowymi o tym samym rozkładzie N(0,1).

Liczba k niezależnych składników zmiennej losowej 2kχ jest liczbą stopni swobody (wartość ta

nie ma ograniczeń).

Zmienna losowa o rozkładzie chi–kwadrat przyjmuje wartości dodatnie a jej rozkład zależy od liczby stopni swobody. Dla małych k jest to rozkład silnie asymetryczny, w miarę wzrostu k staje się coraz bardziej symetryczny i podobny do rozkładu normalnego.

Wartość oczekiwana i wariancja zmiennej losowej o rozkładzie 2kχ są następujące:

E( 2kχ ) = k, D2( 2

kχ ) = 2k

Dla rozkładu 2

kχ sporządzono tablice, w których dla określonej liczby stopni swobody k oraz

ustalonej wartości prawdopodobieństwa α można odczytać wartość 2

αχ dla której spełniony jest warunek:

P( 2kχ ≥ 2

αχ ) = α (1.11)

Podkreślamy, że tablice nie zawierają wartości dystrybuanty rozkładu 2kχ . Na ogół tablice chi–

kwadrat są budowane dla k < 30.

Jeżeli rozpatrujemy zmienną o rozkładzie 2kχ o dużej liczbie stopni swobody, możemy jej

rozkład przybliżać za pomocą rozkładu normalnego N(k, k2 ) – przyjmuje się, że już od k = 30 przybliżenie takie jest zupełnie dobre.

Przykład 1.11. Zmienna losowa X ma rozkład chi–kwadrat z pięcioma stopniami swobody

( 25χ ). Obliczyć prawdopodobieństwa: P(X > 1,145), P(X ≤ 7,289).

W pierwszym przypadku interesujące nas prawdopodobieństwo α odczytujemy bezpośrednio z tablic. W wierszu o numerze równym 5 (k = 5)znajdujemy liczbę 1,145. Liczba ta znajduje się w kolumnie, dla której α = 0,95. Tak więc:

Page 22: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

22

P(X > 1,145) = P(2

5χ > 1,145) = 0,95

Aby odczytać interesujące nas prawdopodobieństwo w drugim przypadku musimy je przedstawić następująco:

P(X ≤ 7,289) = 1 – P(X > 7,289) = 1 – P(2

kχ > 7,289) = (tablice) = 1 – 0,20 = 0,80

Rozkład Studenta Rozkładem Studenta z k stopniami swobody nazywamy rozkład zmiennej losowej Tk określonej następująco:

kT

Tk

k 2χ= (1.12)

gdzie: T i 2kχ są to niezależne zmienne losowe, T ma rozkład N(0,1), natomiast 2

kχ ma rozkład

chi–kwadrat o k stopniach swobody.

Dla rozkładu Studenta mamy:

E(T k) = 0 (k > 1), D2(Tk) = 2−k

k (k > 2)

Rozkład Studenta jest symetryczny względem prostej x = 0, jego kształt jest bardzo zbliżony do kształtu rozkładu normalnego (jest nieco bardziej spłaszczony).

Już przy dziesięciu stopniach swobody funkcja gęstości rozkładu Studenta jest prawie identyczna z funkcją gęstości rozkładu normalnego standaryzowanego. Zwyczajowo przyjmuje się, że gdy liczba stopni swobody wynosi 30 lub więcej można traktować rozkład Studenta jako identyczny z normalnym. W badaniach przeprowadzanych na małych próbach (np. badaniach eksperymentalnych) uwzględnienie różnicy między rozkładem normalnym a rozkładem Studenta jest jednak konieczne.

Rozkład Studenta jako pierwszy badał na początku XX wieku William S. Gosset, chemik i matematyk odpowiedzialny za badanie jakości oraz dobór surowców do warzenia piwa w sławnych browarach Guinnessa. Zarząd Guinnessa zabronił pracownikom publikowania jakichkolwiek prac. Gosset publikował więc pod pseudonimem Student.

Dla rozkładu Studenta opracowano stosowne tablice. W tablicach tych dla ustalonej liczby stopni swobody oraz ustalonego prawdopodobieństwa α można odczytać wartość tα spełniającą warunek:

P(|Tk| > tα) = α. (1.13) Tablice rozkładu Studenta budowane są na ogół dla k ≤ 30. Jeżeli liczba stopni swobody jest większa od 30, wówczas korzystamy z rozkładu N(0,1).

Przykład 1.12. Zmienna losowa X ma rozkład Studenta o 15 stopniach swobody. Obliczyć:

a) P(|X| > 0,866)

b) P(X > 1,34)

c) P(|X| ≤ 0,691)

Page 23: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

23

Uwaga: Nie możemy obliczyć podanych prawdopodobieństw za pomocą dystrybuanty rozkładu Studenta, bo tablice nie podają jej wartości.

a) P(|X| > 0,866) = P(|T15| > 0,866) odczytujemy bezpośrednio z tablic rozkładu Studenta. W

wierszu k = 15 znajdujemy liczbę 0,866245 (jest to wartość tα). Wartość ta znajduje się w kolumnie dla której α = 0,4. Tak więc:

P(|T15| > 0,866) = 0,4 b) Podane prawdopodobieństwo nie może być odczytane bezpośrednio z tablic. Wobec

symetrii ( względem x = 0) funkcji gęstości rozkładu Studenta mamy:

P(|X| > 1,34) = P(X < -1,34 ∨ X > 1,34) (zdarzenia rozłączne ) = = P(X < -1,34) + P(X >1,34) = 2P(X > 1,34)

Zatem: P(X > 1,34) = 0,5P(|T15| > 1,34) = 0,5 0,2 (tablice ) = 0,1.

c) P(|X| ≤ 0,691) = P(|T15| ≤ 0,691) = 1 - P(|T15| > 0,691 ) = 1 - 0,5 (tablice) = 0,5

Page 24: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

24

Moduł 2 Wybrane elementy teorii podejmowania decyzji

2.1. Wprowadzenie

Podejmowanie decyzji jest procesem, z którym spotykamy się niemal codziennie we wszystkich sferach życia zawodowego i prywatnego. Większość decyzji podejmujemy bez większych trudności, bez głębszej analizy problemu. Jednak zdarzają się i takie sytuacje, którym warto poświęcić nieco czasu i wysiłku na określenie w możliwie najbardziej kompleksowy sposób wszystkich możliwych sposobów działania. W obu tych sytuacjach zależy nam zawsze na wyborze optymalnej (najlepszej z punktu widzenia określonego kryterium) decyzji.

Decyzja jest końcowym wynikiem procesu decyzyjnego. Proces podejmowania decyzji jest więc pewną procedurą, według której powinni postępować ludzie (decydenci), aby podjąć najlepszą decyzję z możliwych do podjęcia w danych warunkach.

Co więc należy zrobić, aby nasza decyzja była trafna?

W wielu sytuacjach w procesie podejmowania decyzji może opierać się wyłącznie na naszym doświadczeniu, intuicji i rozsądku. Tak czynimy zresztą w wielu sytuacjach życiowych. Jednak często do problemu można podejść w odmienny, bardziej systematyczny i sformalizowany sposób. Takie sformalizowane podejście nosi nazwę statystycznej analizy decyzyjnej. Dzięki postępowaniu według określonych reguł logiki, możliwości popełnienia błędu lub działania w sposób niekonsekwentny zostają w znacznym stopniu ograniczone, co oczywiście nie oznacza, iż zawsze podejmiemy dobrą decyzję (Karwacki Z., Konarzewska I., 1997, s. 7).

2.2. Rola i wartość informacji w procesie podejmowania decyzji

Jednym z głównych czynników decydujących o wyborze określonych procedur związanych z procesem podejmowania optymalnych decyzji jest liczba informacji, jaką dysponuje decydent oraz znajomość (lub nieznajomość) prawdopodobieństwa wystąpienia poszczególnych wariantów zmiennych, które stosujemy w procesie podejmowania decyzji. Istnieją cztery podstawowe klasy problemów decyzyjnych, a mianowicie (Miszczyński M., Miszczyńska D., 1997, s. 3):

Podejmowanie decyzji w warunkach pewności. Z tą klasą problemów decyzyjnych mamy do czynienia wówczas, gdy każdej decyzji odpowiada tylko jeden możliwy wynik (mówimy wówczas, że proces decyzyjny jest zdeterminowany). Trudność w wyborze optymalnej decyzji wynika z faktu, iż decydent wybiera z olbrzymiej ilości możliwych do podjęcia (dopuszczalnych) decyzji. Wybór optymalnej decyzji jest wówczas wspierany przez odpowiednie metody optymalizacyjne.

Podejmowanie decyzji w warunkach niepewności. Z taką sytuacją mamy do czynienia wówczas, gdy każdej decyzji odpowiada więcej niż jeden wynik (wówczas proces decyzyjny jest procesem stochastycznym). Nie znamy jednak prawdopodobieństwa z jakim dany wynik może wystąpić, a z przeszłości brakuje doświadczeń dla ich oszacowania.

Podejmowanie decyzji w warunkach ryzyka. Z taką sytuacją mamy do czynienia wówczas, gdy każdej decyzji odpowiada więcej niż jeden wynik, ale znamy prawdopodobieństwo z jakim dany wynik może wystąpić.

Podejmowanie decyzji w warunkach częściowej informacji. Jest to najczęściej spotykany rodzaj procesów decyzyjnych. Z tego typu procesem decyzyjnym mamy do czynienia, gdy każdej

Page 25: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

25

decyzji odpowiada więcej niż jeden wynik. Nie znamy prawdopodobieństwa za jakim dany wynik może wystąpić, ale możliwe jest jego oszacowanie dzięki znajomości pewnych charakterystyk nieznanego rozkładu prawdopodobieństwa (np. znajomości wartości oczekiwanej, dominanty, itp.).

2.3. Podejmowanie decyzji w warunkach niepewności i ryzyka – gry z „naturą”

Rozważmy sytuację, w której dwóch decydentów podejmuje decyzje prowadzące do konfliktu między nimi. Sytuacje te są dość powszechnie spotykane w rzeczywistości (np. dwie firmy konkurujące ze sobą na jednym rynku). Można więc przyjąć, iż uczestniczą oni w swoistej grze, a podejmowane przez nich decyzje są odpowiednimi strategiami. Efekty stosowania tych strategii przez jednego z decydentów nie pozostaje bez wpływu na drugiego z nich. Załóżmy, że gracze podejmują jednocześnie niezależne od siebie decyzje.

Jeśli jeden z graczy (zwany dalej naturą lub rzadziej rynkiem) nie jest zainteresowany wynikiem gry, to taką sytuację decyzyjną określamy mianem gry z „natur ą” . W tym przypadku decyzję podejmuje tylko jeden gracz, posiadając informację o możliwych stanach „natury”, wpływających na korzyści wynikające z pojęcia określonych decyzji.

2.3.1. Gry z „naturą” w warunkach niepewności.

W tej części omówione zostaną możliwe kryteria wyboru optymalnej decyzji w zagadnieniach zwanych grami z „naturą”, przy założeniu, że decydent działa w warunkach niepewności.

Załóżmy, że decydent ma do wyboru m różnych decyzji (oznaczmy je jako D1, D2, …, Dm) przy n różnych stanach natury (oznaczmy je przez S1, S2, …., Sn). Dla każdej decyzji i ( mi ,,2,1 K∈ i

każdego stanu natury j ( nj ,,2,1 K∈ ) znana jest wielkość korzyści (lub strat), jakie może osiągnąć decydent, który jako jedyny jest zainteresowany wynikiem gry. Wielkość owych korzyści (strat) najprościej jest ująć w postaci macierzy, zwanej macierzą wypłat (macierzą korzyści lub macierzą strat), nmija ×= ][A .

Działając w warunkach niepewności możemy posłużyć się następującymi kryteriami wyboru decyzji (Miszczyński M., Miszczyńska D., 1997, s.7):

• kryterium MaxiMax (skrajne postępowanie ryzykanta, optymisty);

• kryterium MaxiMin (skrajne postępowanie asekuranta, pesymisty);

• kryterium Hurwicza (postępowanie pośrednie między ryzykantem a asekurantem);

• kryterium Savage’a (MiniMax żalu);

• kryterium Laplace’a.

Zastosowanie powyższych kryteriów zależy wyłącznie od preferencji decydenta. Wymienione kryteria wyboru optymalnej decyzji omówione zostaną na poniższym przykładzie.

Przykład. 1. (na podstawie materiałów dydaktycznych dr A. Kucharskiego, aqcharski.w.interia.pl ).

Zarząd pewnej firmy musi podjąć decyzję o wdrożeniu jednej z trzech technologii, które pozwolą rozszerzyć asortyment produktów wprowadzanych przez firmę na rynek. Oszacowano zyski (w tys. zł), jakie osiągnie firma w zależności od podjętej decyzji i od tego, jak zareaguje rynek na działania firmy. Możliwe są trzy sytuacje: S1- duże zainteresowanie rynku nowymi produktami,

Page 26: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

26

S2- umiarkowane zainteresowanie rynku nowymi produktami oraz S3 – małe zainteresowanie rynku nowymi produktami. Zyski te podane są w poniższej tablicy:

Reakcja rynku Decyzje firmy

S1 S2 S3

D1 (technologia 1) 50 -10 5

D2 (technologia 2) 35 100 60

D3 (technologia 3) 50 70 60

Macierz wypłat jest więc następująca:

−=

607050

6010035

51050

A .

Kryterium MaxiMax (skrajne postępowanie ryzykanta, optymisty).

W tym kryterium dla każdej decyzji określa się maksymalną wartość zysku ijj

i ao max=

(maksymalny element w każdym wierszu macierzy A), a następnie wybiera się taką decyzję, dla której maksymalny zysk jest największy i

ik oo max= . Stosując to kryterium dla naszego

przykładu otrzymujemy:

O1=max50, -10, 5=50;

O2=max35, 100, 60=100;

O3=max50, 70, 60=70.

Zatem kierując się kryterium optymisty należy podjąć decyzję drugą, czyli decyzje o zastosowaniu technologii 2.

Kryterium MaxiMin (skrajne postępowanie asekuranta, pesymisty).

W tym kryterium, dla każdej decyzji określa się minimalny gwarantowany zysk min ijj

i ap =

(minimalny element w każdym wierszu macierzy A), a następnie wybiera się taką decyzję, dla której minimalny gwarantowany zysk jest największy, czyli .max i

ik pp = Stosując to kryterium

dla naszego przykładu otrzymujemy:

P1=min50, -10, 5=-10;

P2=min35, 100, 60=35;

P3=min50, 70, 60=50.

W myśl tego kryterium najlepszy wybór z punktu widzenia korzyści firmy to wybór technologii 3.

Kryterium Hurwicza (postępowanie pośrednie między ryzykantem a asekurantem)

Kryterium to stanowi wariant pośredni między skrajnymi stanowiskami reprezentowanym przez dwa opisane wyżej kryteria. W tym kryterium dla każdej decyzji należy określić skłonność do

Page 27: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

27

ryzyka. Owa skłonność opisana jest za pomocą parametru )1,0(∈iα 5. Dla ustalonej wartości

parametru iα dla każdej decyzji obliczamy średni ważony zysk na podstawie kryteriów optymisty

i pesymisty. Zysk ten określony jest zależnością:

iiiii POH )1( αα −+=

A następnie wybieramy taką decyzję, dla której średni ważony zysk jest największy, czyli max i

ik HH = .

Ustalając w naszym przykładzie skłonność do ryzyka na poziomie odpowiednio 0,8 (dla decyzji 1), 0,6 dla decyzji 2 oraz 0,7 dla decyzji 3 otrzymujemy:

H1=0,8*50+0,2*(-10)=38;

H2=0,6*100+0,4*35=74;

H3=0,7*70+0,3*50=64;

Co oznacza, że najlepszą decyzją firmy jest wybór technologii 2.

Kryterium Savage’a (MiniMax „ żalu” )

Kryterium to bazuje na podobnych założeniach jak znane w ekonomii koszty utraconych korzyści. Dla każdego stanu natury Sj można wyznaczyć decyzję Di, która przyniesie maksymalną korzyść dla decydenta. Podjęcie innej decyzji przy stanie natury Sj, skutkuje mniejszą (lub co najwyżej równą) korzyścią niż w przypadku wyboru decyzji Di. Różnica między maksymalną możliwą do osiągnięcia przez decydenta korzyścią przy stanie natury Sj a korzyścią osiąganą w przypadku podjęcia określonej decyzji wyznacza wielkość „żalu” w stosunku do źle podjętej decyzji. Wielkość owego „żalu” niezbędna jest to budowy macierzy „żalu” i stanowi pierwszy etap wyznaczania optymalnej decyzji z zastosowaniem powyższego kryterium.

Jak zatem zbudować macierz „żalu”?

W pierwszym kroku dla każdego stanu natury Sj określamy wielkość maksymalnej korzyści jA

jaka może osiągnąć decydent. Wielkość ta określona jest określona wartością największego elementu w j-tej kolumnie macierzy wypłat, czyli max ij

ij aA = . Następnie dla każdej decyzji Di

jaką możemy podjąć przy stanie natury Sj określamy wielkość „żalu” w stosunku do źle podjętej decyzji ( ijr ). Wielkość ta określona jest jako różnica między maksymalną możliwą do osiągnięcia

korzyścią jA a wielkością korzyści osiąganej przy danej decyzji ija , czyli ijjij aAr −= . W

naszym przykładzie wielkość żalu jest następująca:

5050,35,50max1 ==A ; 10070,100,10max2 =−=A ; 6060,60,5max3 ==A

Macierz „żalu ma postać:

5 Parametr ten może być jednakowy dla wszystkich decyzji, można go także różnicować w zależności od decyzji. Wartość parametru bliższa jedności oznacza, że decydent ma wyższą skłonność do „bycia” optymistą niż pesymistą i na odwrót.

Page 28: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

28

=

−−−−−−−−−−

=0300

0015

551100

6060701005050

60601001003550

560)10(1005050

R

Następnie dla macierzy „żalu” wyznacza się największy możliwy żal max ijj

i rR = (największy

element w i-tym wierszu macierzy „żalu”), a następnie wybieramy taką decyzję, dla której największy możliwy „ żal” będzie najmniejszy.

W naszym przykładzie:

R1=max0, 110, 55=110;

R2=max15, 0, 0=15;

R3=max0, 30, 0=30

A zatem, według kryterium Savage’a najlepszą decyzją dla firmy będzie wybór technologii 2.

Kryterium Laplace’a

W tym kryterium zakładamy, że każdy stan natury jest jednakowo prawdopodobny, czyli

nSP j1 = . Oznacza to, że dla każdej decyzji Di oczekiwana wartość korzyści jest średnią

arytmetyczną prostą wyznaczaną z wielkości tych korzyści, czyli n

aaaL inii

i

+++= K21 (średnia

arytmetyczna ze wszystkich elementów występujących w i-tym wierszu macierzy wypłat). Wybieramy taką decyzję, dla której oczekiwana wielkość korzyści jest największa.

Stosując to kryterium w naszym przykładzie otrzymujemy:

153

5)10(501 =+−+=L ;

65=++=3

60100352L ;

603

6070503 =++=L ;

Zatem z punktu widzenia tego kryterium najlepszym wyborem jest wybór technologii 2.

2.3.2. Podejmowanie decyzji w warunkach ryzyka

Podejmowanie decyzji w warunkach ryzyka wiąże się z sytuację, iż każdej decyzji odpowiada więcej niż jeden wynik i znane jest prawdopodobieństwo z jakim dany wynik może wystąpić. Prawdopodobieństwa te określamy mianem prawdopodobieństw a priori i oznaczamy jako

jj pSP = .

Działając w warunkach ryzyka możemy posłużyć się następującymi kryteriami wyboru optymalnej decyzji:

• Kryterium maksymalnej oczekiwanej wartości zysku (MOW);

Page 29: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

29

• Kryterium minimalnego oczekiwanego „żalu”.

W obu tych kryteriach analizowane są wartości oczekiwane zysków lub strat („żalu”), aby następnie wybrać taką decyzję, która maksymalizuje oczekiwaną wartość zysku (kryterium 1) lub minimalizuje oczekiwaną wartość „żalu” (kryterium 2).

Zastosowanie obu powyższych kryteriów prześledzimy na przykładzie firmy opisanej w przykładzie 1.

Załóżmy, że prawdopodobieństwa zaistnienia poszczególnych stanów natury są określone następująco: PS1=0,3; PS2=0,5; PS3=0,2.

Kryterium maksymalnej oczekiwanej wartości zysku (MOW)

Według tego kryterium dla każdej decyzji Di wyznacza się oczekiwaną wartość zysku E( ia )

wykorzystując informacje a priori o prawdopodobieństwach zaistnienia poszczególnych stanów natury. Oczekiwana wartość korzyści dla decyzji Di jest więc równa:

)( 2211 niniii SPaSPaSPaaE +++= K

Decydent powinien więc wybrać taką decyzję, dla której oczekiwana wartość zysku jest największa.

Stosując powyższe kryterium w naszym przykładzie otrzymujemy:

115*2,0)10(*5,050*3,0)( 1 =+−+=aE ;

)( 2aE =0,3*35+0,5*100+0,2*60=72,5;

)( 2aE =0,3*50+0,5*70+0,2*60=62.

Według tego kryterium decydent powinien wybrać technologię 2.

Kryterium minimalnego oczekiwanego „żalu”

Według tego kryterium dla każdej decyzji Di wyznacza się oczekiwaną wartość „żalu” )( irE

wykorzystując informacje a priori o prawdopodobieństwach zaistnienia poszczególnych stanów natury. Oczekiwana wartość „żalu” jest równa:

)( 2211 niniii SPrSPrSPrrE +++= K ,

gdzie ijr są elementami macierzy „żalu”.

Decydent powinien wybrać taką decyzję, dla której oczekiwana wartość „żalu” jest najmniejsza.

W naszym przykładzie macierz „żalu” ma postać:

=0300

0015

551100

R .

Oczekiwana wartość „żalu” dla każdej decyzji jest więc równa:

=)( 1rE 0,3*0+0,5*110+0,2*55=66;

=)( 2rE 0,3*15+0,5*0+0,2*0=4,5;

Page 30: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

30

=)( 3rE 0,3*0+0,5*30+0,2*0=15

Według tego kryterium decydent powinien wybrać technologię drugą.

2.4. Cena graniczna doskonałej informacji

Cena graniczna doskonałej informacji (CGPI) jest to maksymalna kwota jaką warto zainwestować w dodatkowe badanie związane z poznaniem przyszłego zachowania się natury (rynku).

Doskonałą (perfekcyjną) informację traktujemy więc jako wiedzę o stanie natury przed podjęciem decyzji.

Wyznaczenie granicznej ceny doskonałej informacji rozpoczynamy od określenia, jaką maksymalną korzyść może osiągnąć decyzję jeśli mielibyśmy informację o tym, jak zachowa się natura (rynek), czyli w warunkach doskonałej informacji. Wielkość tą określamy mianem oczekiwanej korzyści w warunkach perfekcyjnej informacji (OKPI) i wyznaczamy na podstawie następującej zależności:

2211 nn SPASPASPAOKPI +++= K

gdzie max iji

j aA = jest największym elementem w j-tej kolumnie macierzy A.

W naszym przykładzie OKPI=0,3*50+0,5*100+0,2*60=77

Porównanie owej wielkości z korzyścią osiąganą przed informacją o tym jak zachowa się rynek, czyli w tzw. warunkach normalnych (określoną przez maksymalną oczekiwaną wartość zysku MOW)6 pozwala na wyznaczenie wielkości granicznej ceny doskonałej informacji (CGPI), czyli:

CGPI=OKPI-MOW

W naszym przykładzie CGPI =77-72,5=4,5

Należy zauważyć, że CGPI jest równa co do wartości minimalnemu oczekiwanemu „żalowi”.

UWAGA. Jeśli macierz A określa wielkość strat, to aby możliwe było zastosowanie opisanych kryteriów do wyboru optymalnej decyzji w warunkach niepewności i ryzyka, należy wszystkie elementy tej macierzy pomnożyć przez (-1). Wówczas strata równa np. 50 jest interpretowana jako korzyść (-50).

2.5 Wykorzystanie dodatkowej informacji

Podejmowanie decyzji w warunkach niepewności lub ryzyka oznacza, że pragniemy zdobyć jak najwięcej informacji na temat intersującej nas sytuacji (np. reakcji konsumentów na nowy produkt) zanim wybierzemy ostateczną decyzję. Każda dodatkowa informacja ułatwia sprawę i pomaga w osiągnięciu maksymalnej wygranej w grze z naturą.

Załóżmy, że na zaistnienie danego stanu natury Sj wpływa K dodatkowych czynników (wskaźników) oznaczonych I1,I2,…,IK. Chcemy poznać prawdopodobieństwo tego, że stan Sj zaistnieje pod warunkiem wystąpienia czynnika Ik (k=1, 2,…,K). Tego typu analizę nazywa się analizą bayesowską od nazwiska jej twórcy – Thomasa Bayesa zaś prawdopodobieństwo, o którym przed chwilą wspomnieliśmy nazywamy prawdopodobieństwem a posteriori i oznaczamy symbolem P Sj|Ik. Jest to zmodyfikowane znane nam już prawdopodobieństwo a priori P Sj.

6 Maksymalna oczekiwana wartość zysku jest równa największej wartości wyznaczonej przy zastosowaniu kryterium maksymalnej oczekiwanej wartości zysku.

Page 31: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

31

Zakładamy ponadto, że znane są (np. zostały wcześniej oszacowane) prawdopodobieństwa zaistnienia czynnika Ik przy stanie natury Sj a więc P Ik|Sj.

Prawdopodobieństwo a posteriori obliczamy korzystając ze wzoru:

||

k

jjkkj IP

SPSIPISP =

gdzie:

∑=

=n

jjjkk SPSIPIP

1

|

P Ik wyraża prawdopodobieństwo wystąpienia czynnika Ik.

Wróćmy do naszego przykładu. Przyjmijmy, że na podstawie przeprowadzonych analiz popytu zgłaszanego przez konsumentów na dana grupę wyrobów przewidziano dwa możliwe scenariusze. W pierwszym występuje znaczący wzrost popytu, w drugim wzrost ten jest niewielki. Po uwzględnieniu tego jak na zachowanie konkurencji wpłyną wahania popytu, oszacowano prawdopodobieństwa warunkowe:

S1 S2 S3

Duży wzrost (I1) 0,3 0,8 0,4

Mały wzrost (I2) 0,7 0,2 0,6

Przykładowo wartość 0,3 wyraża prawdopodobieństwo wystąpienia dużego wzrostu popytu w razie zaistnienia stanu S1.

Dla każdego czynnika należy teraz obliczyć prawdopodobieństwa a posteriori. Dla dużego wzrostu popytu mamy zatem:

P Sj P I1|Sj | 1 jj SPSIP P Sj|I1

S1 0,3 0,3 0,3×0,3=0,09 0,09/0,57=0,158

S2 0,5 0,8 0,5×0,8=0,40 0,40/0,57=0,702

S3 0,2 0,4 0,2×0,4=0,08 0,08/0,57=0,140

Suma 1 P I1=0,57 1

Z kolei dla małego wzrostu popytu:

P Sj P I2|Sj | 2 jj SPSIP P Sj|I2

S1 0,3 0,7 0,3×0,7=0,21 0,21/0,43=0,488

S2 0,5 0,2 0,5×0,2=0,10 0,10/0,43=0,233

S3 0,2 0,6 0,2×0,6=0,12 0,12/0,43=0,279

Suma 1 P I2=0,43 1

Page 32: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

32

Na podstawie powyższych tabeli możemy na przykład dowiedzieć się, że istnieje 15,8% szansa aby zaistniał stan S1 w przypadku dużego wzrostu popytu zaś wzrost ten wystąpi z prawdopodobieństwem 57%.

Jesteśmy teraz w stanie wyznaczyć optymalną decyzję przy pomocy kryterium maksymalnej oczekiwanej wartości, w którym prawdopodobieństwa a priori P Sj zastąpimy prawdopodobieństwami warunkowymi a posteriori P Sj|Ik. W wypadku dużego popytu otrzymamy wartości:

E(a1)=50*0,158-10*0,702+5*0,14=1,58

E(a2)=35*0,158+100*0,702+60*0,14=84,13

E(a3)=50*0,158+70*0,702+60*0,14=65,44

Jeżeli zatem popyt będzie charakteryzował się dużym wzrostem należy podjąć decyzję D2. Dla małego wzrostu popytu otrzymamy zaś następujące wyniki:

E(a1)=50*0,488-10*0,233+5*0,279=23,47

E(a2)=35*0,488+100*0,233+60*0,279=57,12

E(a3)=50*0,488+70*0,233+60*0,279=57,45

W przypadku pojawienia się małego wzrostu popytu najlepszą decyzją jest D3.

Dysponując powyższymi wynikami oraz prawdopodobieństwami wystąpienia każdego z czynników możemy obliczyć oczekiwaną korzyść przy dodatkowej informacji (OKDI):

∑=

∗=K

kIkik aEIPOKDI

1| )( =0,57*84,13+0,43*57,43=72,658

Oczekiwany zysk przy wykorzystaniu dodatkowej informacji wynosi 72,658m tys. zł.

Różnicę między oczekiwaną korzyścią przy uwzględnieniu dodatkowej informacji a maksymalną oczekiwaną korzyścią nazywamy oczekiwaną wartością dodatkowej informacji (OWDI):

OWDI=OKDI-MOW=72,658-72,5=0,158

Stosunek OWDI do ceny granicznej doskonałej informacji (CGPI) daje efektywność dodatkowej informacji (EDI):

%100×=CGPI

OWDIEDI = %100

5,4

158,0 × =3,502%

Wykorzystanie dodatkowej informacji na temat wzrostu popytu na produkty firmy pozwoli poprawić efektywność podejmowanej decyzji o 3,5%.

Page 33: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

33

Moduł 3 Wybrane zagadnienia z zakresu estymacji przedziałow ej parametrów

rozkładu populacji generalnej

3.1. Wprowadzenie

Statystyka jest przede wszystkim nauką o wnioskowaniu, czyli o uogólnianiu wyników uzyskanych w próbie (wybranej w sposób losowy) na populację generalną. Populację można opisać za pomocą określonych parametrów liczbowych zwanych parametrami populacji. Wyznaczenie wartości parametrów populacji wymagałoby jednak przeprowadzenia badania całkowitego/pełnego (por. moduł 1). W rzeczywistości przeprowadzenie tego typu badań często nie jest możliwe lub wiąże się z ogromnymi kosztami (nie tylko finansowymi, ale również nakładami czasu, liczby osób zatrudnionych do prowadzenia tego typu badań, etc.). Możliwe jest jednak wnioskowanie o populacji generalnej bez konieczności przeprowadzania badań pełnych. Podstawą do wnioskowania jest próba, która musi być pobrana losowo z populacji generalnej, czyli tzw. próba losowa (por. moduł 1). Informacja, którą uzyskujemy na podstawie badania próby losowej przyjmuje postać pewnej zbiorczej statystyki (może to być np. średnia arytmetyczna z próby, odchylenie standardowe z próby, wartość współczynnika korelacji z próby, etc.). Taka statystyka z próby określana jest mianem estymatora pewnego parametru populacji generalnej. Proces szacowania wartości parametrów rozkładu populacji generalnej lub też postaci rozkładu teoretycznego cechy w populacji generalnej na podstawie wyników uzyskanych z losowo wybranej próby z populacji określa się mianem estymacji. Jeśli przedmiotem badań jest postać funkcyjna rozkładu teoretycznego lub jego dystrybuanty, mówimy o estymacji nieparametrycznej (ten dział nie jest uwzględniony w programie). Jeśli przedmiotem oceny są parametry rozkładu teoretycznego – mówimy o estymacji parametrycznej.

3.2. Estymacja parametryczna – pojęcia wstępne.

Załóżmy, że badamy cechę mierzalną X, która ma w całej zbiorowości statystycznej pewien, nieznany nam rozkład (rozkład teoretyczny).

Próba statystyczna prosta licząca n elementów, pobrana z tej populacji może być traktowana jako ciąg niezależnych zmiennych losowych X1, X2,..., Xn o rozkładach identycznych z rozkładem cechy w całej populacji. Ciąg wartości cechy: x1, x2 ,...xn dla konkretnej próby traktujemy jak ciąg wartości tych zmiennych losowych.

W teorii estymacji podstawową rolę odgrywa pojęcie estymatora. Najprościej rzecz ujmując estymator jest to dowolna statystyka z próby, która służy od oszacowania nieznanej wartości parametru charakteryzującego populację generalną. Konkretną wartość liczbową tej statystyki nazywamy oceną lub szacunkiem parametru. Statystyka z próby jest zmienną losową, gdyż konkretna wartość tej statystyki zależy od tego, jaka próba została wylosowana z populacji generalnej. Można więc powiedzieć, że estymatorem Tn parametru θ rozkładu teoretycznego nazywamy taką zmienną losową (zwaną statystyką) Tn = t(X 1, X2 ,..., Xn), której wartość obliczona na podstawie próby służy do oszacowania nieznanej wartości parametru θ .

Jak wspomniano, konkretną wartość liczbową t n = t(x1, x2, ...xn), jaką przyjmuje estymator Tn dla realizacji próby (x1, x2,..., xn) nazywamy oceną parametru θ . Ponieważ wartość t n obliczamy na podstawie wyników z próby losowej, możemy popełnić błąd. Różnicę między prawdziwą wartością parametru θ a jego liczbową oceną uzyskaną na podstawie próby dla estymatora Tn, to znaczy różnicę tn–θ nazywamy błędem

Page 34: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

34

szacunku. Aby błąd szacunku był najmniejszy, należy dbać o dobór możliwie najlepszego estymatora i prawidłowe losowanie próby7.

Dla podstawowych parametrów rozkładu teoretycznego przyjmuje się następujące estymatory (n jest liczebnością próby):

dla wartości przeciętnej - średnią arytmetyczną z próby:

∑=

=n

iiX

nX

1

1 (3.1)

dla wariancji - wariancję z próby obliczoną według wzoru:

1) dla próby licznej (n>30)

( )∑ ∑

= =

−=−=n

i

n

iii XX

nxX

ns

1 1

2222 11 (3.2)

2) dla próby o mniejszej liczebności (n≤ 30).

( )∑ ∑

= =

−−

=−−

=n

i

n

iii XX

nXX

nS

1 1

22221 1

1

1

1 (3.3)

Odchylenie standardowe szacujemy przez obliczenie pierwiastka z odpowiednio dobranej wariancji: 2ss = . Wybór różnych estymatorów dla wariancji w zależności od liczebności próby wynika z

poszukiwania estymatorów o określonych własnościach.

Jeśli jako ocenę nieznanego parametru populacji generalnej podajemy jedną wartość liczbową (wartość estymatora), to wówczas proces szacowania określamy mianem estymacji punktowej (szacunku punktowego lub oceny punktowej) parametru populacji. Jednak prawdopodobieństwo tego, że estymator przyjmie wartość równą szacowanemu parametrowi jest bardzo małe (dla zmiennych losowych typu ciągłego – równe zero). Dlatego znacznie częściej niż estymację punktową stosuje się estymację przedziałową, polegającą na tym, że zamiast liczbowej oceny wartości parametru podaje się pewien przedział, który zawiera nieznaną wartość parametru z określonym z góry prawdopodobieństwem.

Załóżmy, że rozkład cechy X w populacji generalnej zależy od parametru θ , który należy oszacować, korzystając z wyników n – elementowej próby.

Przedziałem ufności nazywamy przedział, który z zadanym z góry prawdopodobieństwem (1-α ) zwanym poziomem ufności lub współczynnikiem ufności zawiera nieznaną wartość szacowanego parametru θ .

Poziom ufności jest bliski 1, często przyjmuje się: 0,9; 0,95; 0,98; 0,99.

Różnicę pomiędzy górną i dolną granicą przedziału ufności nazywamy długością przedziału ufności. Długość przedziału ufności jest miarą precyzji oszacowania. Połowa długości przedziału ufności stanowi maksymalny błąd oszacowania.

W programie przewidziano szacowanie metodą przedziałową następujących parametrów:

• wartości przeciętnej,

• wskaźnika struktury.

7 O własnościach dobrego estymatora można przeczytać m.in. w [Aczel A., 2000, s. 207-211].

Page 35: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

35

3.3. Przedział ufności dla wartości przeciętnej.

Przedział ufności dla wartości przeciętnej m wyznaczamy, korzystając ze średniej arytmetycznej (X ) wyznaczonej na podstawie wyników uzyskanych z próby losowo wybranej z populacji generalnej. Sposoby obliczania średniej arytmetycznej w różnych rodzajach szeregów statystycznych omówione zostały w module 1. Wprowadźmy następujące oznaczenia:

m - wartość przeciętna dla populacji generalnej;

σ - odchylenie standardowe dla populacji generalnej;

n - liczebność próby;

x - średnia arytmetyczna policzona z próby (estymator punktowy wartości przeciętnej dla populacji generalnej);

s- odchylenie standardowe wyznaczone na podstawie wyników uzyskanych w próbie.

Wyznaczając przedział ufności dla wartości przeciętnej m w populacji generalnej istotne znaczenie ma informacja o tym czy próba losowa została pobrana z populacji generalnej o rozkładzie normalnym ze znanym (lub nieznanym) odchyleniem standardowym oraz jak liczna jest próba, na podstawie której wnioskujemy o populacji generalnej. Rozpatrujemy następujące sytuacje:

Zakładamy, że cecha ma w populacji generalnej rozkład normalny o znanym odchyleniu standardowym dla populacji (σ znane, n – próba o dowolnej liczebności).

Wtedy średnia arytmetyczna ma rozkład normalny

nmN

σ, zaś statystyka n

mXU

σ−= ma

rozkład N(0, 1) (patrz: moduł 1).

Dla zadanego z góry współczynnika ufności α−1 w tablicach rozkładu normalnego odczytujemy taką

wartość αu , aby ααα −=<<− 1 uUuP , tzn. taką wartość αu aby2

1)(α

α −=uF .

Jeżeli teraz podstawimy nmX

Uσ−= , otrzymamy:

ασ αα −=

<−<− 1un

mXuP

Przekształcając podwójną nierówność w nawiasie otrzymujemy:

ασσαα −=

+<<− 1

nuXm

nuXP

Dysponując konkretnymi wartościami (x1, x2 ,..., xn ) cechy z próby wyznaczamy liczbowy przedział ufności dla wartości przeciętnej m, który jest postaci:

nuxm

nux

σσαα +<<− (3.4)

Przedział dany wzorem (3.4) zawiera nieznaną wartość przeciętną rozkładu teoretycznego z prawdopodobieństwem α−1 .

Page 36: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

36

Zakładamy, że cecha ma w populacji generalnej rozkład normalny o nieznanym odchyleniu standardowym i dysponujemy małą próbą (liczebność próby nie przekracza 30 elementów, n ≤ 30).

Przedział ufności budujemy korzystając ze statystyki 11 −−=− ns

mXTn , która ma rozkład Studenta o n-

1 stopniach swobody. Po dokonaniu odpowiednich przekształceń i podstawieniu wartości (x1, x2 ,..., xn) cechy z próby wyznaczamy liczbowy przedział ufności dla wartości przeciętnej m:

111,1, −

+<<−

− −−n

stxm

n

stx nn αα (3.5)

który zawiera nieznaną wartość przeciętną rozkładu teoretycznego z prawdopodobieństwem α−1 gdzie x jest średnią arytmetyczną z próby, s jest odchyleniem standardowym z próby, zaś 1, −ntα odczytujemy z

tablic rozkładu Studenta tak, że αα => −− || 1,1 nn tTP .

Uwaga: Ze względu na małą próbę „lepszym” estymatorem dla odchylenia standardowego jest s1

wyznaczony zgodnie z wzorem (3.3). Łatwo jednak zauważyć, że 1

1

−=

n

s

n

s, zatem liczbowy

przedział ufności dla średniej w przypadku małej próby ma również postać:

n

stxm

n

stx nn

11,

11, −− +<<− αα (3.6)

Rozkład cechy w populacji jest nieznany o skończonym odchyleniu standardowym, próba o dużej liczebności (n > 30).

Wówczas statystyka nS

mXU

−= ma rozkład zbliżony do rozkładu normalnego (asymptotycznie

normalny) i możemy stosować model opisany w punkcie 1 oraz wzór (3.4) przyjmując s≅σ .

Przy szacowaniu wartości przeciętnej możemy określić maksymalny błąd szacunku oznaczany przez xd .

Jest on równy połowie długości przedziału ufności i wynosi:

xd =

−⋅

− )5.3(1

)4.3(

1, wzoruzekorzystamygdyn

st

wzoruzekorzystamygdyn

su

α

Drugi z powyższych wzorów ulegnie korekcie, jeśli zamiast odchylenia standardowego s zastosujemy s1

(patrz wzór 3.6).

Korzystając z powyższych wzorów możemy, przy ustalonym poziomie ufności, wyznaczyć liczebność próby tak, aby uzyskać oszacowanie z zadanym z góry maksymalnym błędem szacunku.

Przykład 3.1.

Badano roczne wydatki na remont mieszkania w pewnym mieście i od losowo wybranych 25 mieszkańców otrzymano dane dotyczące ich rodzin zawarte w poniższej tabeli. Na podstawie uzyskanych danych oszacować metodą przedziałową na poziomie ufności α−1 = 0,95 przeciętny poziom wydatków na remonty w rodzinach zamieszkałych w tym mieście.

Page 37: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

37

Wydatki na remont mieszkania w roku 2000.

Wydatki (w tys. zł) x i 0 - 1 1 – 2 2 – 3 3 - 4 4 – 5

Liczba rodzin n i 3 8 7 5 2

(Dane umowne)

Na podstawie losowo wybranej próby wyznaczamy wartość średnią i odchylenie standardowe wydatków na remont mieszkania. Traktujemy je jako estymatory wartości przeciętnej i odchylenia standardowego wydatków na remont dla populacji generalnej (mieszkańców pewnego miasta).

Informacje uzyskane w próbie losowej zostały pogrupowane w formie szeregu rozdzielczego z przedziałami klasowymi. Do oszacowania średniej i odchylenia standardowego korzystamy ze wzorów (1.4) i (1.7; por. moduł 1.). Obliczenia wykonujemy w tablicy pomocniczej.

Lp.

Wydatki

(w tys. zł)

xi

Liczba rodzin

ni

ix&

ii nx ⋅&

xxi −&

( )2xxi −&

( ) ii nxx 2−&

1 0 - 1 3 0.5 1,5 - 1,8 3,24 9,72

2 1 - 2 8 1.5 12 - 0,8 0,64 5,12

3 2 - 3 7 2,5 17,5 0,2 0,04 0,28

4 3 - 4 5 3,5 17,5 1,2 1,44 7,2

5 4 - 5 2 4,5 9 2,2 4,84 9,68

n = 25 57,5 32

Na podstawie powyższych obliczeń wynika, że:

∑=

=⋅==5

1

3,25,5725

11

iii nx

nx & tys. zł., 13,132

25

1 ==s tys. zł.

Ze względu na małą próbę liczbowy przedział ufności dla wartości średniej wyznaczamy, korzystając ze wzoru (3.5):

111,1, −

+<<−

− −−n

stxm

n

stx nn αα

Ponieważ próba liczyła n = 25 elementów i przyjęliśmy poziom ufności α−1 =0,95, wartość 064,224;05,0 =t odczytujemy w tablicach rozkładu Studenta la n – 1 = 24 i α = 0,05.

Otrzymujemy w ten sposób przedział:

⋅+⋅−24

13,1064,23,2;

24

13,1064,23,2 =

= (2.3 – 0,476; 2,3 + 0,476) = (1,824 tys. zł; 2,776 tys. zł).

Page 38: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

38

Zatem z prawdopodobieństwem 0,95 można stwierdzić, że średnie wydatki na remont mieszkania ponoszone przez mieszkańców pewnego miasta mieszczą się w przedziale między 1,824 tys. zł a 2,776 tys. zł. Maksymalny błąd tego oszacowania xd = 476 zł.

Aby ocenić wpływ liczebności próby na precyzję oszacowania, wyznaczmy przedział ufności w poprzednim przykładzie, zakładając, że parametry z próby mają takie same wartości a zmienia się liczebność próby.

Przykład 3.2.

Badając roczne wydatki na remonty w rodzinach pewnego miasta uzyskano dla 10 rodzin: przeciętne wydatki =x 2,3 tys. zł przy odchyleniu standardowym s = 1,13 tys. zł. Na podstawie powyższych danych oszacować metodą przedziałową na poziomie ufności α−1 = 0,95 przeciętny poziom wydatków na remonty w rodzinach zamieszkałych w tym mieście.

Ze względu na małą próbę, podobnie jak w przykładzie (3.1) liczbowy przedział ufności dla wartości średniej wyznaczamy, korzystając z wzoru (3.5):

Wartość 1, −ntα znajdujemy w tablicach rozkładu Studenta dla n–1=9 i α =0,05. Mamy zatem:

262,29;05,0 =t . Podstawiając te wartości do wzoru otrzymujemy:

⋅+⋅−9

13,1262,23,2;

9

13,1262,23,2 = (2.3 – 0,852; 2,3 + 0,852) = (1,448; 3,152)

Zatem roczne wydatki na remonty w rodzinach mieszkających w tym mieście oszacowane na podstawie 10 elementowej próby zawierają się w przedziale (1,448 tys. zł; 3,152 tys. zł) z prawdopodobieństwem 0,95. Maksymalny błąd tego oszacowania xd = 852 zł..

Widać więc, że szacowanie na podstawie mniejszej próby istotnie zwiększyło błąd szacunku.

Rozwiążemy teraz powyższe zadanie dla dużej próby.

Przykład 3.3.

Badając roczne wydatki na remonty w rodzinach pewnego miasta uzyskano dla 625 rodzin: przeciętne wydatki =x 2,3 tys. zł przy odchyleniu standardowym s = 1,13 tys. zł. Na podstawie zebranych danych oszacować metodą przedziałową na poziomie ufności α−1 = 0,95 przeciętny poziom wydatków na remonty w rodzinach zamieszkałych w tym mieście.

W tym przypadku pobrana próba jest duża, zatem zastosujemy wzór (3.4), przyjmując, że s≅σ .

n

suxm

n

sux αα +<<−

Wartość αu odczytamy w tablicach rozkładu normalnego tak, aby 2

1)(α

α −=uF , tzn. aby F( αu ) = 1 –

0,025 = 0,975. Wtedy αu = 1,96. Szukany przedział ufności ma więc postać:

Page 39: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

39

⋅+⋅−625

13,196,13,2;

625

13,196,13,2 = (2,3 – 0,089; 2,3 + 0,089) = (2,211; 2,389)

Zatem roczne wydatki na remonty w rodzinach mieszkających w tym mieście oszacowane na podstawie 625-elementowej próby zawierają się w przedziale (2,211 tys. zł; 2,389 tys. zł) z prawdopodobieństwem 0,95. Maksymalny błąd tego oszacowania xd = 89 zł..

Jak widzimy, szacowanie na podstawie większej próby istotnie zmniejszyło błąd szacunku.

Przykład 3.4.

Sprawdźmy teraz, jak zmieni się precyzja oszacowania, gdy zwiększymy poziom ufności w przykładzie

3.2 przyjmując α−1 = 0,98. Szukamy teraz αu tak, aby: F( αu ) = 1-2α

= 1 – 0,01 = 0,99. Odczytujemy

αu = 2,35. Zatem szukany przedział ufności:

⋅+⋅−625

13,135,23,2;

625

13,135,23,2 = (2,3 – 0,106; 2,3 + 0,106) = (2,194; 2,406).

Roczne wydatki na remonty w rodzinach mieszkających w tym mieście oszacowane na podstawie 625-elementowej próby zawierają się w przedziale (2,194 tys. zł; 2,406 tys. zł) z prawdopodobieństwem 0,98. Maksymalny błąd tego oszacowania xd = 106 zł.

Widać zatem, że zwiększając poziom ufności, zwiększamy również błąd szacunku.

Uwagi:

1) Im krótszy przedział ufności, tym mniejszy błąd szacunku a więc lepsza dokładność oszacowania.

2) Przy ustalonej liczebności próby wraz ze wzrostem poziomu ufności rośnie rozpiętość przedziału ufności czyli maleje dokładność oszacowania.

3) Przy zadanym poziomie ufności im większa jest liczebność próby, tym krótszy przedział ufności czyli lepsza precyzja oszacowania

3.4. Przedział ufności dla wskaźnika struktury.

W badaniach statystycznych występuje często konieczność oszacowania prawdopodobieństwa występowania określonego wariantu cechy zarówno mierzalnej jak i niemierzalnej, tzn. oszacowania, jaki procent jednostek statystycznych posiada określony wariant cechy. Zachodzi więc konieczność oszacowania wskaźnika struktury dla tego wariantu cechy.

Uwaga: Przedział ufności dla wskaźnika struktury wyznaczamy tylko na podstawie dużej (n≥ 100) próby.

W tym przypadku budujemy przedział ufności korzystając ze statystyki:

n

pp

pn

X n

)1( −

− (por. moduł 1), która

przy dużych wartościach n ma rozkład zbliżony do rozkładu normalnego N(0, 1).

Page 40: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

40

Dla zadanego z góry współczynnika ufności α−1 w tablicach rozkładu normalnego odczytujemy taką

wartość αu , aby ααα −=<<− 1 uUuP , tzn. taką wartość αu aby 2

1)(α

α −=uF .

Podstawiając w miejsce U podaną wyżej statystykę otrzymujemy:

ααα −=

<−

−<− 1

)1(u

n

pp

pn

X

uP

n

Po odpowiednich przekształceniach otrzymamy

ααα −=

−+<<−− 1

)1()1(

n

ppu

n

Xp

n

ppu

n

XP nn

Zmienna losowa Xn przyjmuje wartości równe liczbie k jednostek w próbie posiadających wyróżniony

wariant cechy. Dla dostatecznie dużych n możemy w granicach przedziału przyjąć n

kp = . W ten sposób

otrzymamy przybliżony liczbowy przedział ufności dla wskaźnika struktury (prawdopodobieństwa p) w populacji.

Przedział ten określa wzór:

n

n

k

n

k

un

kp

n

n

k

n

k

un

k

−+<<

−−

11

αα (3.7)

gdzie:

p – szacowany wskaźnik struktury,

n – liczebność próby,

k – liczba jednostek statystycznych w próbie posiadających dany wariant cechy,

αu – wartość odczytana z tablic rozkładu normalnego taka, że 2

1)(α

α −=uF .

Maksymalny błąd oszacowania jest równy połowie długości przedziału ufności, zatem przy szacowaniu wskaźnika struktury jest on równy:

n

n

k

n

k

udn

k

−=

1

ε (3.8)

Jeżeli chcemy uzyskać oszacowanie wskaźnika struktury z maksymalnym błędem szacunku nie większym niż

n

kd na ustalonym poziomie ufności (1-α ), to niezbędną liczbę elementów w próbie ustalamy

następująco:

Page 41: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

41

( )

−⋅

=2

4

)1()1(

2

2

2

2

sytuacjiwd

u

sytuacjiwd

ppu

n

n

k

n

k

α

α

gdzie:

sytuacja (1) – znamy rząd wielkości szacowanego wskaźnika struktury p lub możemy go ocenić na podstawie wstępnej próby o liczebności 1000 ≥n ,

sytuacja (2) – nie znamy rzędu wielkości szacowanego wskaźnika struktury p (zakładamy wówczas wstępnie, że p = 0,5).

Przykład 3.5.

Oszacować metodą przedziałową, jaki procent mieszkańców miasta M nie korzysta z usług zakładów fryzjerskich, jeśli wśród 350 osób o to zapytanych 245 oświadczyło, że nie chodzi do fryzjera. Przyjąć poziom ufności (1 - α ) = 0,99.

Niech p oznacza procent osób w tym mieście nie korzystających z usług zakładów fryzjerskich.

Z podanych informacji wynika, że dla próby o liczebności n = 350 osób wyróżniony wariant cechy (nie

korzysta z usług fryzjera) posiada k = 245 osób. Dla (1-α ) = 0,99 mamy 995,02

1 =− α. W tablicach

rozkładu normalnego odczytujemy F(2,59) = 0,995. Do obliczeń przyjmijmy αu = 2,6

Zgodnie ze wzorem (3.7) mamy:

350350

2451

350

245

6,2350

245

350350

2451

350

245

6,2350

245

−−<<

−− p

Po wykonaniu obliczeń otrzymujemy 0,58 < p < 0,82.

Zatem z prawdopodobieństwem 0,99 możemy twierdzić, że od 58% do 82% mieszkańców tego miasta nie chodzi do fryzjera .

Maksymalny błąd oszacowania wynosi 0,5(82% – 58%) = 12%.

Przykład 3.6.

Jak liczna powinna być próba, aby dla poprzedniego przykładu maksymalny błąd oszacowania, na poziomie ufności (1-α ) = 0,99, nie przekraczał 5%:

przy założeniu, że z wstępnej próby otrzymaliśmy p = 0,68 (to założenie jest zgodne z danymi przykładu),

Page 42: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

42

gdy nie znamy rzędu wielkości szacowanego wskaźnika struktury.

Rozwiązanie (a). Mamy do czynienia z sytuacją (1).

4,5880025,0

471,1

05,0

32,068,06,2)1(2

2

2

2

==⋅=−

=

n

kd

ppun α

W tej sytuacji maksymalny błąd oszacowania nie przekraczający 5% uzyskamy biorąc próbę liczącą 589 osób.

Rozwiązanie (b) Mamy do czynienia z sytuacją (2).

67601,0

76,6

0025,04

6,2

4

2

2

2

==⋅

==

n

kd

un α

W tej sytuacji należy przyjąć, że oczekiwaną dokładność oszacowania uzyskamy biorąc próbę o liczebności n = 676 osób.

Page 43: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

43

Moduł 4 Weryfikacja hipotez statystycznych

4.1. Pojęcia podstawowe

Hipotezą statystyczną nazywamy osąd (przypuszczenie) spełniający dwa warunki:

• dotyczy rozkładu (lub jego parametrów) w zbiorowości generalnej;

• słuszność jego da się sprawdzić (zweryfikować) na podstawie wyników z badania reprezentacyjnego.

Taki osąd może powstać w oparciu o logiczne przesłanki lub obserwacje dotyczące badanego zjawiska.

Rozróżniamy (podobnie, jak przy estymacji) hipotezy parametryczne i nieparametryczne. Pierwsze z nich dotyczą parametrów rozkładu (np. średniego poziomu cechy lub jej dyspersji), drugie natomiast – charakteru (rodzaju) rozkładu (np. przypuszczamy, że zmienna X w zbiorowości generalnej ma rozkład normalny).

Metodę weryfikacji hipotez statystycznych nazywamy testem (testowaniem) statystycznym. Jest to reguła postępowania, określająca sposób sprawdzania słuszności hipotezy oraz warunki, w których podejmujemy decyzje, że dana hipoteza jest słuszna (należy ją przyjąć) lub, że jest niesłuszna (należy ją odrzucić). Ponieważ weryfikacji dokonujemy w oparciu o wyniki próby losowej (a nie badania całkowitego), należy liczyć się z możliwością popełnienia błędu (podjęcia niewłaściwej decyzji co do słuszności weryfikowanej hipotezy). Rozróżniamy tu dwa rodzaje błędów:

Na podstawie wyników z próby podejmujemy decyzję o odrzuceniu hipotezy, podczas gdy w rzeczywistości jest ona słuszna (o czym można przekonać się jedynie na podstawie badania całkowitego); jest to tzw. błąd pierwszego rodzaju. Prawdopodobieństwo popełnienia tego błędu oznaczamy najczęściej symbolem α.

Na podstawie wyników z próby podejmujemy decyzję o uznaniu weryfikowanej hipotezy za słuszną (przyjęcie hipotezy) podczas gdy jest ona w rzeczywistości niesłuszna; jest to tzw. błąd drugiego rodzaju. Prawdopodobieństwo popełnienia takiego błędu oznaczamy symbolem β.

Test statystyczny powinien być tak zbudowany, aby zapewnić możliwie małe prawdopodobieństwo podjęcia niesłusznej decyzji. Wartości prawdopodobieństw α i β są jednak ze sobą związane: zmniejszając poziom α zwiększamy jednocześnie poziom β i odwrotnie. Trudno więc wyobrazić sobie jednoczesną minimalizację obu tych wartości.

Do najczęściej stosowanych testów statystycznych należy grupa tzw. testów istotności, która stanowi pewien kompromis w stosunku do wymogu minimalizacji prawdopodobieństwa podjęcia fałszywej decyzji. Tego rodzaju testy są tak zbudowane, aby zapewnić możliwie małe prawdopodobieństwo popełnienia błędu drugiego rodzaju, przy określonym z góry, zaakceptowanym przez organizatorów badania prawdopodobieństwie popełnienia błędu pierwszego rodzaju α (tzw. poziomie istotności). Ustalamy z reguły niskie (bliskie zeru) wartości poziomu α (np. 0,01; 0,02; 0,05; zwykle nie więcej niż 0,1).

Poziom istotności α określa wiarygodność wyniku weryfikacji. Przyjęcie np. α = 0,05 oznacza, że zgodzimy się z ryzykiem, iż w pięciu przypadkach na 100 podejmujemy na podstawie wyników z próby niesłuszną decyzję o odrzuceniu weryfikowanej hipotezy.

Testy istotności określają, w jakich warunkach powinniśmy podjąć decyzję o odrzuceniu hipotezy zerowej, gdy wyniki z próby wskazują na jej fałszywość. Nie dają one natomiast odpowiedzi jaką decyzję należy podjąć w przypadku, gdy wyniki z próby nie wskazują na fałszywość weryfikowanej hipotezy. W takiej sytuacji mówią jedynie, że na podstawie zgromadzonego w próbie materiału statystycznego nie mamy podstaw do jej odrzucenia (nie potrafimy dowieść jej niesłuszności).

Page 44: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

44

Budując test statystyczny wykonujemy kolejno szereg czynności.

1) Definiujemy tzw. hipotezę zerową (H0), która będzie podlegać weryfikacji. W testach istotności formułujemy ją wbrew logicznym przesłankom (czy wynikom z próby), aby prawdopodobieństwo odrzucenia jej było duże. Z reguły jest to hipoteza prosta (mająca tylko jedno rozwiązanie). Np. przy weryfikacji hipotezy o poziomie średniej płacy w badanej gałęzi przemysłu, możemy ją wyrazić: H0: m = 2100 zł (gdzie m jest średnią płacą w zbiorowości generalnej).

2) Dokonujemy wyboru tzw. sprawdzianu hipotezy. Jest to (podobnie, jak ma to miejsce w przypadku estymatora) zmienna losowa o znanym rozkładzie, która w różnych próbach może przyjmować różne wartości. Jeżeli oznaczymy ją symbolem nT , to w n-elementowej próbie przyjmuje ona

konkretną wartość tn, na podstawie której podejmujemy decyzję o słuszności H0. W testach parametrycznych sprawdzianami są estymatory odpowiednich parametrów np. podczas weryfikacji hipotezy przytoczonej w punkcie 1 najlepszym sprawdzianem jest średnia arytmetyczna X .

3) Definiujemy tzw. hipotezę alternatywną H1 (konkurencyjną do H0, którą skłonni jesteśmy przyjąć w razie odrzucenia hipotezy zerowej), mogącą przyjąć każde rozwiązanie poza zawartym w H0. Choć da się ją przedstawić w postaci hipotezy prostej, zwykle stosujemy hipotezę złożoną (zawierającą więcej, niż jedno rozwiązanie). Np. przy H0: m = 2100 zł, hipotezę alternatywną można zdefiniować jako: 2100:1 >mH zł, lub 2100:1 <mH zł, czy wreszcie 2100:1 ≠mH zł. Najczęściej H1 jest zgodna z logicznymi przesłankami badania lub z wynikami z próby.

4) Ustalamy obszar krytyczny. Sprawdzian testu, jak każda zmienna losowa, charakteryzuje się określonym rozkładem. Graficznie rozkład ten można przedstawić przy pomocy wykresu ograniczającego określoną powierzchnię w układzie współrzędnych. Całą powierzchnią pod krzywą (równą jedności) dzielimy na dwa obszary: obszar odrzucenia H0, którego powierzchnia wynosi α i zawiera krytyczny zbiór tych wartości sprawdzianu, które przemawiają za odrzuceniem H0, oraz obszar przyjęcia H0, którego powierzchnia jest równa 1-α. Obszar odrzucenia określamy na jeden z trzech sposobów:

• prawostronnie (gdy wartość parametru w H1 jest większa od jego wartości w H0);

• lewostronnie (gdy wartość parametru w H1 jest mniejsza od jego wartości w H0);

• dwustronnie (gdy wartość parametru w H1 jest różna od wartości w H0).

Wartość sprawdzianu rozdzielająca te dwa obszary (tzw. wartość krytyczna) odczytywana jest z tablic dystrybuanty odpowiedniego rozkładu. W niektórych przypadkach tablice statystyczne zawierają nie dystrybuanty rozkładu, ale wartości krytyczne dla testów dwustronnych, lub jednostronnych (lewo- lub prawostronnych).

Obliczamy wartość, jaką przyjął sprawdzian w naszej n-elementowej próbie. Jeżeli wynik z próby przyjął wartość z obszaru odrzucenia – odrzucamy H0 uznając tym samym, że słuszna jest hipoteza alternatywna H1. Jeżeli wynik ten znalazł się poza obszarem odrzucenia – stwierdzamy (w testach istotności przy przyjętym poziomie α), że nie mamy podstaw do odrzucenia H0.

Należy pamiętać, że wartość poziomu istotności wpływa na powierzchnię objętą obszarem odrzucenia, a więc również na fakt przyjęcia lub odrzucenia weryfikowanej hipotezy.

4.2. Weryfikacja (testowanie) hipotez o wartości przeciętnej

Aby zweryfikować hipotezę o wartości przeciętnej wykonujemy kolejno czynności, o których była mowa w paragrafie 4.1. przy zastosowaniu testów istotności.

1.Formułujemy hipotezę zerową, którą będziemy weryfikować:

Page 45: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

45

00 : mmH =

Najlepszym sprawdzianem (podobnie, jak najlepszym estymatorem) jest w przypadku wartości przeciętnej

średnia arytmetyczna z próby X . Rozkład sprawdzianu zależy od rozkładu zmiennej X w zbiorowości generalnej. Zakładamy, że w zbiorowości tej ma ona rozkład normalny )),(( σmN . Przy takim założeniu, spotykamy się z jedną z trzech możliwych sytuacji, w zależności od posiadanych informacji o zbiorowości generalnej:

Jeżeli znamy wartość odchylenia standardowego σ rozkładu normalnego zmiennej X to, przy założeniu

prawdziwości hipotezy zerowej i niezależnym schemacie losowania, sprawdzian X ma rozkład normalny

nmN

σ,0 , a jego standaryzowana postać:

nmX

0−=

(4.2)

ma rozkład normalny )1,0(N .

Jeżeli nie znamy wartości σ to przy założeniach jak wyżej oraz w sytuacji, kiedy liczebność próby n ≤ 30, korzystamy z twierdzenia, że sprawdzian:

101 −

−=− n

s

mXTn

(4.3)

ma rozkład Studenta o (n-1) stopniach swobody (s jest odchyleniem standardowym z

próby).

Bez względu na rozkład zmiennej X w zbiorowości generalnej możemy określić rozkład sprawdzianu losując dużą próbę. Przyjmujemy wtedy, że wartość odchylenia standardowego w próbie jest w przybliżeniu równa tej wartości w zbiorowości generalnej (σ≈s) i stosujemy taką samą postać sprawdzianu jak w punkcie a) stwierdzając, że przy założeniu prawdziwości hipotezy H0 sprawdzian ma rozkład

asymptotycznie normalny:

n

smNas ,0 , a jego standaryzowana postać:

ns

mXU 0−

=

(4.4)

ma rozkład normalny o parametrach odpowiednio 0 i 1, tzn. )1,0(Nas

Definiujemy hipotezę alternatywną 1H (konkurencyjną do 0H ). W zależności od logicznych przesłanek

lub od wyniku z próby można w niej stwierdzić, że 0mm > , 0mm < lub 0mm ≠ (patrz par. 4.1.).

Ustalamy poziom istotności α (prawdopodobieństwo popełnienia błędu I rodzaju), na który zgadzamy się w badaniu oraz określamy obszar odrzucenia 0H (lewo-, prawo- lub dwustronnie – w zależności od

brzmienia 1H ). Z tablic odpowiedniego rozkładu odczytujemy wartość krytyczną tα sprawdzianu. Wartość ta w przypadku weryfikacji hipotez zależna jest od rodzaju obszaru odrzucenia oraz rozkładu sprawdzianu testu.

Sprawdzamy, czy wartość, jaką przyjął sprawdzian w próbie znalazła się w obszarze odrzucenia H0, czy w obszarze przyjęcia. W pierwszym przypadku odrzucamy hipotezę zerową, mówiącą, że 0mm = na

korzyść hipotezy alternatywnej. W drugim stwierdzamy, że nie mamy podstaw do odrzucenia 0H .

Page 46: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

46

Przykład 4.1.

Chcemy zweryfikować hipotezę mówiącą, że przeciętna kaloryczność ciasta nie różni się od 300 kcal. W tym celu zbadaliśmy liczbę kalorii podawaną przy przepisach na ciasta w pewnej książce kucharskiej. Dla 25 przepisów otrzymano średnią wynoszącą 323,5 kcal z odchyleniem 55 kcal. Przyjmijmy poziom istotności (prawdopodobieństwo popełnienia błędu I rodzaju) α = 0,03.

Definiujemy hipotezę podlegającą weryfikacji jako hipotezę prostą:

H0: m=300 [kcal]

Na podstawie sposobu w jaki sformułowaliśmy problem stwierdzamy, że hipoteza alternatywna przyjmie postać:

H1: m≠300 [kcal]

Zakładamy, że zmienna wyrażająca kaloryczność ciasta ma rozkład normalny. Nie znamy jednak jego odchylenia standardowego. Liczebność próby jest mniejsza od 30, dlatego użyjemy sprawdzianu danego wzorem (4.3), który ma rozkład Studenta o (n-1) stopniach swobody.

Z uwagi na liczebność próby, przyjęty poziom istotności oraz obustronny obszar odrzucenia (patrz hipoteza H1), w tablicach poszukujemy wartości dla α = 0,03 oraz 24 stopni swobody. Z tablic rozkładu Studenta dowiadujemy się, że tα=2,31. Na podstawie wyników z próby obliczamy wartość empiryczną sprawdzianu:

09,212555

3005,323 =−−=T

Wartość |T| okazała się mniejsza od tα wobec czego na poziomie istotności 0,03 nie mamy podstaw do odrzucenia hipotezy H0 mówiącej, że przeciętna kaloryczność ciasta nie różni się od 300 kcal.

Rozważmy teraz powyższy przykład zakładając inny, mianowicie wynoszący 0,06 poziom istotności. Wartość empiryczna nie ulegnie rzecz jasna zmianie w przeciwieństwie do wartości krytycznej, która dla nowego poziomu istotności i dotychczasowej (czyli równej 24) liczby stopni swobody wyniesie tα=1,97.

Okazało się, że podwyższenie poziomu istotności spowodowało iż zachodzi |T|>tα co oznacza odrzucenie hipotezy H0 na rzecz H1 twierdzącej, że przeciętna kaloryczność ciast różni się od 300 kcal. a różnica ta jest statystycznie istotna. Proponujemy sprawdzenie jak na rezultaty weryfikacji wpływa zmiana liczebności próby.

4.3. Weryfikacja hipotez statystycznych o równości wartości przeciętnych w dwóch zbiorowościach generalnych

W wielu przypadkach otrzymujemy dla prób wylosowanych z dwóch różnych zbiorowości generalnych (lub dwóch podzbiorów tej samej zbiorowości) odmienne wartości średniej dla badanej zmiennej. Musimy stwierdzić, czy różnica między nimi jest przypadkowa (wynikająca wyłącznie z faktu, że przeprowadzono badanie częściowe, a nie całkowite), czy też jest ona statystycznie istotna i świadczy o pewnej prawidłowości. Najlepszy sprawdzian stanowi w tym wypadku różnica między średnimi arytmetycznymi z

wylosowanych prób: 21 XXZ −= . W zależności od posiadanych informacji dotyczących badanych zbiorowości jesteśmy w stanie wyróżnić kilka przypadków, przy czym w każdym z nich hipoteza zerowa jest hipotezą prostą i zakłada równość obu średnich w zbiorowościach generalnych ( 210 : mmH = ).

Podzielimy postępowanie podczas weryfikacji hipotez o równości dwóch wartości przeciętnych na następujące przypadki:

Page 47: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

47

Jeżeli mamy prawo sądzić, że zmienna X w obu zbiorowościach ma rozkład normalny (X1 rozkład N(m1;σ1) oraz X2 rozkład N(m2;σ2)) o znanych odchyleniach standardowych 1σ i 2σ to sprawdzian U ma (przy

zastosowaniu niezależnego schematu losowania i założeniu słuszności 0H ) również rozkład normalny,

którego standaryzowana postać dana jest wzorem:

2

22

1

21

21

nn

XXU

σσ+

−=

(4.5)

Powyższa statystyka ma rozkład normalny standaryzowany, co pozwala na korzystanie z tablic tego rozkładu. Wzór (4.5) można stosować bez względu na liczebności prób n1 i n2.

Jeżeli zakładamy, że zmienna X ma rozkład normalny, ale nie znamy wartości odchyleń 1σ i 2σ , to przy

małych próbach (n1≤30 i n2≤30), przyjęciu założenia, że 1σ = 2σ , zastosowaniu niezależnego schematu

losowania oraz założeniu słuszności 0H standaryzowana postać sprawdzianu wyraża się wzorem:

+

−++

−=−

2121

222

211

211

11

2 nnnn

snsn

XXTn

(4.6)

gdzie 22

21 , ss są wariancjami z prób. Sprawdzian ma rozkład Studenta o k = ( 221 −+ nn ) stopniach

swobody.

Jeżeli dysponujemy dużymi próbami ( 301 >n i )302 >n , wtedy przyjmujemy, że 11 s≈σ oraz 22 s≈σ

i stosujemy schemat z punktu a), podstawiając zamiast 1σ i 2σ wartości odchyleń standardowych z prób

czyli 1s i 2s .

We wszystkich przypadkach dalsze postępowanie podczas weryfikacji hipotez przebiega w taki sam sposób, jak opisano w paragrafie 4.1. tzn.: na podstawie logicznych przesłanek lub wyników z próby definiujemy 1H (m1>m2, m1<m2, lub m1≠m2); przyjmujemy dopuszczalny poziom istotności; określamy

obszar odrzucenia sprawdzianu; z tablic odpowiedniego rozkładu odczytujemy wartość krytyczną αt lub

αu oddzielającą obszar krytyczny; sprawdzamy, w jakim obszarze znalazła się wartość sprawdzianu z prób

i podejmujemy odpowiednią decyzję co do słuszności 0H : odrzucamy ją na korzyść 1H lub stwierdzamy,

że nie mamy podstaw do jej odrzucenia na podstawie przeprowadzonego testu. W tym drugim przypadku możemy np. zwiększyć poziom istotności α lub przeprowadzić ponowne badanie na większej próbie.

Przykład 4.2.

Istnieje pogląd, że absencja w pracy mężczyzn jest średnio niższa niż absencja kobiet. Zbadanie słuszności tego poglądu jest możliwe (ze względu na bardzo duże zbiorowości generalne) tylko przy zastosowaniu badania reprezentacyjnego. Załóżmy, że 1m oznacza średnią roczną absencję (w dniach) mężczyzn, a 2m -

kobiet. Załóżmy również, że godzimy się na prawdopodobieństwo popełnienia błędu I rodzaju 05,0=α .

Weryfikowaną hipotezę definiujemy jako hipotezę prostą:

210 : mmH =

Page 48: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

48

Z postawionego na wstępie osądu wynika, że hipotezę alternatywną sformułujemy następująco:

211 : mmH <

Spośród zatrudnionych mężczyzn i kobiet do badania wylosowano po 100 osób i uzyskano wyniki:

151 =m dni, 41 =s dni, 172 =m dni, 52 =s dni

Ponieważ mamy do czynienia z dużą próbą możemy – przy założeniu, że absencja w obu zbiorowościach ma rozkład normalny – zastosować sprawdzian dany wzorem (4.5), który (zakładając słuszność 0H ) ma

rozkład asymptotycznie normalny )1,0(: NasU

Ze względu na brzmienie 1H obszar odrzucenia ustalamy lewostronnie. Z tablic rozkładu normalnego odczytujemy wartość krytyczną sprawdzianu (dla przyjętego poziomu istotności oraz jednostronnego obszaru odrzucenia w tablicach szukamy wartości dla: 95,005,011 =−=− α ): 65,1−=αu . Na

podstawie wyników z próby obliczamy wartość empiryczną sprawdzianu:

12,3

100

5

100

4

171522

−=

+

−=U

Ponieważ αuU < , więc – przy lewostronnym obszarze odrzucenia – odrzucamy 0H mówiącą, że średnia

absencja kobiet jest taka sama jak mężczyzn, stwierdzając słuszność hipotezy alternatywnej, mówiącej iż mężczyźni opuszczają w pracy średnio mniej dni rocznie, niż kobiety, przy czym różnica ta jest statystycznie istotna.

4.4. Weryfikacja hipotezy o poziomie wskaźnika struktury

Testy te są stosowane zarówno gdy badamy zbiorowość obserwowaną z punktu widzenia cechy mierzalnej, jak i niemierzalnej. Podkreślmy, że przy weryfikacji hipotezy wskaźniki struktury powinny być obliczane wyłącznie dla prób o dużej liczbie obserwacji ( 100≥n ).

Jeżeli wskaźnik struktury (udział jednostek z wyróżnionym poziomem, czy wariantem cechy) oznaczymy symbolem „p”, to hipotezę zerową definiujemy jako hipotezę prostą:

00 : ppH =

(np. stawiamy przypuszczenie, że udział wydatków na żywność w ogólnych wydatkach wynosi 30%, czyli 3.00 =p ).

Najlepszym sprawdzianem dla weryfikacji tej hipotezy jest wskaźnik struktury w wylosowanej próbie:

n

kw =

(4.7)

gdzie:

k – liczba jednostek w n-elementowej próbie mających wyróżniony wariant cechy.

Charakteryzuje się on rozkładem asymptotycznie normalnym, którego standaryzowana wartość przyjmuje postać:

Page 49: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

49

n

qp

pn

k

U00

0−= (4.8)

gdzie: 00 1 pq −=

Sprawdzian ten, przy założeniu słuszności 0H , ma rozkład )1,0(: NasU , co pozwala korzystać z tablic

dystrybuanty rozkładu normalnego.

Dalsze postępowanie przebiega podobnie jak w paragrafie 4.1. Ustalamy dopuszczalne prawdopodobieństwo popełnienia błędu I rodzaju )(α , formułujemy hipotezę alternatywną, przyjmując

jedno z trzech możliwych rozwiązań ;:( 01 ppH > ;: 01 ppH < 01 : ppH ≠ ) i w zależności od jej

brzmienia obszar odrzucenia 0H określamy jako prawo-, lewo- lub dwustronny (przykładowo przyjęcie,

że udział wydatków na żywność jest większy niż 30%, daje 3,0:1 >pH ). Następnie z tablic

dystrybuanty rozkładu odczytujemy wartość krytyczną sprawdzianu αu .

Na wylosowanej próbie obliczamy empiryczną wartość sprawdzianu U i badamy, czy znalazła się ona w obszarze odrzucenia 0H . Jeśli tak, to hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej (np.,

że udział wydatków na żywność jest wyższy niż 30%).

W drugim przypadku – gdy wynik z próby znajdzie się w obszarze przyjęcia – stwierdzamy, że posiadane informacje z próby nie pozwalają na odrzucenie 0H na danym poziomie istotności. W takiej sytuacji

możemy zwiększyć α (co „przesunie” wartość krytyczną sprawdzianu i powiększy obszar odrzucenia) lub powtórzyć badanie zwiększając liczebność próby.

Przykład 4.3.

Analizując wiek osób komentujących wpisy na pewnym blogu internetowym postanowiono zweryfikować hipotezę, że odsetek osób w wieku 20-30 lat wynosi 50%. W tym celu, w sposób niezależny wylosowano 150 osób. 70 spośród nich podało, że ma od 20 do 30 lat.

Przy tak dużej próbie możemy przyjąć, że wiek osób komentujących wpisy na blogu jest zmienną losową o rozkładzie normalnym. Jako prawdopodobieństwo popełnienia błędu I rodzaju przyjmiemy 0,06.

Sposób sformułowania problemu powoduje, że hipoteza weryfikowana przyjmie postać:

H0: p=0,5

Z kolei hipotezę alternatywną zapiszemy:

H1: p≠0,5

Sprawdzian testu (o rozkładzie asymptotycznie normalnym) wyrażony został wzorem (4.8). Wartość

krytyczną odczytujemy z tablic rozkładu N(0,1) dla 97,02

06,01

21 =−=− α

. Stąd mamy uα= 1,88.

W wylosowanej próbie 80 osób spełniło przyjęte kryterium, czyli ich wiek znalazł się w interesującym nas przedziale. Wartość empiryczna wyniesie zatem:

Page 50: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

50

82,0

150

5,05,0

5,0150

70

−=⋅

−=U

Ponieważ |U|<uα stwierdzamy, że na poziomie istotności 0,06 nie mamy podstaw do odrzucenia hipotezy H0 mówiącej, że odsetek osób w wieku 20-30 lat komentujących blog nie różni się od 50%.

Zastanówmy się teraz jak na wyniki weryfikacji wpłynie wzrost liczebności próby. Załóżmy, że losowanie wyłoniło 200 osób. Pozostałe parametry (w tym wartość krytyczna) pozostają bez zmian. Nowa, empiryczna wartość sprawdzianu testu wyniesie:

24,4

200

5,05,0

5,0200

70

−=⋅

−=U

Tym razem |U|>uα co oznacza, że odrzucamy hipotezę zerową na rzecz alternatywnej, zakładającej iż odsetek osób w badanym przedziale wiekowym istotnie różni się od 50%. Widzimy więc, że wzrost liczebności próby (przy niezmienionym poziomie istotności) może spowodować odrzucenie H0, której przedtem nie mieliśmy podstaw zanegować.

4.5. Weryfikacja hipotezy o równości dwóch wskaźników struktury

Jeżeli badamy dwie zbiorowości z punktu widzenia tej samej cechy, możemy zapragnąć przekonać się, czy udział jednostek z wyróżnionymi wariantami cechy jest w obu zbiorowościach taki sam. Hipotezę zerową definiujemy wtedy jako hipotezę prostą:

210 : ppH =

gdzie 1p i 2p oznaczają udziały jednostek z wyróżnionym wariantem badanej cechy w pierwszej i drugiej zbiorowości.

Najlepszym sprawdzianem przy weryfikacji tej hipotezy jest różnica wskaźników struktury w dwóch próbach o liczebnościach wynoszących odpowiednio 1n i 2n , przy czym zachodzi: 1001 ≥n i 1002 ≥n . Standaryzowana wartość sprawdzianu ma postać:

n

qp

n

k

n

k

U 2

2

1

1 −=

(4.9)

gdzie:

,21

21

nn

kkp

++=

21

21

nn

nnn

+= , pq −= 1

21, kk oznaczają odpowiednio liczbę wyróżnionych elementów w próbie pierwszej i drugiej,

Page 51: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

51

Sprawdzian dany wzorem (4.9), przy założeniu słuszności 0H , ma rozkład asymptotycznie normalny

)1,0(Nas . Sposób weryfikacji tej hipotezy będzie więc przebiegał jak w par. 4.1.

Przykład 4.4.

Przedsiębiorstwo produkuje ten sam wyrób na dwóch liniach produkcyjnych A i B. Istnieje pogląd, że na linii B otrzymuje się produkcję wyższej jakości. Postanowiono zbadać jego słuszność, przyjmując jako wyznacznik jakości produkcji odsetek braków. Wylosowano w sposób niezależny po 100 sztuk danego produktu, uzyskując 9 sztuk wadliwych z linii A i 3 sztuki wadliwe z linii B. Należy sprawdzić, czy uzyskana różnica w udziale sztuk wadliwych jest statystycznie istotna, czy przypadkowa.

Hipotezę zerową zdefiniujemy jako hipotezę prostą:

BA ppH =:0

Hipotezę alternatywną – zgodnie z wynikiem z próby, zapiszemy:

BA ppH >:1

Jako sprawdzian przyjmujemy różnicę wskaźników struktury; jego standaryzowana postać ma przy założeniu słuszności 0H rozkład asymptotycznie normalny: )1,0(Nas .

W przeprowadzonym badaniu:

50200

00010

100100

100100,94,01;06,0

100100

39 ==+⋅==−==

++= npqp

Stąd wartość, jaką sprawdzian przyjął w próbie wynosi:

79,1

50

94,006,0

03,009,0 =⋅

−=U

Organizator badania wyraził zgodę na pięcioprocentowe ryzyko popełnienia błędu I rodzaju (odrzucenia

0H , gdy w rzeczywistości jest ona prawdziwa), ustalamy więc 05,0=α . Zgodnie z 1H przyjmujemy

prawostronny obszar odrzucenia 0H . W tablicach dystrybuanty rozkładu normalnego znajdujemy wartość

krytyczną sprawdzianu, czyli taką jego wartość, dla której dystrybuanta wynosi 0,95: 65,1=αu .

Ponieważ αuU > , czyli wynik z próby znalazł się w obszarze odrzucenia, stwierdzamy, że 0H mówiąca

o jednakowym odsetku braków na obu liniach produkcyjnych jest niesłuszna, odsetek ten na linii A jest wyższy niż na linii B, przy czym różnica ta jest statystycznie istotna.

W tabeli poniżej znalazły się obszary krytyczne dla wszystkich opisanych powyżej testów istotności w zależności od rodzaju hipotezy alternatywnej.

Page 52: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

52

Tab. 1. Weryfikacja wybranych testów parametrycznych przy przyjętym

poziomie istotności α

H0: m=m0

H0: p=p0 H1: m≠m0

H1: p≠p0

H1: m>m0

H1: p>p0 H1: m<m0

H1: p<p0 H0: m1=m2

H0: p1=p2

Rodzaje weryfikowanych hipotez

H1: m1≠m2

H1: p1≠p2

H1: m1>m2

H1: p1>p2 H1: m1<m2

H1: p1<p2 Rodzaj obszaru odrzucenia

Obustronny Prawostronny Lewostronny

Wartość odczytywana z tablic rozkładu Φ(uα)=

21

α−

tα dla α i n-1 lub n2+n1-2

Φ(uα)=1-α

tα dla 2α i n-1 lub n2+n1-2

Φ(uα)=1-α

tα dla 2α i n-1 lub n2+n1-2

Odrzucenie H0 |U|>uα |T|>tα

U>uα T>tα

U<-uα T<-tα

4.6. Test niezależności χ2

Testowanie nie ogranicza się tylko do hipotez parametrycznych. Oprócz wartości parametrów mogą nas interesować własności i charakter rozkładu. Dotyczy to również ustalania, czy między cechami istnieje zależność. Problem pojawia się, kiedy dysponujemy jedynie wynikami z próby a chcemy dowiedzieć się, czy cechy (oznaczmy je jako X i Y) są niezależne w całej zbiorowości generalnej.

Rozwiązaniem staje się, zaliczany do grupy testów nieparametrycznych, test niezależności χ2 (chi-kwadrat). Pozwala on na ocenę współzależności cech bez względu na ich rodzaj, a więc nadaje się do stosowania gdy:

• obie cechy są mierzalne;

• obie cechy są niemierzalne;

• jedna z cech jest mierzalna, a druga niemierzalna.

W teście tym stawiamy następującą hipotezę:

H0: cechy X i Y są niezależne

wobec hipotezy alternatywnej:

H1: cechy X i Y nie są niezależne

Zweryfikowanie hipotezy zerowej wymaga odpowiednio dużej (n>30) próby. Z tego powodu wyniki dla tej próby przedstawia się przy pomocy tablicy dwudzielnej o r kolumnach i s wierszach. Liczba wierszy odpowiada liczbie wariantów cechy X, a liczba kolumn – liczbie wariantów cechy Y. W centralnej części gromadzimy liczebności empiryczne tych elementów próby, dla których cecha X przyjmuje wariant xi zaś cecha Y wariant yj. Są to więc liczby leżące na przecięciu i-tego wiersza oraz j-tej kolumny a oznaczymy je jako nij. Sumy elementów w wierszach, a także w kolumnach nazywamy liczebnościami brzegowymi i oznaczamy odpowiednio: •in oraz jn• .

Sprawdzianem testu jest statystyka:

( )

∑∑= =

−=

s

i

r

j ij

ijij

n

nn

1 1

2

2

ˆ

ˆχ (4.10)

Page 53: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

53

gdzie:

n

nnn ji

ij••=ˆ - liczebności teoretyczne.

Statystyka dana wzorem (4.10) ma, przy założeniu prawdziwości H0, rozkład asymptotyczny χ2 o k=(r-1)(s-1) stopniach swobody. W teście zawsze występuje prawostronny obszar odrzucenia, a więc odrzucimy H0 kiedy wartość empiryczna okaże się większa od wartości teoretycznej.

W sytuacji, gdy odrzucamy hipotezę H0, czyli stwierdzamy, że cechy X i Y nie są niezależne, możemy obliczyć siłę zależności między nimi. Dysponujemy trzema miarami, które da się wykorzystać w tym celu.

Współczynnik φ-Yule’a:

n

2χϕ = (4.11)

Jeżeli:

r=2, s – dowolne, wtedy 0≤φ≤1;

r>2, s – dowolne, wtedy φ może być większe od 1.

Współczynnik T-Czuprowa:

)1)(1(

2

−−=

srnT

χ (4.12)

Jeżeli:

r=s, wtedy 0≤T≤1;

r≠s, wtedy T może być znacznie mniejsze od 1.

Współczynnik V-Cramera:

)1,1min(

2

−−⋅=

srnV

χ (4.13)

Współczynnik ten przyjmuje wartości: 0≤V≤1 przy czym jeżeli:

r=s, wtedy V=T;

r≠s, wtedy V>T.

Interpretacja wszystkich współczynników jest podobna: wartość bliska zero oznacza brak zależności miedzy cechami, im bliższa jedności tym owa zależność jest silniejsza.

Przykład 4.5.

Na zlecenie właściciela pizzerii mamy zweryfikować hipotezę mówiącą, że rodzaj użytej przyprawy wpływa na ilość zamawianych porcji pizzy. Zebrano dane na temat liczby zamawianych porcji tej potrawy przyprawianej czosnkiem lub oregano (próba losowa). Stosowne dane znalazły się w poniższej tabeli.

Page 54: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

54

Rodzaj przyprawy

Liczba porcji Czosnek Oregano

1 0 38

2 30 0

3 18 14

Dla przykładu zinterpretujemy niektóre zawarte w niej wartości: n11=0 oznacza, że nie było klientów, którzy zamówiliby jedną porcję pizzy z czosnkiem zaś n12=38, że 38 klientów zamówiło 1 porcję pizzy z oregano.

Właściciel skłonny jest zaakceptować prawdopodobieństwo popełnienia błędu I rodzaju na poziomie 6%.

Przyjmijmy, że przez X oznaczymy cechę wyrażającą liczbę zamówionych porcji (cecha mierzalna złożona z r=3 wariantów) zaś przez Y – rodzaj dodawanej przyprawy (cecha niemierzalna złożona z s=2 wariantów). Weryfikacji podlega następująca hipoteza:

H0: liczba zamawianych porcji nie zależy od rodzaju przyprawy

wobec hipotezy alternatywnej:

H1: liczba zamawianych porcji nie jest niezależna od rodzaju przyprawy.

W pierwszym kroku wyznaczymy rozkłady brzegowe obu cech (sumując odpowiednie wiersze i kolumny):

Rodzaj przyprawy

Liczba porcji Czosnek Oregano

•in

1 0 38 38

2 30 0 30

3 18 14 32

kn• 48 52 100

Następny etap to obliczenie liczebności teoretycznych:

Rodzaj przyprawy

Liczba porcji Czosnek Oregano

1 18,24 19,76

2 14,40 15,60

3 15,36 16,64

Page 55: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

55

W celu ilustracji obliczeń, które doprowadziły do otrzymania powyższej tabeli, przedstawimy w jaki sposób obliczyliśmy trzy spośród zawartych w niej wartości:

24,18100

483811 =⋅=n , 76,19

100

523812 =⋅=n , 4,14

100

483021 =⋅=n

Jesteśmy więc gotowi do obliczenia empirycznego sprawdzianu testu:

( ) ( ) ( ) ( ) ( )

( )45,68

64,16

64,1652

36,15

36,1548

6,15

6,150

4,14

4,1430

76,19

76,1938

24,18

24,180

2

222222

=−+

+−+−+−+−+−=eχ

W tablicach rozkładu chi-kwadrat poszukujemy wartości krytycznej dla α=0,06 oraz liczby stopni

swobody: l=(3-1)(2-1)=2. Odczytujemy 2αχ =5,627 czyli zachodzi: 22

αχχ >e . Bardzo wyraźnie

odrzucamy hipotezę zerową na rzecz alternatywnej, która mówi, że liczba zamawianych porcji nie jest niezależna od rodzaju przyprawy. W związku z tym możemy ocenić siłę zależności między liczbą zamawianych porcji a rodzajem przyprawy przy pomocy wymienionych wcześniej miar.

827,0100

45,68 ==ϕ

696,0)12()13(100

45,68 =−⋅−⋅

=T

827,0)12,13min(100

45,68 =−−⋅

=V

W praktyce ograniczamy się do jednego, wybranego współczynnika, ale w celach poznawczych obliczyliśmy wszystkie trzy. Ich wartości (bliskie 1) wskazują wyraźnie, że występująca zależność ma silny charakter.

Page 56: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

56

ANEKS 1. Statystyczna analiza struktury zbiorowo ści A1.1. Rodzaje szeregów statystycznych; skale pomiarowe

Wybór rodzaju szeregu statystycznego jaki budujemy dla cech mierzalnych zależy od wielkości badanej zbiorowości statystycznej i liczby wariantów cechy. Bierzemy pod uwagę trzy sytuacje:

1) Zbiorowość mała – wszystkie wartości cechy porządkujemy niemalejąco, otrzymując w ten sposób szereg statystyczny szczegółowy (prosty).

Przykład 1.1a. Badano liczbę czasopism kupowanych tygodniowo przez mieszkańców pewnej kamienicy i otrzymano następujące dane (umowne): 0,0,0,0,1,1,1,1,2,2,2,2,3,3,4,4,5.

2) Próba liczna, ale liczba wartości cechy niezbyt duża (cecha mierzalna skokowa) – budujemy wówczas szereg rozdzielczy punktowy (jednojednostkowy) łącząc jednostki o tych samych wartościach cechy.

Przykład 1.1b. Dane z poprzedniego przykładu można również pogrupować otrzymując szereg rozdzielczy punktowy.

Lp. Liczba czasopism xi

Liczba mieszkańców ni

1 0 4 2 1 5 3 2 4 4 3 2 5 4 2 6 5 1

Razem 18

Istotne znaczenie ma jednak ten sposób grupowania dla prób o większej liczebności.

3) Próba liczna, cecha mierzalna (skokowa lub ciągła) przyjmująca wiele wartości – budujemy szereg rozdzielczy z przedziałami klasowymi (szereg rozdzielczy wielojednostkowy, wielostopniowy), dzieląc wartości cechy na klasy.

Przykład 1.2. Badano staż pracy pracowników pewnej firmy i otrzymano dane:

Lp. Staż pracy (w latach)

Liczba pracowników ni

1 0-3 4 2 3-6 18 3 6-9 30 4 9-12 20 5 12-15 17 6 15-18 6 7 18-21 5

Razem 100

Liczba przedziałów klasowych zależy od liczebności próby. Dla potrzeb obliczeń

wygodnie jest tworzyć przedziały o jednakowej rozpiętości, nie jest to jednak wymóg bezwzględny. Istnieje możliwość stosowania przedziałów o różnej rozpiętości, a także

Page 57: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

57

przedziałów otwartych. Dla cech mierzalnych ciągłych przedziały klasowe tworzy się w ten sposób, że górna granica jednego przedziału jest taka sama jak dolna granica następnego, przy czym jednostki statystyczne charakteryzujące się wartością cechy równą granicy przedziału, zaliczyć można tylko do jednego przedziału. W przykładzie 1.2 osoby o stażu pracy równym 3 lata zostały zaliczone tylko do pierwszego przedziału. Z kolei w przykładzie 1.3 badana cecha – wiek - jest cechą skokową (liczy się rok urodzenia), stąd przedziały klasowe mogą być zapisane jak poniżej.

Przykład 1.3. Dane dotyczące liczby ludności Polski według wieku w 2009 roku (stan w dniu 31 XII) zawiera tabela:

Wiek Liczba ludności (w tys.) 0-19 8312 20-39 11908 40-59 10664 60-79 6026 80 i więcej 1257 Razem 38167 Źródło: www.stat.gov.pl/BazaDemografia

Skale pomiarowe:

1. Nominalna - system notacyjny, pozwalający na identyfikację, klasyfikowanie i nazywanie wyników obserwacji. Pomiar polega na zastosowaniu liczby jako nazwy, zatem liczby służą tylko do oznaczenia jednostek. Jedyną dopuszczalna operacją na liczbach skali nominalnej jest ich zliczanie, np. numer indeksu studenta, numer telefonu, NIP. Szczególnym przypadkiem skali nominalnej jest skala dychotomiczna (dwupunktowa), np. odpowiedź na pytanie: Czy pali Pan/Pani papierosy? - TAK lub NIE.

2. Porządkowa - umożliwia uporządkowanie jednostek (przydzielenie liczb) ze względu na stopień nasilenia pewnej cechy, np. poziom wykształcenia, ocena z przedmiotu (mierząca poziom wiedzy z danej dziedziny), odpowiedź na pytanie: Jak często robisz zakupy przez Internet? - często, niezbyt często, sporadycznie, nigdy.

3. Interwałowa - pozwala na porównywanie różnic między cechami, umożliwia zatem nie tylko identyfikację badanych jednostek (skala nominalna) i ustalenie relacji mniejszości lub większości (skala porządkowa), ale także pozwala na określenie odległości między elementami zbioru, np. skala Celsjusza czy Fahrenheita.

4. Ilorazowa - umożliwia precyzyjne obliczanie relacji między wartościami skali. Na skali ilorazowej można dokonywać wszelkich działań arytmetycznych (np. mnożenie i dzielenie). Ma swoje zastosowanie wyłącznie do cech ilościowych (nie jakościowych), zarówno ciągłych, jak i skokowych, np. waga, wiek, zysk przedsiębiorstwa.

A1.2. Podstawowe charakterystyki liczbowe struktury badanej zbiorowości.

Podstawą analizy struktury zbiorowości są szeregi strukturalne (rozdzielcze), zbudowane w oparciu o cechę mierzalną lub niemierzalną. Najprostszym sposobem przedstawienia struktury dla obu tych przypadków jest wyznaczenie rozkładu empirycznego zbiorowości oraz empirycznej dystrybuanty. Rozkład charakteryzujemy przy pomocy wskaźników struktury wyrażających

Page 58: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

58

stosunek liczby elementów w konkretnej klasie (i-tej) do liczby elementów w całej zbiorowości. Wyznaczamy je więc według wzoru:

∑=

=k

ii

ii

n

nw

1

(A1.1)

gdzie k oznacza liczbę wyróżnionych podzbiorów (klas lub przedziałów klasowych) w szeregu strukturalnym. Wyraża on częstość z jaką dany wariant cechy występuje w badanej zbiorowości. Miernik ten posiada właściwości:

10 ≤≤ iw oraz 11

=∑=

k

iiw

Dla celów publikacyjnych wskaźniki struktury często wyrażamy w procentach i wtedy:

1000 % ≤≤ iw oraz 1001

% =∑=

k

iiw

Jeżeli porównujemy wskaźniki struktury w procentach dla dwóch podzbiorów poprzez ich odejmowanie, to wynik wyrażamy w punktach procentowych, np. gdy udział braków w produkcji jednego artykułu wynosi 3%, a drugiego 5%, to różnica wynosi 2 punkty procentowe. Przykład 1.4.

Kierunki studiów preferowane przez uczniów w badanej szkole.

Kierunek przyszłych studiów

Łączna liczba uczniów i uczennic

in n

nw i

i =

Odsetek

Medycyna 49 ==250

490,196 19,6

Ekonomia 50 0,200 20,0

Filologie obce 24 0,096 9,6

Filologia polska 25 0,100 10,0

Prawo 46 0,184 18,4

Informatyka 33 0,132 13,2

Kierunki techniczne 20 0,080 8,0

Inne 3 0,012 1,2

Razem

250 1,000 100

(dane umowne) Uwaga: Gdy liczebność próby jest mała (n<30) nie korzysta się w zasadzie ze wskaźników struktury.

W szeregach zbudowanych w oparciu o cechy mierzalne stosujemy ponadto syntetyczne (wyrażone przy pomocy jednej wielkości) mierniki (parametry) opisujące strukturę zbiorowości. Należą tu przede wszystkim:

Page 59: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

59

• miary średnie;

• miary zróżnicowania (dyspersji, rozrzutu).

Miary średnie

Miary te należą (obok tzw. kwantyli) do miar tendencji centralnej (miar położenia). Są to takie wartości badanej zmiennej, wokół których skupia się większość wartości analizowanej cechy. Wszystkie miary średnie są wielkościami mianowanymi (mają takie samo miano, jak badana cecha), oraz spełniają warunek: ich poziom mieści się między najmniejszą i największą wartością szeregu (po obliczeniu wartości parametru należy to sprawdzić w ramach kontroli logicznej!). Miary średnie można podzielić na dwie grupy: klasyczne (obliczane ze wszystkich wyrazów szeregu) oraz pozycyjne (wyznaczane z niektórych tylko wyrazów wyróżnionych ze względu na pozycję, jaką zajmują w szeregu).

Najczęściej stosowaną klasyczną średnią jest średnia arytmetyczna. W szeregu szczegółowym stosujemy jej postać prostą:

,1

n

xx

n

ii∑

== (A1.2)

gdzie n oznacza łączną liczbę obserwacji. (Należy sprawdzić warunek: maxmin ii xxx << )

W przypadku szeregów rozdzielczych stosuje się ważoną postać średniej arytmetycznej, gdzie wagami są liczby jednostek posiadających dany (i-ty) poziom badanej cechy:

• dla szeregów punktowych (klas jedno-jednostkowych)

=

==k

ii

k

iii

n

nxx

1

1 (A1.3)

• dla szeregów o przedziałach klasowych wyznaczamy najpierw środek każdego przedziału )( ix& . Środek przedziału jest średnią arytmetyczną obliczoną na podstawie początku i

końca danego przedziału. Wówczas średnia arytmetyczna dla szeregu rozdzielczego ma postać:

=

==k

ii

k

iii

n

nxx

1

1

&

(A.1.4)

Page 60: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

60

Przykład 1.5.

Badanie dotyczące liczby czasopism kupowanych tygodniowo przeprowadzono wśród 200 losowo wybranych mieszkańców osiedla. Otrzymane dane zestawiono w tabeli w postaci szeregu rozdzielczego (kolumny 2 i 3).

Lp.

Liczba czasopism

xi

in ii nx

1 0 15 0 2 1 38 38 3 2 75 150 4 3 46 138 5 4 13 52 6 5 11 55 7 6 2 12

Razem 200 445 (dane umowne)

Zgodnie ze wzorem (A1.3):

x= 225,2200

445 = czasopisma

Oznacza to, że w badanej grupie każdy z 200 mieszkańców osiedla kupuje przeciętnie 2,225≈ 2,2 czasopisma tygodniowo.

Przykład 1.6. – c.d. przykładu 1.2. Badano staż pracy pracowników pewnej firmy i otrzymano dane:

Lp. Staż pracy (w latach) in ix&

ii nx&

1 0 – 3 4 1,5 6,0 2 3 – 6 18 4,5 81,0 3 6 – 9 30 7,5 225,0 4 9 – 12 20 10,5 210,0 5 12 - 15 17 13,5 229,5 6 15 - 18 6 16,5 99,0 7 18 - 21 5 19,5 97,5

Razem 100 948 (dane umowne)

Na podstawie wzoru (A1.4):

x= 48,9100

948= lat

Przeciętny staż pracy pracowników tej firmy wynosił 9,48 lat. W szeregach strukturalnych stosuje się także inne średnie (średnią harmoniczną, medianę i

dominantę), ale nie mają one z reguły zastosowania we wnioskowaniu statystycznym.

Miary zró żnicowania (dyspersji). Określają one stopień zróżnicowania zbiorowości statystycznej z punktu widzenia badanej

cechy. Także w tym przypadku (jak przy średnich) rozróżniamy miary klasyczne i pozycyjne. Jedną z najczęściej stosowanych klasycznych miar dyspersji jest odchylenie standardowe, które wyraża przeciętną odległość poszczególnych wartości zmiennej w badanej zbiorowości od ich średniej arytmetycznej. Miernik ten obliczamy według wzorów:

Page 61: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

61

• dla szeregu szczegółowego

N

xxs

N

ii

x

∑=

−= 1

2)(, (A1.5)

• dla szeregu rozdzielczego punktowego:

=

=

−= k

ii

k

iii

x

n

nxxs

1

1

2)(, (A1.6)

• dla szeregu rozdzielczego z przedziałami klasowymi:

=

=

−= k

ii

k

iii

x

n

nxxs

1

1

2)( &. (A1.7)

W każdym z trzech powyższych przypadków otrzymujemy wartość mianowaną (posiadającą takie samo miano jak badana cecha).

Kwadrat odchylenia standardowego )( 2xs nazywamy wariancją. Pojęcie to jest często

stosowane we wnioskowaniu statystycznym. Jeżeli chcemy porównać stopień rozproszenia dwóch (lub więcej szeregów) to obliczamy

względną (stosunkową) miarę rozproszenia – współczynnik zmienności, wyrażoną w procentach średniej arytmetycznej.

100⋅=

x

sV x

sx. (A1.8)

Przykład 1.7. - c.d. przykładu 1.6.

Lp.

Staż pracy (w latach) in ix& ( )2xxi −& ( ) ii nxx 2−&

1 0 – 3 4 1,5 63,68 254,72 2 3 – 6 18 4,5 24,8 446,40 3 6 – 9 30 7,5 3,92 117,60 4 9 – 12 20 10,5 1,04 20,80 5 12 – 15 17 13,5 16,16 274,72 6 15 – 18 6 16,5 49,28 295.68 7 18 – 21 5 19,5 100,4 502,00

∑ 100 1911,92

Średnia arytmetyczna: x = 9,48 lat. Odchylenie standardowe:

( ) 37,41192,19100

92,19111

1

2 ≈==−= ∑=

k

iiix nxx

ns & roku.

1,4610048,9

37,4 =⋅=xsV

Page 62: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

62

Staż pracy pracowników tej firmy różni się od średniej arytmetycznej przeciętnie o 4,37 roku, co stanowi 46,1% średniej.

Oprócz odchylenia standardowego występują inne miary dyspersji klasyczne (np. odchylenie przeciętne) i pozycyjne (np. odchylenie ćwiartkowe obliczone w oparciu o tzw. kwartyle).

A1.3. Badanie zależności między cechami

Badanie zbiorowości ze względu na dwie cechy ma zazwyczaj na celu poszukiwanie zależności między tymi cechami. Poszukiwanie to ma sens tylko wtedy, gdy między cechami może istnieć logicznie uzasadniony związek przyczynowo-skutkowy. Analizując związek przyczynowo-skutkowy ustalamy, która z badanych cech może być traktowana jako cecha niezależna, a którą uznamy za cechę zależną, np. badając wpływ powierzchni sklepów (X) na wysokość utargu (Y) przyjmiemy, że cechą niezależną będzie powierzchnia sklepów (X) zaś utarg będzie cechą zależną. W niektórych przypadkach można stwierdzić zarówno wpływ cechy X na cechę Y jak i odwrotnie. Mówimy wówczas o współzależności cech, np. spożycie cukru i mąki w gospodarstwach domowych.

Zależność między cechami może mieć charakter:

a) funkcyjny - polegający na tym, że każdej wartości zmiennej X odpowiada ściśle określona i tylko jedna wartość zmiennej Y. Przykładem jest tu zależność między ceną a wartością towaru.

b) stochastyczny (definiowany za pomocą pojęć z rachunku prawdopodobieństwa). Zależność stochastyczna (probabilistyczna) polega na tym, że zależne są rozkłady prawdopodobieństwa zmiennych X i Y. W praktyce oznacza to, że wpływ jednej zmiennej na drugą jest zależny również od czynników losowych, wspólnie działających na obie zmienne, oprócz innych czynników działających na każdą z nich oddzielnie.

Szczególnym przypadkiem zależności stochastycznej jest zależność statystyczna (korelacyjna) występująca między cechami mierzalnymi lub quasi-mierzalnymi. Polega ona na tym, że określonym wartościom jednej zmiennej przyporządkowane są ściśle określone średnie wartości drugiej zmiennej.

Pod względem kierunku wyróżniamy korelację dodatnią i ujemną. Korelacja dodatnia występuje wtedy, gdy wzrostowi wartości jednej cechy odpowiada wzrost

średnich wartości drugiej cechy.

Korelacja ujemna występuje wtedy, gdy wzrostowi wartości jednej cechy odpowiada spadek średnich wartości drugiej cechy.

Jeśli wstępna analiza pozwoli na stwierdzenie istnienia korelacyjnej zależności prostoliniowej między cechami, to do oceny siły tego związku najczęściej wykorzystujemy współczynnik korelacji liniowej Pearsona. Współczynnik ten można wyznaczać tylko w przypadku, gdy obie cechy są mierzalne.

Współczynnik Pearsona dla szeregów szczegółowych obliczamy według następujących wzorów:

( )( )

( ) ( ) yxn

ii

n

ii

n

iii

n

i

n

iii

n

iii

xy ss

yx

yyn

xxn

yxyxn

yyxx

yyxxr

),cov(

11

1

1

22

1

22

1

1 1

22

1 =

−=

−−

−−=

∑∑

∑ ∑

==

=

= =

= (A1.9)

Page 63: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

63

Ujemny współczynnik korelacji wskazuje na istnienie ujemnej, a dodatni – na istnienie dodatniej korelacji między cechami. Jeśli znamy wartość kowariancji i odchylenia standardowego każdej z cech, możemy obliczyć wartość współczynnika korelacji Pearsona z ostatniego ze wzorów podanych w (1.9).

Współczynnik korelacji Pearsona ma następujące własności:

1) 11 ≤≤− yxr

2) Im większa wartość bezwzględna współczynnika yxr , tym silniejsza jest zależność między

cechami. Umownie przyjmuje się, że gdy 2,0|| ≤yxr to orzekamy brak zależności

liniowej między cechami.

3) xyyx rr = – zatem współczynnik korelacji nie wskazuje, która cecha jest od której zależna.

Uwaga 1. Gdy wartość bezwzględna współczynnika korelacji jest bliska zeru, nie oznacza to braku

zależności między cechami, a jedynie brak zależności liniowej (może istnieć krzywoliniowa).

Uwaga 2. Jeśli w tablicy korelacyjnej występują przedziały klasowe, to przy obliczaniu kowariancji i

współczynnika korelacji bierzemy środki tych przedziałów klasowych.

Kwadrat współczynnika korelacji: 2xyr informuje w jakiej części zmiany jednej cechy

(zmiennej zależnej) wynikają ze zmian drugiej cechy (zmiennej niezależnej). Na ogół podajemy go, po pomnożeniu przez 100, w procentach.

Przykład 1.8. Badano dzienne wydatki na słodycze (X) i owoce (Y) w siedmiu rodzinach i otrzymano następujące dane (dane umowne):

Wydatki na słodycze (w zł) 2 3 3 4 5 5 6

Wydatki na owoce (w zł) 7 7 5 6 4 3 3

Zauważmy, że wzrostowi wydatków na słodycze (xi) towarzyszy spadek wydatków na owoce (yi).

Obliczymy teraz wartość współczynnika korelacji dla podanego przykładu.

Lp.

Wydatki na słodycze

(w zł) xi

Wydatki na owoce (w zł)

yi

xxi −

yyi −

2)( xxi −

2)( yyi −

)()( yyxx ii −⋅−

1 2 7 -2 2 4 4 -4 2 3 7 -1 2 1 4 -2

3 3 5 -1 0 1 0 0

4 4 6 0 1 0 1 0

5 5 4 1 -1 1 1 -1

6 5 3 1 -2 1 4 -2

7 6 3 2 -2 4 4 - 4

∑ 28 35 12 18 -13

47

28==x zł, 5

7

35==y zł, 309,1

7

12==xs zł, 604,1

7

18==ys zł,

Page 64: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

64

857,17

13),cov( −=

−=yx , 884,0

604,1309,1

857,1−=

⋅−

=yxr

2xyr = 0,7815, stąd: 2

xyr = 78,15%

Wartość współczynnika korelacji rxy = -0,884 wskazuje na znaczącą, ujemną korelację liniową między wydatkami na słodycze i na owoce. Oznacza to, że wraz ze wzrostem wydatków na słodycze w badanych rodzinach, maleją średnie wydatki na owoce i na odwrót – wraz ze wzrostem wydatków na owoce, maleją średnie wydatki na słodycze. Zmiany w wydatkach na owoce w 78,15% wynikają ze zmian w wydatkach na słodycze.

Załóżmy, że dane dotyczące cechy X (mierzalnej lub niemierzalnej) otrzymane dla n elementowej

zbiorowości pogrupowane zostały w s wariantów ( )sx xxx ,...,,1 , zaś dane dotyczące cechy Y – w r

wariantów ( )ryyy ,...,, 21 . Dla każdej jednostki statystycznej mamy zatem parę ( )ji yx , wariantów obu

tych cech przy czym i = 1, 2, ...s; zaś j = 1, 2, ..., r. Wyniki grupowania przedstawiamy w tabeli (w

wewnętrznych polach umieszczamy liczebności jin odpowiadające liczbie jednostek w zbiorowości

mających jednocześnie jeden z wariantów cechy X oraz jeden z wariantów cechy Y):

yj xi

1y 2y . . . ry

•in

1x 11n 12n . . . rn1 •1n

2x 21n 22n . . . rn2 •2n

M M M M M M

sx 1sn 2sn . . . M •sn

jn• 1•n 2•n . . . rn• n

W skrajnej, prawej kolumnie (szarej) umieszczono liczebności brzegowe odpowiadające kolejnym

wariantom cechy X niezależnie od wariantów cechy Y.

∑=

• =r

jjii nn

1

(A1.10)

Biorąc pod uwagę warianty cechy X i ich liczebności brzegowe, otrzymujemy rozkład brzegowy cechy X.

W najniższym wierszu (szarym) tablicy korelacyjnej umieszczono liczebności brzegowe odpowiadające kolejnym wariantom cechy Y niezależnie od wariantów cechy X.

∑=

• =s

ijij nn

1

(A1.11)

Biorąc pod uwagę warianty cechy Y i liczebności brzegowe, otrzymujemy rozkład brzegowy cechy Y.

Zauważmy, że: nnnr

jj

s

ii ==∑∑

=•

=•

11

.

Page 65: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

65

Przykład 1.9. W jednym z przedszkoli przeprowadzono badanie zależności między liczbą dzieci w rodzinach przedszkolaków (Y) a liczbą rodzeństwa ich matek (X). Otrzymano następujące dane:

Liczba dzieci yj

Liczba rodzeństwa matek

xi 1 2 3

•in

0 27 2 1 30 1 10 8 18 2 7 8 5 20 3 10 12 10 32

jn• 54 30 16 100

(Dane umowne) W przykładzie tym rozkłady brzegowe mają postać:

Liczba rodzeństwa matek

xi

Liczba rodzin

•in

0 30 1 18 2 20 3 32

Łączna liczba rodzin (n) 100

Liczba dzieci (yj) 1 2 3 Łączna liczba rodzin (n)

Liczba rodzin ( jn• ) 54 30 16 100

Miary zależności obliczane dla danych zapisanych w tablicy korelacyjnej (lub w tablicy

kontyngencji – dla cech niemierzalnych) omówione zostaną w module IV.

Page 66: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

66

ANEKS 2. Rozkłady wybranych statystyk próbkowych

Statystyka matematyczna jest nauką o wnioskowaniu, nauką o uogólnianiu polegającym na przechodzeniu od części (losowo wybranej próby) do całości (populacji).

Próba statystyczna prosta (losowa) to próba wybrana w taki sposób, że każdy podzbiór elementów populacji ma takie same szanse znalezienia się w próbie. Ważne jest, by próba była pobierana z całej badanej populacji. Chodzi bowiem o to, żeby próba naprawdę reprezentowała populację i szanse popełnienia błędu we wnioskowaniu były minimalne.

Załóżmy, że rozpatrywana cecha mierzalna jest w całej populacji generalnej zmienną losową X o pewnym rozkładzie. Zatem przy losowym wyborze jednej jednostki statystycznej otrzymujemy zmienną losową X1 o takim samym rozkładzie jak zmienna losowa X, ponieważ wybrana może być każda z jednostek tej populacji. Wybierając, przy zastosowaniu niezależnego schematu losowania, drugi raz jedną jednostkę statystyczną spośród wszystkich, otrzymujemy zmienną losową X2 niezależną od X1 o takim samym rozkładzie (analogicznie jak pierwszą). Taką procedurę możemy powtórzyć n razy otrzymując n zmiennych losowych X1, X2,..., Xn niezależnych o rozkładzie identycznym z rozkładem cechy w całej populacji.

Próba statystyczna prosta licząca n elementów, pobrana z tej populacji może być zatem traktowana jako ciąg niezależnych zmiennych losowych X1, X2,..., Xn o rozkładach identycznych z rozkładem cechy w całej populacji. Ciąg wartości cechy x1, x2,..., xn dla konkretnej próby traktujemy jak ciąg wartości tych zmiennych losowych.

Statystyką nazywamy zmienną losową, która jest funkcją niezależnych zmiennych losowych X1, X2,..., Xn otrzymanych w wyniku pobrania n-elementowej próby. Statystyką jest np. średnia arytmetyczna z próby. Rozkład statystyki „średnia z próby”

„Średniej z próby” X - zmiennej losowej, nie należy mylić ze „średnią w próbie” x - liczbą będącą realizacją tej zmiennej w konkretnej, wylosowanej próbie losowej. „Średnia z próby

” X i jej rozkład to pojęcia teoretyczne: badacz losujący próbę ma do czynienia tylko z jedną wartością tej zmiennej losowej – z konkretną liczbą będącą średnią w wylosowanej próbie.

Załóżmy, że zmienna losowa X ma wartość przeciętną m oraz wariancję σ2 . Z własności

wartości przeciętnej i wariancji wynika, że statystyka X ma wartość przeciętną równą również m

oraz odchylenie n

σ; z tych faktów nie wynika jednak jaki jest rozkład X . Rozkład ten chcemy

znać, gdyż jego własności mają zasadnicze znaczenie w wielu zastosowaniach np. w estymacji.

Rozkład każdej statystyki, w szczególności X , zależy od rozkładu zmiennych w całej populacji i od liczebności próby.

Jeżeli zmienna X ma w populacji rozkład normalny to statystyka X również ma rozkład normalny niezależnie od liczebności próby – co wynika z faktu, że suma niezależnych zmiennych o rozkładzie normalnym ma rozkład normalny.

Załóżmy teraz, że rozkład zmiennej X w populacji jest nieznany. Wówczas, jeżeli prosta, niezależna próba losowa jest „wystarczająco duża” (najczęściej przyjmujemy n>30) możemy

przyjąć, że rozkład średniej X z takiej próby możemy przybliżać przez rozkład normalny.

Page 67: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

67

Dokładniejsze sformułowanie powyższego faktu jest następujące: „Jeżeli pobieramy próbę

z populacji o średniej m i skończonym odchyleniu σ, to rozkład średniej z próby X dąży do

rozkładu N(m,n

σ), gdy liczebność próby wzrasta nieograniczenie” (jest to treść tzw. centralnego

twierdzenia granicznego).

Pytamy teraz, co można powiedzieć o rozkładzie średniej z próby X , jeśli próba jest zbyt

mała (n≤30). Wówczas, aby określić rozkład statystyki X musimy przyjąć jakieś założenia o rozkładzie zmiennej X w całej populacji. Jeżeli np. przyjmiemy, że X w populacji generalnej ma rozkład normalny z nieznaną wartością oczekiwaną m i nieznanym odchyleniem standardowym, wówczas statystyka (oznaczmy ją Tn – 1) wyznaczona na podstawie n–elementowej próby ma rozkład Studenta z n – 1 stopniami swobody. Opiszemy ją wzorem:

11 −−=− ns

mXTn (A2.1)

gdzie: s – odchylenie standardowe z próby.

Liczba stopni swobody jest równa liczbie niezależnych obserwacji określających

statystykę Tn–1. Ponieważ mamy jedno ograniczenie: ∑=

−n

ii XX

1

)( =0 więc liczba niezależnych

obserwacji jest równa n–1.

Mając na uwadze powyższe informacje o rozkładzie X i uwzględniając potrzeby praktycznych zastosowań rozpatrujemy następujące, najczęściej spotykane, sytuacje:

1) Zmienna X ma w populacji generalnej rozkład normalny o wartości oczekiwanej m i znanym odchyleniu standardowym σ . Wówczas średnia z próby ma rozkład normalny o

wartości oczekiwanej m i odchyleniu standardowym n

σ, czyli rozkład

nmN

σ, .

Wynika z tego, że statystyka nmX

Uσ−= ma w takiej sytuacji rozkład normalny

standaryzowany N(0,1).

2) Rozkład zmiennej X w populacji jest nieznany o skończonym odchyleniu standardowym,

zaś próba ma dużą liczebność (n>30). Wówczas średnia X ma rozkład bliski rozkładowi

N(m,n

S).

3) Zmienna X ma w populacji generalnej rozkład normalny o wartości oczekiwanej m i nieznanym odchyleniu standardowym, to statystyka dana wzorem (A2.1) obliczona na podstawie małej próby (n≤ 30) ma rozkład Studenta o n–1 stopniach swobody.

Często zachodzi konieczność porównania przeciętnego poziomu zmiennej mającej rozkłady normalne w dwóch populacjach. Wygodnie jest wtedy rozpatrywać różnicę średnich arytmetycznych dla prób losowych pobranych z tych populacji. Rozkład różnicy średnich arytmetycznych z prób pochodzących z dwóch populacji, w których badana zmienna ma rozkład normalny możemy wyznaczyć w sytuacjach:

Page 68: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

68

1) Znamy odchylenia standardowe 21, σσ rozkładów cechy w każdej z populacji, tzn. 1X

jest średnią arytmetyczną z próby o n1 elementach pobranych z populacji o rozkładzie

( )11,σmN zaś 2X jest średnią arytmetyczną z próby o n2 elementach pobranych z

populacji o rozkładzie ( )22 ,σmN . Wówczas statystyka 21 XX − ma rozkład

normalny o wartości oczekiwanej: 21 mm − i odchyleniu standardowym:2

22

1

21

nn

σσ + .

Dokonując standaryzacji zmiennej losowej 21 XX − otrzymujemy statystykę określoną

wzorem:

2

22

1

21

2121 )(

nn

mmXXU

σσ +

−−−= (A2.2)

która ma rozkład normalny N(0,1).

2) Jeżeli możemy operować dużymi próbami (n1>30 i n2>30), to możemy przyjąć σ1≈s1 oraz σ2≈s2 i zastosować schemat z poprzedniego punktu, podstawiając zamiast σ1 i σ2 wartości odchyleń z prób s1 i s2.

3) Nie znamy odchyleń standardowych 21, σσ rozkładów cechy w każdej z populacji,

wiemy natomiast, że σ1 = σ2 tzn. odchylenia te są równe oraz 1X jest średnią z próby o n1

elementach pobranych z populacji o rozkładzie cechy ( )σ,1mN zaś 2X jest średnią z

próby o n2 elementach pobranych z populacji o rozkładzie cechy ( )σ,2mN . Wówczas

statystyka:

( ) ( ) ( )22121

21

222

211

2121221

−++⋅

+

−−−=−+ nn

nn

nn

SnSn

mmXXT nn (A2.3)

ma rozkład Studenta o 221 −+ nn stopniach swobody.

Uwaga: Statystykę powyższą można również przedstawić w postaci:

( ) ( )

+

−++

−−−=−+

2121

222

211

21212

11

2

21

nnnn

SnSn

mmXXT nn

Page 69: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

69

Rozkład częstości (wskaźnika struktury)

Niech Xn będzie zmienną losową o rozkładzie dwumianowym z parametrami n i p oraz

niech n

XY n

n = . Jeżeli zmienna losowa Xn przyjmuje wartości 0, 1, 2,…., to zmienna Yn

przyjmuje wartości K,2

,1

,0nn

; czyli wartości równe częstościom występowania ustalonego

wariantu cechy w n–elementowej próbie (inaczej: wskaźnikom struktury dla tego wariantu cechy).

Wartość oczekiwana i wariancja zmiennej losowej Yn są następujące:

E(Yn) = p, n

ppYD n

)1()(2 −=

Stąd i z odpowiedniego twierdzenia granicznego wynika, że zmienna losowa Yn, przy

dużych wartościach n ma rozkład zbliżony (zbieżny) do normalnego

−n

pppN

)1(, .

Standaryzując zmienną losową nY otrzymujemy, że zmienna losowa:

n

pp

pn

X n

)1( −

− ma

rozkład zbliżony do rozkładu N(0, 1). Rozkład różnicy dwóch wskaźników struktury.

Rozpatrzmy zmienne losowe 1

11

n

XY n

n = i 2

22

n

XY n

n = , które przyjmują wartości równe

częstości występowania ustalonych wariantów cechy w próbach odpowiednio 1n i

2n elementowych (inaczej: wskaźnikom struktury dla tych wariantów cechy). Wówczas różnica

tych zmiennych losowych (różnica wskaźników struktury ) ma rozkład bliski rozkładowi normalnemu:

−+−−2

22

1

1121

)1()1(,

n

pp

n

ppppN

gdzie:

1p i 2p są prawdopodobieństwami wylosowania elementu mającego ustalone warianty

odpowiednio z populacji pierwszej i drugiej (inaczej: są to wskaźniki struktury dla określonego wariantu cechy w całej populacji generalnej). Tym samym, możemy korzystać z rozkładu normalnego, badając różnicę wskaźników struktury dla dostatecznie dużych prób.

Page 70: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

70

ANEKS 3. TABLICE WYBRANYCH ROZKŁADÓW CI ĄGŁYCH

Dystrybuanta rozkładu normalnego standaryzowanego N(0,1) uα 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,50000000 0,50398936 0,50797831 0,51196647 0,51595344 0,51993881 0,52392218 0,52790317 0,53188137 0,53585639

0,1 0,53982784 0,54379531 0,54775843 0,55171679 0,55567000 0,55961769 0,56355946 0,56749493 0,57142372 0,57534543

0,2 0,57925971 0,58316616 0,58706442 0,59095412 0,59483487 0,59870633 0,60256811 0,60641987 0,61026125 0,61409188

0,3 0,61791142 0,62171952 0,62551583 0,62930002 0,63307174 0,63683065 0,64057643 0,64430875 0,64802729 0,65173173

0,4 0,65542174 0,65909703 0,66275727 0,66640218 0,67003145 0,67364478 0,67724189 0,68082249 0,68438630 0,68793305

0,5 0,69146246 0,69497427 0,69846821 0,70194403 0,70540148 0,70884031 0,71226028 0,71566115 0,71904269 0,72240468

0,6 0,72574688 0,72906910 0,73237111 0,73565271 0,73891370 0,74215389 0,74537309 0,74857110 0,75174777 0,75490291

0,7 0,75803635 0,76114793 0,76423750 0,76730491 0,77035000 0,77337265 0,77637271 0,77935005 0,78230456 0,78523612

0,8 0,78814460 0,79102991 0,79389195 0,79673061 0,79954581 0,80233746 0,80510548 0,80784980 0,81057035 0,81326706

0,9 0,81593987 0,81858875 0,82121362 0,82381446 0,82639122 0,82894387 0,83147239 0,83397675 0,83645694 0,83891294

1,0 0,84134475 0,84375235 0,84613577 0,84849500 0,85083005 0,85314094 0,85542770 0,85769035 0,85992891 0,86214343

1,1 0,86433394 0,86650049 0,86864312 0,87076189 0,87285685 0,87492806 0,87697560 0,87899952 0,88099989 0,88297680

1,2 0,88493033 0,88686055 0,88876756 0,89065145 0,89251230 0,89435023 0,89616532 0,89795768 0,89972743 0,90147467

1,3 0,90319952 0,90490208 0,90658249 0,90824086 0,90987733 0,91149201 0,91308504 0,91465655 0,91620668 0,91773556

1,4 0,91924334 0,92073016 0,92219616 0,92364149 0,92506630 0,92647074 0,92785496 0,92921912 0,93056338 0,93188788

1,5 0,93319280 0,93447829 0,93574451 0,93699164 0,93821982 0,93942924 0,94062006 0,94179244 0,94294657 0,94408260

1,6 0,94520071 0,94630107 0,94738386 0,94844925 0,94949742 0,95052853 0,95154277 0,95254032 0,95352134 0,95448602

1,7 0,95543454 0,95636706 0,95728378 0,95818486 0,95907049 0,95994084 0,96079610 0,96163643 0,96246202 0,96327304

1,8 0,96406968 0,96485211 0,96562050 0,96637503 0,96711588 0,96784323 0,96855724 0,96925809 0,96994596 0,97062102

1,9 0,97128344 0,97193339 0,97257105 0,97319658 0,97381016 0,97441194 0,97500210 0,97558081 0,97614824 0,97670453

2,0 0,97724987 0,97778441 0,97830831 0,97882173 0,97932484 0,97981778 0,98030073 0,98077383 0,98123723 0,98169110

2,1 0,98213558 0,98257082 0,98299698 0,98341419 0,98382262 0,98422239 0,98461367 0,98499658 0,98537127 0,98573788

2,2 0,98609655 0,98644742 0,98679062 0,98712628 0,98745454 0,98777553 0,98808937 0,98839621 0,98869616 0,98898934

2,3 0,98927589 0,98955592 0,98982956 0,99009692 0,99035813 0,99061329 0,99086253 0,99110596 0,99134368 0,99157581

2,4 0,99180246 0,99202374 0,99223975 0,99245059 0,99265637 0,99285719 0,99305315 0,99324435 0,99343088 0,99361285

2,5 0,99379033 0,99396344 0,99413226 0,99429687 0,99445738 0,99461385 0,99476639 0,99491507 0,99505998 0,99520120

2,6 0,99533881 0,99547289 0,99560351 0,99573076 0,99585470 0,99597541 0,99609297 0,99620744 0,99631889 0,99642740

2,7 0,99653303 0,99663584 0,99673590 0,99683328 0,99692804 0,99702024 0,99710993 0,99719719 0,99728206 0,99736460

2,8 0,99744487 0,99752293 0,99759882 0,99767260 0,99774432 0,99781404 0,99788179 0,99794764 0,99801162 0,99807379

2,9 0,99813419 0,99819286 0,99824984 0,99830519 0,99835894 0,99841113 0,99846180 0,99851100 0,99855876 0,99860511

3,0 0,99865010 0,99869376 0,99873613 0,99877723 0,99881711 0,99885579 0,99889332 0,99892971 0,99896500 0,99899922

3,1 0,99903240 0,99906456 0,99909574 0,99912597 0,99915526 0,99918365 0,99921115 0,99923781 0,99926362 0,99928864

3,2 0,99931286 0,99933633 0,99935905 0,99938105 0,99940235 0,99942297 0,99944294 0,99946226 0,99948096 0,99949906

3,3 0,99951658 0,99953352 0,99954991 0,99956577 0,99958111 0,99959594 0,99961029 0,99962416 0,99963757 0,99965054

3,4 0,99966307 0,99967519 0,99968689 0,99969821 0,99970914 0,99971971 0,99972991 0,99973977 0,99974929 0,99975849

3,5 0,99976737 0,99977595 0,99978423 0,99979222 0,99979994 0,99980738 0,99981457 0,99982151 0,99982820 0,99983466

3,6 0,99984089 0,99984690 0,99985270 0,99985829 0,99986368 0,99986888 0,99987389 0,99987872 0,99988338 0,99988787

3,7 0,99989220 0,99989637 0,99990039 0,99990426 0,99990799 0,99991158 0,99991504 0,99991838 0,99992159 0,99992468

3,8 0,99992765 0,99993052 0,99993327 0,99993593 0,99993848 0,99994094 0,99994331 0,99994558 0,99994777 0,99994988

3,9 0,99995190 0,99995385 0,99995573 0,99995753 0,99995926 0,99996092 0,99996253 0,99996406 0,99996554 0,99996696

4,0 0,99996833 0,99996964 0,99997090 0,99997211 0,99997327 0,99997439 0,99997546 0,99997649 0,99997748 0,99997843

4,1 0,99997934 0,99998022 0,99998106 0,99998186 0,99998263 0,99998338 0,99998409 0,99998477 0,99998542 0,99998605

4,2 0,99998665 0,99998723 0,99998778 0,99998832 0,99998882 0,99998931 0,99998978 0,99999023 0,99999066 0,99999107

4,3 0,99999146 0,99999184 0,99999220 0,99999254 0,99999288 0,99999319 0,99999350 0,99999379 0,99999407 0,99999433

4,4 0,99999459 0,99999483 0,99999506 0,99999529 0,99999550 0,99999571 0,99999590 0,99999609 0,99999627 0,99999644

4,5 0,99999660 0,99999676 0,99999691 0,99999705 0,99999719 0,99999732 0,99999744 0,99999756 0,99999768 0,99999778

4,6 0,99999789 0,99999799 0,99999808 0,99999817 0,99999826 0,99999834 0,99999842 0,99999849 0,99999857 0,99999863

4,7 0,99999870 0,99999876 0,99999882 0,99999888 0,99999893 0,99999898 0,99999903 0,99999908 0,99999912 0,99999917

4,8 0,99999921 0,99999925 0,99999928 0,99999932 0,99999935 0,99999938 0,99999941 0,99999944 0,99999947 0,99999950

4,9 0,99999952 0,99999954 0,99999957 0,99999959 0,99999961 0,99999963 0,99999965 0,99999967 0,99999968 0,99999970

Page 71: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

Rozkład Studenta, P(|Tn-1|>tα)

α k

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0,1

0,2

0,3

0,4

0,5

1 63,656741 31,820516 21,204949 15,894545 12,706205 10,578895 9,057887 7,915815 7,026366 6,313752 3,077684 1,962611 1,376382 1,000000

2 9,924843 6,964557 5,642778 4,848732 4,302653 3,896425 3,578247 3,319764 3,103977 2,919986 1,885618 1,386207 1,060660 0,816497

3 5,840909 4,540703 3,896046 3,481909 3,182446 2,950510 2,762599 2,605427 2,470807 2,353363 1,637744 1,249778 0,978472 0,764892

4 4,604095 3,746947 3,297630 2,998528 2,776445 2,600762 2,455892 2,332873 2,226100 2,131847 1,533206 1,189567 0,940965 0,740697

5 4,032143 3,364930 3,002875 2,756509 2,570582 2,421585 2,297392 2,190958 2,097837 2,015048 1,475884 1,155767 0,919544 0,726687

6 3,707428 3,142668 2,828928 2,612242 2,446912 2,313263 2,201059 2,104306 2,019201 1,943180 1,439756 1,134157 0,905703 0,717558

7 3,499483 2,997952 2,714573 2,516752 2,364624 2,240879 2,136453 2,046011 1,966153 1,894579 1,414924 1,119159 0,896030 0,711142

8 3,355387 2,896459 2,633814 2,448985 2,306004 2,189155 2,090166 2,004152 1,927986 1,859548 1,396815 1,108145 0,888890 0,706387

9 3,249836 2,821438 2,573804 2,398441 2,262157 2,150375 2,055395 1,972653 1,899222 1,833113 1,383029 1,099716 0,883404 0,702722

10 3,169273 2,763769 2,527484 2,359315 2,228139 2,120234 2,028327 1,948099 1,876774 1,812461 1,372184 1,093058 0,879058 0,699812

11 3,105807 2,718079 2,490664 2,328140 2,200985 2,096139 2,006663 1,928427 1,858772 1,795885 1,363430 1,087666 0,875530 0,697445

12 3,054540 2,680998 2,460700 2,302722 2,178813 2,076441 1,988934 1,912313 1,844015 1,782288 1,356217 1,083211 0,872609 0,695483

13 3,012276 2,650309 2,435845 2,281604 2,160369 2,060038 1,974158 1,898874 1,831700 1,770933 1,350171 1,079469 0,870152 0,693829

14 2,976843 2,624494 2,414898 2,263781 2,144787 2,046169 1,961656 1,887496 1,821267 1,761310 1,345030 1,076280 0,868055 0,692417

15 2,946713 2,602480 2,397005 2,248540 2,131450 2,034289 1,950940 1,877739 1,812316 1,753050 1,340606 1,073531 0,866245 0,691197

16 2,920782 2,583487 2,381545 2,235358 2,119905 2,024000 1,941654 1,869279 1,804553 1,745884 1,336757 1,071137 0,864667 0,690132

17 2,898231 2,566934 2,368055 2,223845 2,109816 2,015002 1,933530 1,861875 1,797755 1,739607 1,333379 1,069033 0,863279 0,689195

18 2,878440 2,552380 2,356180 2,213703 2,100922 2,007067 1,926362 1,855340 1,791754 1,734064 1,330391 1,067170 0,862049 0,688364

19 2,860935 2,539483 2,345648 2,204701 2,093024 2,000017 1,919992 1,849530 1,786417 1,729133 1,327728 1,065507 0,860951 0,687621

20 2,845340 2,527977 2,336242 2,196658 2,085963 1,993713 1,914292 1,844331 1,781640 1,724718 1,325341 1,064016 0,859964 0,686954

21 2,831360 2,517648 2,327792 2,189427 2,079614 1,988041 1,909164 1,839651 1,777339 1,720743 1,323188 1,062670 0,859074 0,686352

22 2,818756 2,508325 2,320160 2,182893 2,073873 1,982911 1,904524 1,835417 1,773447 1,717144 1,321237 1,061449 0,858266 0,685805

23 2,807336 2,499867 2,313231 2,176958 2,068658 1,978249 1,900307 1,831567 1,769907 1,713872 1,319460 1,060337 0,857530 0,685306

24 2,796939 2,492159 2,306913 2,171545 2,063899 1,973994 1,896457 1,828051 1,766675 1,710882 1,317836 1,059319 0,856855 0,684850

25 2,787436 2,485107 2,301130 2,166587 2,059539 1,970095 1,892928 1,824828 1,763711 1,708141 1,316345 1,058384 0,856236 0,684430

26 2,778715 2,478630 2,295815 2,162029 2,055529 1,966509 1,889682 1,821863 1,760983 1,705618 1,314972 1,057523 0,855665 0,684043

27 2,770683 2,472660 2,290914 2,157825 2,051830 1,963200 1,886686 1,819126 1,758465 1,703288 1,313703 1,056727 0,855137 0,683685

28 2,763262 2,467140 2,286380 2,153935 2,048407 1,960136 1,883912 1,816592 1,756134 1,701131 1,312527 1,055989 0,854647 0,683353

29 2,756386 2,462021 2,282175 2,150325 2,045230 1,957293 1,881336 1,814238 1,753968 1,699127 1,311434 1,055302 0,854192 0,683044

30 2,749996 2,457262 2,278262 2,146966 2,042272 1,954645 1,878938 1,812047 1,751952 1,697261 1,310415 1,054662 0,853767 0,682756

Page 72: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

72

Rozkład χχχχ2, P(χ2> 2αχ )

α

k 0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1 6,635 5,412 4,709 4,218 3,841 3,537 3,283 3,065 2,874 2,706 1,642 1,074 0,708 0,455 0,275 0,148 0,064 0,016 2 9,21 7,824 7,013 6,438 5,991 5,627 5,319 5,051 4,816 4,605 3,219 2,408 1,833 1,386 1,022 0,713 0,446 0,211 3 11,345 9,837 8,947 8,311 7,815 7,407 7,06 6,759 6,491 6,251 4,642 3,665 2,946 2,366 1,869 1,424 1,005 0,584 4 13,277 11,668 10,712 10,026 9,488 9,044 8,666 8,337 8,043 7,779 5,989 4,878 4,045 3,357 2,753 2,195 1,649 1,064 5 15,086 13,388 12,375 11,644 11,07 10,596 10,191 9,837 9,521 9,236 7,289 6,064 5,132 4,351 3,656 3 2,343 1,61 6 16,812 15,033 13,968 13,198 12,592 12,09 11,66 11,283 10,948 10,645 8,558 7,231 6,211 5,348 4,57 3,828 3,07 2,204 7 18,475 16,622 15,509 14,703 14,067 13,54 13,088 12,691 12,337 12,017 9,803 8,383 7,283 6,346 5,493 4,671 3,822 2,833 8 20,09 18,168 17,011 16,171 15,507 14,956 14,484 14,068 13,697 13,362 11,03 9,524 8,351 7,344 6,423 5,527 4,594 3,49 9 21,666 19,679 18,48 17,608 16,919 16,346 15,854 15,421 15,034 14,684 12,242 10,656 9,414 8,343 7,357 6,393 5,38 4,168

10 23,209 21,161 19,922 19,021 18,307 17,713 17,203 16,753 16,352 15,987 13,442 11,781 10,473 9,342 8,295 7,267 6,179 4,865 11 24,725 22,618 21,342 20,412 19,675 19,061 18,533 18,069 17,653 17,275 14,631 12,899 11,53 10,341 9,237 8,148 6,989 5,578 12 26,217 24,054 22,742 21,785 21,026 20,393 19,849 19,369 18,939 18,549 15,812 14,011 12,584 11,34 10,182 9,034 7,807 6,304 13 27,688 25,471 24,125 23,142 22,362 21,711 21,151 20,657 20,214 19,812 16,985 15,119 13,636 12,34 11,129 9,926 8,634 7,041 14 29,141 26,873 25,493 24,485 23,685 23,017 22,441 21,933 21,478 21,064 18,151 16,222 14,685 13,339 12,078 10,821 9,467 7,79 15 30,578 28,259 26,848 25,816 24,996 24,311 23,72 23,199 22,732 22,307 19,311 17,322 15,733 14,339 13,03 11,721 10,307 8,547 16 32 29,633 28,191 27,136 26,296 25,595 24,99 24,456 23,977 23,542 20,465 18,418 16,78 15,338 13,983 12,624 11,152 9,312 17 33,409 30,995 29,523 28,445 27,587 26,87 26,251 25,705 25,215 24,769 21,615 19,511 17,824 16,338 14,937 13,531 12,002 10,085 18 34,805 32,346 30,845 29,745 28,869 28,137 27,505 26,947 26,445 25,989 22,76 20,601 18,868 17,338 15,893 14,44 12,857 10,865 19 36,191 33,687 32,158 31,037 30,144 29,396 28,751 28,181 27,669 27,204 23,9 21,689 19,91 18,338 16,85 15,352 13,716 11,651 20 37,566 35,02 33,462 32,321 31,41 30,649 29,991 29,41 28,887 28,412 25,038 22,775 20,951 19,337 17,809 16,266 14,578 12,443 21 38,932 36,343 34,759 33,597 32,671 31,895 31,225 30,632 30,1 29,615 26,171 23,858 21,992 20,337 18,768 17,182 15,445 13,24 22 40,289 37,659 36,049 34,867 33,924 33,135 32,453 31,849 31,307 30,813 27,301 24,939 23,031 21,337 19,729 18,101 16,314 14,041 23 41,638 38,968 37,332 36,131 35,172 34,37 33,675 33,062 32,51 32,007 28,429 26,018 24,069 22,337 20,69 19,021 17,187 14,848 24 42,98 40,27 38,609 37,389 36,415 35,599 34,893 34,269 33,708 33,196 29,553 27,096 25,106 23,337 21,652 19,943 18,062 15,659 25 44,314 41,566 39,88 38,642 37,652 36,824 36,106 35,472 34,902 34,382 30,675 28,172 26,143 24,337 22,616 20,867 18,94 16,473 26 45,642 42,856 41,146 39,889 38,885 38,044 37,315 36,671 36,091 35,563 31,795 29,246 27,179 25,336 23,579 21,792 19,82 17,292 27 46,963 44,14 42,407 41,132 40,113 39,259 38,52 37,866 37,278 36,741 32,912 30,319 28,214 26,336 24,544 22,719 20,703 18,114 28 48,278 45,419 43,662 42,37 41,337 40,471 39,721 39,058 38,46 37,916 34,027 31,391 29,249 27,336 25,509 23,647 21,588 18,939 29 49,588 46,693 44,913 43,604 42,557 41,679 40,919 40,246 39,64 39,087 35,139 32,461 30,283 28,336 26,475 24,577 22,475 19,768 30 50,892 47,962 46,16 44,834 43,773 42,883 42,113 41,43 40,816 40,256 36,25 33,53 31,316 29,336 27,442 25,508 23,364 20,599

Page 73: PRZEDMIOT: METODY ILO ŚCIOWE W ZARZ ĄDZANIUfazer.swspiz.pl/pliki/00_materialy_elearning/Sta_S... · Aneks 3 Tablice wybranych rozkładów ci ągłych 70 A.3.1. Dystrybuanta rozkładu

73