Szkolenie Excel - Analiza Statystyczna w Cognity

Post on 26-May-2015

1.268 views 5 download

description

Szanowni Państwo, Zainteresowanych zagadnieniami związanymi z szeroko pojętą statystyką, zachęcamy do zapoznania się z materiałami ze szkolenia „Analiza Statystyczna w Excelu”. Autorem prezentacji jest Trener Cognity – Grzegorz Plak. Przedstawione w niej zagadnienia  zostały obszernie omówione w trakcie szkolenia, które odbyło się w Krakowie w dniach 19-20 grudnia 2013. Program tego szkolenia znajdą Państwo pod linkiem http://www.cognity.pl/szkolenie-analiza-statystyczna-w-excelu,s2,148.html Zachęcamy do odwiedzania naszej strony internetowej:  www.cognity.pl.

Transcript of Szkolenie Excel - Analiza Statystyczna w Cognity

Szanowni Państwo,

Zainteresowanych zagadnieniami związanymi z szeroko pojętą statystyką, zachęcamy do zapoznania się z materiałami ze szkolenia „Analiza Statystyczna w Excelu”.

Autorem prezentacji jest Trener Cognity – Grzegorz Plak. Przedstawione w niej zagadnienia  zostały obszernie omówione w trakcie szkolenia, które odbyło się w Krakowie w dniach 19-20 grudnia 2013.

Program tego i innych szkoleń Cognity znajdą Państwo

na stronie www.cognity.pl.  

Agenda

• Podstawowe pojęcia statystyczne

• Etapy analizy danych

• Miary statystyczne

• Testy statystyczne

• Prognozowanie

Podstawowe pojęcia statystyczne

Populacja Próba

Populacja (zbiorowość)

Zbiorowość statystyczna (populacja statystyczna)

to zbiór obiektów (jednostek statystycznych), które

objęte są badaniem statystycznym.

Jednostki powinny mieć pewne cechy wspólne

(które pozwalają zakwalifikować je do danej

zbiorowości) oraz właściwości, dzięki którym

można je różnicować)

Populacja (zbiorowość) – cd.

Zbiorowość

Generalna Próbna

Rodzaje cech statystycznych zmiennych

Cechy mierzalne (ilościowe) – oznaczane liczbą wraz z

określoną jednostką

długość

objętość

waga

Cechy niemierzalne (jakościowe) – brak miary

płeć

wykształcenie

poglądy polityczne

Podział cech mierzalnych

• Cechy mierzalne skokowe – posiadają konkretne wartości liczbowe

• liczba studentów na uczelni

• Cechy quasi-ciągłe – z natury są skokowe, jednak ze względu na bardzo dużą liczbę wartości traktowane są jako cechy mierzalne ciągłe

• wysokość wynagrodzenia

• Cechy mierzalne ciągłe – wartość cechy może przyjąć dowolną wartość z danego przedziału liczbowego

• powierzchnia państw

Etapy badania statystycznego

Projektowanie i organizacja

badania

Obserwacja statystyczna

Opracowanie materiału

statystycznego

Analiza statystyczna

Projektowanie i organizacja badania

Cel badania

Podmiot badania

Przedmiot badania

Zakres badania

Źródła danych

Czas trwania badania

Metody doboru próby

Dobór losowy

– dobór jednostek próby jest niezależny

od osoby prowadzącej badanie (za pomocą

mechanizmu losowego)

Dobór nielosowy

– dobór jednostek zależy od subiektywnej

oceny osoby prowadzącej badanie

Dobór losowy (1)

Losowanie bezpośrednie (indywidualne) –

jednostki losowane są bezpośrednio z całej

populacji

losowanie zależne

(losowanie bez zwracania)

losowanie niezależne

(losowanie ze zwracaniem)

Losowanie warstwowe – przed losowaniem dzielimy populację

na warstwy (np. podział jednostek mieszkających na wsi oraz w mieście) w taki sposób, aby warstwy były wewnątrz jak najbardziej jednorodne. Losujemy

określoną liczbę jednostek z każdej warstwy

Dobór losowy (2)

Losowanie zespołowe – przed losowaniem

dzielimy badaną populację na zespoły

(wewnętrznie zróżnicowane).

Wylosowaną próbę stanowią wszystkie

jednostki z wylosowanego

zespołu

Losowanie systematyczne –

przed losowaniem ustalamy tzw. interwał

losowania, na podstawie którego

wybieramy jednostki do próby. Warunkiem

zastosowania tej metody jest

ponumerowanie jednostek zbiorowości

kolejnymi liczbami naturalnymi (operat

losowania)

Dobór nielosowy (1)

Dobór celowy – dobór jednostek do próby opiera się na subiektywnym odczuciu

osoby prowadzącej badanie posiadania przez jednostek pożądanych cech

Dobór nielosowy (2)

Dobór metodą „kuli śnieżnej” – stosowany jest w przypadku, gdy do jednostek trudno jest dotrzeć. W

tej metodzie na początku określa się niewielką grupę respondentów, a następnie prosi się ich o

wskazanie kolejnych jednostek do badania

Obserwacja statystyczna

Obserwacja statystyczna polega na gromadzeniu danych, dzięki czemu uzyskuje się materiał

statystyczny

Opracowanie materiału statystycznego

• Kontrola zebranego materiału

• formalna (ilościowa)

• merytoryczna (jakościowa)

• Grupowanie uzyskanych danych

• Grupowanie typologiczne

• Grupowanie wariacyjne

• Prezentacja materiału statystycznego

Analiza statystyczna

• Opis statystyczny

• Wnioskowanie statystyczne (w przypadku badań próbkowych)

Analiza statystyczna umożliwia ocenę stopnia dokładności i wiarygodności otrzymanych wyników, a także na wyciągnięcie końcowych wniosków dotyczących zaplanowanego celu badania

Rodzaje szeregów statystycznych

Szereg szczegółowy (wyliczający)

Szereg szczegółowy - przykład

2 4 3 6 1

1 3 4 5 1

1 3 5 2 3

5 5 2 1 5

Liczba wyrzuconych oczek na kostce w 20 losowaniach

Szereg punktowy - przykład

Liczba oczek Częstość

1 5

2 3

3 4

4 2

5 5

6 1

Liczba wyrzuconych oczek na kostce w 20 losowaniach

Szereg przedziałowy - przykład

Zbiór danych (koszyk)Częstość

lewy przedział prawy przedział

1 2 8

2 4 6

4 6 6

Liczba wyrzuconych oczek na kostce w 20 losowaniach

Prezentacja graficzna danych

Idealny wykres zawiera

Pole wykresu – graficzna prezentacja danego szeregu

Tytuł wykresu

Legendy wykresu

Źródła danych statystycznych

Rodzaje wykresów

bryłowe

liniowe

mapowe (kartogramy)

obrazkowe

Powierzchniowe

punktowe

Wykresy bryłowe

Wykresy liniowe

Wykresy mapowe

Małżeństwa wyznaniowe w Polsce jako procent wszystkich małżeństw, według województw. Dane za rok 2006 (GUS)

Źródło: http://pl.wikipedia.org/wiki/Ludność_Polski

Wykresy powierzchniowe

Wykresy punktowe

Typy rozkładów empirycznych

symetryczne

Rozkłady symetryczne - przykłady

Rozkłady asymetryczne - przykłady

Rozkład jednomodalny - przykłady

Wykresy wielomodalne - przykłady

Miary statystyczne

Miary położenia (przeciętne, poziomu)

Miary zmienności (zróżnicowania, dyspersji)

Miary asymetrii (skośności)

Miary koncentracji

Miary położenia

Średnia arytmetyczna

Średnia arytmetyczna szereg prosty

k

ii

k xNN

xxxx

1

21 1...

Średnia arytmetyczna szereg punktowy

k

iii

kk nxNN

nxnxnxx

1

2211 1...

Średnia arytmetyczna szereg przedziałowy

k

iii

kk nxNN

nxnxnxx

1

2211 1ˆ...ˆˆ

Mediana szereg wyliczeniowy

parzystegdy 2

,enieparzystgdy

122

2

1

n

xx

nx

Me nn

n

Mediana szereg przedziałowy

pmpm

skumpm

lpm rn

nn

xMe

12

Dominanta szereg punktowy

Dominantą w szeregu punktowym jest największa liczebność dla danej cechy

Dominanta szereg przedziałowy

pdpdpdpdpd

pdpdlpd r

nnnn

nnxDo

11

1

Kwantyle

Najczęściej używanymi kwantylami

są:

• Kwartyle

• Decyle

• Percentyle

Kwartyl pierwszy szereg przedziałowy

pqpq

skumpq

lpq rn

nN

xQ

1

14

Kwartyl trzeci szereg przedziałowy

pqpq

skumpq

lpq rn

nN

xQ

1

34

3

Miary zmienności

• Wariancja

• Odchylenie standardowe

• Klasyczny współczynnik zmienności

• Odchylenie przeciętne

• Rozstęp

• Rozstęp międzykwartylowy

• Odchylenie ćwiartkowe

• Pozycyjny współczynnik zmienności

Wariancja szereg wyliczeniowy

N

xxs

k

ii

1

2

2

Wariancja szereg punktowy

N

nxxs

k

iii

1

2

2

Wariancja szereg przedziałowy

N

nxxs

k

iii

1

2

2

ˆ

Odchylenie standardowe

2s2s wariancja

Klasyczny współczynnik zmienności

%100x

Vs

Odchylenie przeciętne

k

ii xx

Nd

1

1

Rozstęp szereg punktowy

minmax xxR

Rozstęp międzykwartylowy

13 QQRq

3Q trzeci kwartyl

1Q pierwszy kwartyl

Odchylenie ćwiartkowe

213 QQ

Q

Pozycyjny współczynnik zmienności

%100Me

QVq

Miary asymetrii

• Wskaźnik skośności

• Współczynnik asymetrii Pearsona

• Pozycyjny wskaźnik skośności

• Pozycyjny współczynnik asymetrii

• Trzeci moment centralny

• Klasyczny współczynnik asymetrii

Wskaźnik skośności

DoxWs

Współczynnik asymetrii Persona

Dox

Ap

Pozycyjny wskaźnik skośności

MeQQWpoz 213

Pozycyjny współczynnik asymetrii

13

13 2

QQ

MeQQApoz

Trzeci moment centralny szereg punktowy

N

nxxm

k

iii

1

3

3

Trzeci moment centralny szereg przedziałowy

N

nxxm

k

iii

1

3

3

ˆ

Klasyczny współczynnik asymetrii

33

m

As

Miary koncentracji

Współczynnik kurtozy

Współczynnik ekscesu

Krzywa koncentracji Lorenza

Współczynnik koncentracji Giniego

Współczynnik kurtozy

4

1

4

44 1

N

xxm

K

k

ii

Współczynnik ekscesu

3 KK

Krzywa Lorenza

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%0%

20%

40%

60%

80%

100%

Współczynnik koncentracji Giniego

5000

aG

5,0

aG

Badanie związków między cechami

• Analiza korelacji

• Współczynnik korelacji liniowej

Pearsona

• Współczynnik korelacji rang

Spearmana

• Analiza regresji

• Liniowy model regresji

Współczynnik korelacji liniowej Pearsona

n

i

n

iii

n

iii

yyxx

yyxxr

1 1

22

1

Liniowy model regresji

01xy

n

ii

n

iii

xx

yyxx

1

2

11 xy 10

Podstawowe pojęcia rachunku prawdopodobieństwa

• Przestrzeń zdarzeń elementarnych

• Zdarzenie losowe

• Prawdopodobieństwo

• Zmienna losowa

• Dystrybuanta

Przestrzeń zdarzeń elementarnychPrzestrzeń zdarzeń

elementarnych to wszystkie możliwe wyniki doświadczenia.

Przestrzeń zdarzeń elementarnych oznaczamy

symbolem Ω.

Zdarzenie losowe

Zdarzenie losowe to podzbiór przestrzeni zdarzeń

elementarnych Ω, które z góry wyróżnia

eksperymentator.

Prawdopodobieństwo

Prawdopodobieństwem nazywamy funkcję, która każdemu zdarzeniu przyporządkowuje liczbę spełniającą następujące aksjomaty:

A AP

Zmienna losowa

Niech dana będzie przestrzeń probabilistyczna (Ω, ζ, P). Funkcję X, określoną na przestrzeni zdarzeń elementarnych Ω, o wartościach rzeczywistych oraz taką, że dla każdego zbiór

jest zdarzeniem (czyli należy do ζ), będziemy nazywać zmienną losową.

t tX :

Dystrybuanta

Funkcję , określoną wzorem

nazywamy dystrybuantą zmiennej losowej X.

1 ,0: XF

tXPtFX :

Wartość oczekiwana

Wariancja

22 EXEXVarX

Wybrane rozkłady zmiennych

Rozkłady zmiennych losowych typu skokowego

dwumianowy

Poissona

Rozkład dwumianowy

Rozkład Poissona

Rozkład normalny

Rozkład t-Studenta

2

12

1

2

21

n

n

xn

n

n

xf

Rozkład χ2

0x, 0

0,

22

1 21

2

2

xexnxf

xn

n

1

NZXM

NZXP

Przedział ufności dla średniej (r. n.) przy znanym odchyl. std. (populacji)

Przedział ufności dla średniej (r. n.) przy nieznanym o. std.

(populacji)

1

N

SZXM

N

SZXP xx

Przedział ufności dla średniej (r. t.) przy nieznanym o. std.

(populacji)

1ˆˆ

N

StXM

N

StXP xx

Przedział ufności dla wskaźnika struktury (rozkład normalny)

111

NNm

Nm

ZN

mp

NNm

Nm

ZN

mP

Przedział ufności dla odchylenia standardowego (r. n.)

212

2

2

2

c

NS

c

NSP xx

Dopuszczalny błąd szacunku

2

22

d

ZN

Testy statystyczne

1. Sformułuj hipotezy

2. Ustal poziom istotności

3. Dobierz statystykę testową

4. Zbuduj obszar krytyczny

5. Zdecyduj, czy wartość zmiennej losowej

znajduje się w obszarze krytycznym i na tej

podstawie zdecyduj o wyniku testu

Rodzaje błędów w testowaniu hipotez

Przyjęcie H0 Odrzucenie H0

H0 prawdziwa 1-α αBłąd I-rodzaju

H0 fałszywa βBłąd II-rodzaju 1-β

Rodzaje zbiorów krytycznych (1)

Obszar krytyczny lewostronnyH0: S = S0H1: S < S0

Rodzaje zbiorów krytycznych (2)

Obszar krytyczny prawostronnyH0: S = S0H1: S > S0

Rodzaje zbiorów krytycznych (3)

Obszar krytyczny obustronnyH0: S = S0

H1: S <> S0

Odczytywanie wartości z tablic dla rozkładu normalnego

• Dla obszaru lewostronnego odczytujemy taką wartość-tkryt, dla której Ф(-tkryt) = α

• Dla obszaru prawostronnego odczytujemy taką wartość tkryt, dla której Ф(tkryt) = α

• Dla obszaru obustronnego odczytujemy taką wartość-tkryt, dla której Ф(-tkryt) = . Granicami będą wartości ±tkryt

Odczytywanie wartości z tablicdla rozkładu t-Studenta

• Dla obszaru lewostronnego odczytujemy taką wartośćtkryt, dla której P{|Tn-1|>tkryt} > 2α i przyjmujemy wartość ujemną (dla obszaru lewostronnego) lub dodatnią (dla obszaru prawostronnego)

• Dla obszaru obustronnego odczytujemy taką wartość-tkryt, dla której P{|Tn-1|>tkryt} > α. Granicami będą wartości ±tkryt

Test istotności dla średniej (1)

NMX

Z

0

Test istotności dla średniej (2)

NS

MXt

0

Test istotności dla dwóch średnich (1)

2

2

1

2

21

21

n

S

n

S

xxZ

xx

Test istotności dla dwóch średnich (1)

2121

22

21

21

112

21

nnnn

SnSn

xxt

xx

Test istotności dla wskaźnika struktury

N

PP

PpZ

00

0

1

Test istotności dla wariancji

322

20

2

NNS

Z x

Test istotności dla dwóch wariancji

2

2

2

1

x

x

S

SF

 Cognity

Jesteśmy firmą szkoleniowo-doradczą specjalizującą się przede wszystkim w szkoleniach informatycznych, ze szczególnym uwzględnieniem programów z pakietu Ms Office. 

Przeszkoliliśmy już setki przedstawicieli klientów korporacyjnych, biznesowych, pracowników instytucji publicznych oraz klientów indywidualnych (zachęcamy do zapoznania się z treścią zakładki referencje na naszej stronie internetowej).

Proponując najwyższej jakości usługi edukacyjne, umożliwiamy naszym klientom odkrywanie nowych pokładów praktycznej wiedzy, która wpływa na realną poprawę ich wyników oraz podniesienie komfortu wykonywanej pracy.

OFERTA FIRMY COGNITY OBEJMUJE:

▶ Szkolenia otwarte▶ Szkolenia zamknięte (dedykowane dla firm)▶ Konsultacje▶ Opiekę poszkoleniową▶ Doradztwo informatyczne  

Jeżeli jesteś zainteresowany udziałem w organizowanym przez nas szkoleniu,  zapraszamy do kontaktu: 

Cognity Szkoleniaul. Dietla 25/531-070 Kraków

Tel. +48 12 421 87 54e-mail:  biuro@cognity.plwww.cognity.pl

Aby być na bieżąco odwiedzaj nas również na portalu Facebook https://www.facebook.com/cognityszkolenia

Zapraszamy!