Post on 05-Apr-2018
8/2/2019 4. Serii statistice
1/23
1
IV. SERII STATISTICE
Introducere. n acest capitol vom prezenta cteva idei legate de culegerea, prezentarea
i caracterizarea datelor statistice (domeniu numit Statistic descriptiv). Facultativ,
cei care doresc s nvee mai mult dect se cere la examen, pot consulta bibliografia de
la sfritul acestui capitol. O populaie statistic (sau colectivitate statistic) este o
mulime de elemente avnd (cel puin) o proprietate (sau caracteristic) comun.
Elementele acestea se numesc uniti statistice (sau indivizi). Caracteristica respectiv
se exprim (este modelat matematic) printr-o variabil aleatoare X, discret sau
continu. Pentru a obine informaii i a deduce concluzii (sau pentru a face prognoze)
despre caracteristica respectiv la nivelul ntregii populaii, se studiaz submulimi ale
populaiei. Aceste submulimi, numite eantioane, se selecteaz prin diferite metode,
vezi facultativ bibliografia de la sfritul capitolului. Metodele de selecie (sondaj) sunt
specifice fiecrui domeniu de activitate economic, social sau tiinifico-tehnic n care
se ncadreaz populaia respectiv. Numrul de uniti statistice dintr-un eantion se
numete volumul eantionului ( n ). O valoare numeric a caracteristicii studiate, pentru
o anumit unitate statistic din eantion, se numete valoare observat sau observaie,
pe scurt. Datele numerice furnizate de eantioane sunt prelucrate prin diferite metode
matematice i apoi se formuleaz concluzii referitoare la ntreaga populaie studiat.
Statistica inferenial se ocup cu interpretarea datelor oferite de statistica descriptiv
i cu utilizarea acestora pentru a formula concluzii referitoare la ntreaga populaie,
pentru a face prognoze, pentru a lua decizii. O decizie, o estimare, o predicie sau o
generalizare privitoare la o colectivitate general, bazat pe informaiile obinute din
8/2/2019 4. Serii statistice
2/23
2
analizarea eantioanelor, se numete o inferen statistic. Raportul descriptiv-
inferenial n cercetarea statistic este evideniat n figura de mai jos.
Prelucrarea primar a datelor statistice. S presupunem c a fost selectat un eantion
de volum 20n dintr-o populaie statistic. Notm cu X variabila aleatoare care
descrie o anumit caracteristic a unitilor din populaia respectiv. O parte din
8/2/2019 4. Serii statistice
3/23
3
valorile lui X, corespunztoare unitilor din eantionul selectat, formeaz seria
statistic de mai jos:
X: 12; 15; 17; 12; 14; 21; 21; 17; 19; 24; 15; 11; 11; 14; 19; 21; 21; 15; 18; 17.
Aceste date se pot scrie ordonat ntr-o distribuie de frecvene cu valori individuale,
ca n tabelul de mai jos. Pe prima coloan se trec valorile distincte ale variabilei
aleatoare X, notate cu ( ix ), n ordine cresctoare. Pe a doua coloan scriem
frecvenele absolute ( in ) asociate acestor valori. Tabelul se mai poate completa cu a
treia coloan, cea a frecvenelor relative ( if ), ii nfn
. Avem, ntotdeauna, ii
n n i
1ii
f . A patra coloan, eventual, poate fi cea a frecvenelor absolute cumulate,
(i
N ). Primul numr de pe coloana a patra este 1 1N n , al doilea este 2 1 2N N n , apoi
3 2 3N N n , etc. Ultimul este ntotdeauna egal cu n . Ultima coloan este coloana
frecvenelor relative cumulate, ( iF). Numerele de acolo se calculeaz asemntor cu
cele din coloana a patra, ultimul numr fiind ntotdeauna egal cu 1.
8/2/2019 4. Serii statistice
4/23
4
(i
x ) (i
n ) (i
f ) (i
N ) (i
F)
11 2 0,1 2 0,1
12 2 0,1 4 0,2
14 2 0,1 6 0,3
15 3 0,15 9 0,45
17 3 0,15 12 0,60
18 1 0,05 13 0,65
19 2 0,1 15 0,75
21 4 0,2 19 0,95
24 1 0,05 20 1
Total 20n 1 - -
Pentru eantioane de volum mare, dac X este privit ca o variabil aleatoare continu,
datele se pot grupa pe intervale, ca mai jos. S presupunem c avem o serie statistic
simpl cu 50n de valori ale lui X scrise n tabelul:
8/2/2019 4. Serii statistice
5/23
5
Vom considera intervalele de forma ( , ]a b iar ultimul interval de forma [ , ]a b . Primul
interval trebuie s conin cea mai mic valoare din serie, adic pe min 138x iar ultimul
interval trebuie s conin cea mai mare valoare din serie, adic pe max 201x . Fiecare
interval ( , ]a b are o limit inferioar, adic pe " a " i o limit superioar, adic pe
"b". Limita inferioar a primului interval se alege convenabil. Poate fi zero, sau poate fi
o valoare apropiat de minx , mai mic dect minx . Lungimea fiecrui interval, h , o
calculm cu formula lui Sturges, adic max min
1 3,322 lg
x xh
n
, unde " lg n " nseamn
logaritm n baza 10 din n . Putem rotunji pe h la o valoare convenabil. n exemplul
dat avem201 138 63
9,491 3,322 lg50 6,64
h
. Deci vom alege 10h i limita inferioar
a primului interval o alegem 135a . Se obine distribuia de frecvene cu valorile
grupate pe intervale de mai jos. Pe prima coloan avem grupele de valori. Primul
interval, cu conveniile fcute mai sus, este (135,145] . Am adunat 10h la 135.
Urmtorul interval subnelegem c este (145, 155] , etc. Ultimul, care include pe
max 201x , este [195, 205] . Pe coloana a doua avem frecvenele absolute. Prima este
egal cu 4. Aceasta nseamn c exact 4 din cele 50 de valori de mai sus se afl n
intervalul (135,145] . Ele sunt: 140; 138; 142; 142. (142 apare de dou ori !!). Sau, n
intervalul (155, 165] apar 13 observaii (valori observate). Atenie, 155 nu aparine
acestui interval!! Celelalte coloane, care se pot aduga dac este necesar, se construiesc
la fel mai sus. Formulele, notaiile i denumirile sunt la fel ca n tabelul anterior celui cu
50 de valori.
8/2/2019 4. Serii statistice
6/23
6
(i
x ) (i
n ) (i
f ) (i
N ) (i
F)
135 - 145 4 0,08 4 0,08
145 - 155 5 0,1 9 0,18
155 - 165 13 0,26 22 0,44
165 - 175 11 0,22 33 0,66
175 - 185 8 0,16 41 0,82
185 - 195 6 0,12 47 0,94
195 - 205 3 0,06 50 1
Total 50n 1 - -
Unei distribuii de frecvene ca cea din ultimul tabel i se poate asocia o histogram.
Histograma este o reprezentare grafic sub form de dreptunghiuri. Pe axa Ox , bazele
dreptunghiurilor sunt formate din intervalele de grupare sau clase de valori (vezi prima
coloan a tabelului). Pe axa Oy , nlimile dreptunghiurilor sunt egale sau proporionale
cu frecvenele absolute ( in ) sau cu frecvenele relative ( if ). Unitile de msur se aleg
convenabil pe fiecare ax (nu trebuie s fie aceeai unitate de msur pe ambele axe).
Avem deci o histogram a frecvenelor absolute i respectiv o histogram a
frecvenelor relative (pentru cazul n care intervalele au lungimi egale).
8/2/2019 4. Serii statistice
7/23
7
n figura de mai sus avei o histogram a frecvenelor relative, pentru distribuia din
tabelul anterior. Am folosit softul utilitar gratuit de la adresa
http://www.zweigmedia.com/RealWorld/stats/histogram.html .
Unind mijloacele bazelor superioare ale dreptunghiurilor se obine poligonul
frecvenelor relative, de culoare roie. Dac pe axa Oy reprezentm frecvenele
absolute ( )in , atunci se obin respectiv histograma frecvenelor absolute i poligonul
frecvenelor absolute. Tem !!
Dac pe axa Oy reprezentm frecvenele absolute cumulate ( )iN sau frecvenele
relative cumulate ( )iF
, obinem respectiv poligonul frecvenelor absolute cumulate
sau poligonul frecvenelor relative cumulate (se mai cheam ogive). Unitatea de
msur se alege convenabil pe fiecare ax. n figura de mai jos avei histograma
frecvenelor relative cumulate i, cu rou, ogiva frecvenelor relative (sau poligonul
frecvenelor relative cumulate). Ogivele sunt poligoane cresctoare, continue.
8/2/2019 4. Serii statistice
8/23
8
Pentru (multe !!) alte metode de reprezentare grafic a datelor i de prelucrare primar,
facultativ, putei consulta bibliografia de la sfritul acestui capitol.
Problema fundamental a Statisticii. S ne imaginm c dintr-o populaie de volum
foarte mare selectm eantioane de volum n din ce n ce mai mare. Pentru fiecare
eantion se poate construi o histogram i respectiv un poligon de frecvene. Dac
micorm lungimile bazelor dreptunghiurilor pe msur ce n crete, aceste histograme
devin din ce n ce mai "fine", adic numrul de dreptunghiuri din care sunt formate este
tot mai mare i bazele dreptunghiurilor sunt de lungime ( h ) din ce n ce mai mic.
Corespunztor acestor histograme, se obine un ir de poligoane de frecvene care ncep
8/2/2019 4. Serii statistice
9/23
9
s semene din ce n ce mai mult ca form cu o anumit curb. Dac histogramele
acestea sunt histograme de frecvene relative (adic pe axa Oy reprezentm frecvenele
relative ( if )) atunci se obine un ir de poligoane de frecvene relative care "tinde" ctre
o anumit curb. Dac notm cu X variabila aleatoare (continu) care modeleaz
matematic caracteristica comun unitilor statistice din populaia studiat, atunci curba
respectiv este de fapt graficul densitii de repartiie ( )f x a variabilei aleatoare X.
Aceast curb se numete curb de repartiie sau curba (de distribuie a)
frecvenelor i are ecuaia ( )y f x . n practic, problema fundamental este gsirea
acestei funcii ( )f x al crei grafic trebuie s aproximeze ct mai "bine" poligonul
frecvenelor relative pentru volume n foarte mari. n mod analog ne putem imagina un
ir de poligoane de frecvene relative cumulate (ogive - ( )iF pe axa Oy ) construite
pentru distribuii de frecvene de volum n din ce n ce mai mare i cu lungimea
intervalelor (n care sunt grupate valorile) din ce n ce mai mic. Acest ir de ogive
tinde, ca form, ctre graficul funciei de repartiie ( )F x a variabilei aleatoare X.
Determinarea ct mai exact a acestor funcii, ( )f x i ( )F x reprezint problema
principal a Statisticii i aceast problem va fi abordat n cursurile viitoare de
Statistic i Econometrie.
Mai jos, avei cteva figuri care ilustreaz (intuitiv) aceste idei. Histogramele i
poligoanele de frecvene au fost construite pentru eantioane de volume de la 1000 la
10.000 de valori. (Nu trebuie, evident, memorate aceste figuri).
8/2/2019 4. Serii statistice
10/23
10
8/2/2019 4. Serii statistice
11/23
11
Indicatori (parametri) importani asociai unui eantion. Acetia sunt indicatori de
poziie (indicatori ai tendinei centrale), de variaie i de caracterizare a formei
curbei frecvenelor. Indicatori de poziie importani: media aritmetic, media ptratic,
media armonic, media geometric, momentele iniiale (necentrate) de ordinul r
( r ), moda (sau modul), cuantilele de ordinul ( - numr raional din intervalul
(0,1) ), mediana (cuantila de ordinul 0,5 ). Indicatori de variaie importani:
amplitudinea, abaterea individual, abaterea medie, momentele centrate de ordinul r,
variana i abaterea standard, variana modificat i abaterea standard
modificat, coeficientul de variaie. Indicatori de caracterizare a formei curbei
frecvenelor sunt: coeficientul de asimetrie i coeficientul de boltire. n continuare ne
vom ocupa de indicatorii n bold de mai sus. Ceilali vor fi studiai la seminar. Pentru
fiecare parametru vom prezenta modalitatea de calcul n trei situaii.
8/2/2019 4. Serii statistice
12/23
12
Media aritmetic. S considerm seria statistic de volum 20n (ir de numere) de
mai sus (la nceputul capitolului):
X: 12; 15; 17; 12; 14; 21; 21; 17; 19; 24; 15; 11; 11; 14; 19; 21; 21; 15; 18; 17.
Media aritmetic se noteaz cu x i se calculeaz cu formula1
i
i
x xn
. Deci, n
acest caz gsim
1(12+15+17+12+14+21+21+17+19+24+15+11+11+14+19+21+21+15+18+17)
20x =
16,7.
Dac aceast serie se scrie ca o distribuie de frecvene cu valori individuale, adic
(i
x ) (i
n )
11 2
12 2
14 2
15 3
17 3
18 1
19 2
21 4
24 1
Total 20n
atunci formula de calcul este1
( )i ii
x n xn
. Deci, obinem:
8/2/2019 4. Serii statistice
13/23
13
1(2 11 2 12 2 14 2 14 3 15 3 17 1 18 2 19 4 21 1 24)
20x = 16,7.
n sfrit, dac avem o distribuie de frecvene cu valorile grupate pe intervale (vezi mai
sus), ca de exemplu
(i
x ) (i
n )
135 - 145 4
145 - 155 5
155 - 165 13
165 - 175 11
175 - 185 8
185 - 195 6
195 - 205 3
Total 50n
atunci trebuie mai nti s calculm mijloacele intervalelor ( ix ). Mijlocul unui interval
( , ]a b este numrul2
a b. Adugm la tabel coloana cu mijloacele intervalelor,
8/2/2019 4. Serii statistice
14/23
14
(i
x ) (i
n ) (i
x )
135 - 145 4 140
145 - 155 5 150
155 - 165 13 160
165 - 175 11 170
175 - 185 8 180
185 - 195 6 190
195 - 205 3 200
Total 50n -
i folosim formula
1
( )i iix n xn
. Deci obinem:
1(4 140 5 150 13 160 11 170 8 180 6 190 3 200)
50x = 168,80.
Momente iniiale (necentrate) de ordin r . Corespunztor celor trei situaii de mai
sus, formulele de calcul sunt :
1 rr i
i
x xn
,1 r
r i i
i
x n xn
i respectiv1
( )rr i i
i
x n xn
.
Exemplu. Vom calcula momentul iniial de ordinul doi pentru seria statistic
X: 12; 15; 17; 12; 14; 21; 21; 17; 19; 24; 15; 11; 11; 14; 19; 21; 21; 15; 18; 17.
Avem:
8/2/2019 4. Serii statistice
15/23
15
2 2 2 2 2 2 2 2 2 2 2
2
1(12 15 17 12 14 21 21 17 19 24 15
20x
2 2 2 2 2 2 2 2 211 11 14 19 21 21 15 18 17 ) = 292,50.
Pentru distribuia de frecvene
(i
x ) (i
n )
11 2
12 2
14 2
15 3
17 3
18 1
19 2
21 4
24 1
Total 20n
calculele pot fi aranjate astfel:
8/2/2019 4. Serii statistice
16/23
16
(i
x ) (i
n ) ( 2i
x ) ( 2i i
n x )
11 2 121 242
12 2 144 288
14 2 196 392
15 3 225 675
17 3 289 867
18 1 324 324
19 2 361 722
21 4 441 1764
24 1 576 576
Total 20n - 5850
Deci 25850
292,5020
x .
n sfrit, dac se d o distribuie de frecvene cu valorile grupate pe intervale, ca de
exemplu
8/2/2019 4. Serii statistice
17/23
17
( ix ) ( in )
135 - 145 4
145 - 155 5
155 - 165 13
165 - 175 11
175 - 185 8185 - 195 6
195 - 205 3
Total 50n
atunci calculele se pot aranja astfel:
(i
x ) (i
n ) (i
x ) ( 2( )i
x ) ( 2( )i i
n x )
135 - 145 4 140 19600 78400
145 - 155 5 150 22500 112500
155 - 165 13 160 25600 332800
165 - 175 11 170 28900 317900
175 - 185 8 180 32400 259200
185 - 195 6 190 36100 216600
195 - 205 3 200 40000 120000
Total 50n - - 1437400
8/2/2019 4. Serii statistice
18/23
18
Deci2
143740028748
50x .
Dispersia (sau variana). O vom nota cu 2 de aceast dat. Corespunztor celor trei
situaii de mai sus, se calculeaz cu (una din) formulele:
2 2 2
2
1( ) ( )
i
i
x x x xn
,2 2 2
2
1( ) ( )
i i
i
n x x x xn
i respectiv
2 2 22
1( ) ( )i i
i
n x x x xn
. Diferenele " ix x " se numesc abateri individuale
(de la medie) i adesea este necesar calcularea lor n practic.
Exemplu. Dac se d o serie statistic sub forma
X: 12; 15; 17; 12; 14; 21; 21; 17; 19; 24; 15; 11; 11; 14; 19; 21; 21; 15; 18; 17,
atunci (vezi mai sus) 16,70x i avem:
2 2 2 2 2 2 21 [(12-16,7) +(15-16,7) +(17-16,7) +(12-16,7) +(14-16,7) +(21-16,7) +20
2 2 2 2 2 2+(21-16,7) +(17-16,7) +(19-16,7) +(24-16,7) +(15-16,7) +(11-16,7) +
2 2 2 2 2+(11-16,7) +(14-16,7) +(19-16,7) +(21-16,7) +(21-16,7) +
+ 2 2 2(15-16,7) +(18-16,7) +(17-16,7) ] = 13,61.
Acelai rezultat se putea obine i cu cealalt formul de mai sus:
2
2292,50 (16,7) 292,50 278,89 13,61x .
Dac se d o distribuie de frecvene de forma
8/2/2019 4. Serii statistice
19/23
19
( ix ) ( in )
11 2
12 2
14 2
15 3
17 318 1
19 2
21 4
24 1
Total 20n
pentru care 16,7x (a fost calculat mai sus), atunci calculele se pot aranja astfel:
8/2/2019 4. Serii statistice
20/23
20
(i
x ) (i
n ) (i
x x ) 2( )i
x x 2( )i in x x
11 2 -5,7 32,49 64,98
12 2 -4,7 22,09 44,18
14 2 -2,7 7,29 14,58
15 3 -1,7 2,89 8,67
17 3 0,3 0,09 0,27
18 1 1,3 1,69 1,69
19 2 2,3 5,29 10,58
21 4 4,3 18,49 73,96
24 1 7,3 53,29 53,29
Total 20n - - 272,20
Deci 2272,20
13,6120
. Rezultat pe care-l puteam obine i cu cealalt formul:
2 2292, 50 (16, 7) 13, 61 .
n final, dac valorile sunt grupate pe intervale ca n exemplul
8/2/2019 4. Serii statistice
21/23
21
(i
x ) (i
n )
135 - 145 4
145 - 155 5
155 - 165 13
165 - 175 11175 - 185 8
185 - 195 6
195 - 205 3
Total 50n
pentru care s-a calculat 168.80x , calculele se pot aranja astfel:
(i
x ) (i
n ) (i
x ) (i
x x ) 2( )ix x
2( )
i in x x
135 - 145 4 140 -28,80 829,44 3317,76
145 - 155 5 150 -18,80 353,44 1767,20
155 - 165 13 160 -8,80 77,44 1006,72
165 - 175 11 170 1,20 1,44 15,84
175 - 185 8 180 11,20 125,44 1003,52
185 - 195 6 190 21,20 449,44 2696,64
195 - 205 3 200 31,20 973,44 2920,32
Total 50n - - - 12728
8/2/2019 4. Serii statistice
22/23
22
Deci 212728
254,5650
. Cu a doua formul, care pune n eviden momentul iniial
de ordinul doi, obinem 2 228748 (168,80) 254,56 .
Abaterea standard (sau abaterea medie ptratic). Se definete (n toate cele trei
cazuri de care am vorbit mai sus) prin 2 .
Deci, corespunztor celor trei forme de mai sus de prezentare a datelor, avem respectiv:
13,61 3,68 , idem i 254,56 15,95 .
Variana (dispersia) modificat (sau de selecie). Se definete, n toate trei situaiile
de mai sus, prin 2 21
ns
n
.
Deci, pentru primele dou situaii de mai sus, 220
13,61 14,3220 1
s
. Iar pentru a
treia situaie, 250
254,56 259,7550 1
s
.
Abaterea standard (sau abaterea medie ptratic) modificat (sau de selecie).
Indiferent de forma de prezentare a datelor, acest indicator se definete prin 2s s .
Deci, pentru primele dou situaii de mai sus, 14,32 3,78s i respectiv
259,75 16,11s .
Atenie: despre proprietile acestor indicatori prezentai aici ct i despre ceilali
indicatori importani VEZI seminar !! Chiar dac acest capitol pare uor, dac nu
ncercai s rezolvai singuri problemele de la seminar i exemplele de la curs (ducnd
8/2/2019 4. Serii statistice
23/23
23
calculele pn la sfrit, cu un calculator de buzunar), nu vei face fa examenului de
Statistic !!
Bibliografie (pentru acest capitol)
1. Laura Simon, Scott Roths, STAT 414 - 415, Lecture Notes, Dept. of Statistics,
PennState University, (2012)
2. ipo Ciprian, Preda Ciprian, Statistic Economic, Editura Mirton, Timioara, 2004
3. http://www.biblioteca-digitala.ase.ro/biblioteca/carte2.asp?id=116&idb=21
(Curs online gratuit, Academia de Studii Economice Bucureti; clickpe fiecare capitol
din cuprins)