Rozkłady - biol.uw.edu.pl · Blaise Pascal 1623-1662 John Graunt 1620-1674 3,4 –Uczeni, którzy...

Post on 01-Mar-2019

215 views 0 download

Transcript of Rozkłady - biol.uw.edu.pl · Blaise Pascal 1623-1662 John Graunt 1620-1674 3,4 –Uczeni, którzy...

Rozkłady

Nieco historii

W 1629 roku we Włoszech miała miejsce epidemia „Wielkiej dżumy mediolańskiej”. W przeciwieństwie do wcześniejszych epidemii, rządy krajów europejskich starały się jej przeciwstawić: ogłaszano kwarantanny, wprowadzono zakaz podróżowania z miast objętych epidemią. Działania te zakończyły się sukcesem.

Efektem ubocznym podjętych działań był rozwój „biurokracji” państwowej –powstały urzędy zbierające informacje o przyczynach śmierci osób w wyznaczonym rejonie. Przesyłano te informacje do urzędu centralnego w stolicy. Nie zaprzestano tego po zakończeniu się epidemii.

Gromadzono ogromną liczbę danych. Powstał nowy zawód: rachmistrz zajmujący się zliczaniem i opracowaniem takich danych. Opracowania te były jawne i publikowane w biuletynach rządowych.

Autor: Andrei nacuŹródło: Wikipedia

Czarna Śmierć

280 lat później:

Jak wyglądały te dane?

Tabele

W XVII tabele pojawiły się w naukach społecznych, potem w

biologii i innych dziedzinach.

Do XVII wieku wzory matematyczne, wykresy

i tabele miały racje bytu tylko w pracach matematycznych,

astronomicznych i fizycznych.

Pojawiła się konieczność opracowania metod

przetwarzania danych na czytelniejsze tabele (a później

też wykresy).

W tym czasie …

Pierre de Fermat1601-1665

Blaise Pascal1623-1662

John Graunt1620-1674

3,4 –Uczeni, którzy opracowali różne metody oceny pomiarów populacji ludzkiej:• J. Graunt. 1662. Naturalne i polityczne obserwacje poczynione nad biuletynami

śmiertelności. • sir W. Petty. 1676. Arytmetyka Polityczna.

1,2, Matematycy, którzy pierwsi zauważyli, że wyniki pomiarów powtarzalnych układów (gier losowych) układają się w możliwą do opisania językiem matematyki strukturę.

1 2 3

William Petty1623-1687

4

Prawdopodobieństwo

Prawdopodobieństwo – średnia częstość zdarzeń mających miejsce:• w danym obszarze • w danym przedziale czasowym

Prawdopodobieństwo • jest liczbą rzeczywistą z przedziału [0,1]• ma szereg matematycznych własności

Tabele przeżywalności i prawdopodobieństwo

W pewnej wiosce żyje średnio 1000 osób.Przez ostatnie 10 lat było tam 590 pogrzebów (590 urodzin). W jedenastym roku umarło 100 osób. Czy to przypadek?

Prawdopodobieństwo śmierci 100 osób wynosi 0.000000132.

Prawdopodobieństwo śmierci 100 lub więcej osób wynosi 0.000000295.

Wniosek – w wiosce wybuchła epidemia, trzeba ją objąć kwarantanną

Rozwój technik pomiarowych

XVIII – moda ta mierzenie i ważenie wszystkiego. Powstaje nowy typ naukowców (nazwanych w Polsce naturalistami) – podróżnik opisujący geografię, geologię, środowisko, klimat, pogodę, przyrodę przy tym mierzący, liczący, nie oceniający niczego „na oko” i publikujący wielkie rozprawy z ogromną liczbą tabel zawierających wyniki pomiarów.

• Rozwój fizyki i chemii – powstanie nowych zmiennych (temperatura, ciśnienie)i aparatury pozwalającej na ich pomiar.

• Standaryzacja jednostek pomiarowych:1795 - metr jako 10-7 długości mierzonej wzdłuż południka paryskiego od równika do bieguna. Na podstawie tej definicji wykonano platynoirydowy wzorzec metra. 1889 – kilogram jako masa walca o wysokości i średnicy podstawy 39 mm[1] wykonanego ze stopu platyny (90 procent) z irydem (10 procent)

• Standaryzacja uniezależniająca częstość od wielkości próby – powstanie procentu

• Rozwój metod opracowania wyników pomiarów w formy łatwiejsze do przyswojenia dla czytelnika - ROZKŁADY.

Formalizacja

Zmienna – wielkość, która może mieć różne wartości.

Obejmuje te osobniki, które są w populacji, były, będą, mogłyby się pojawić w danych warunkach środowiska.Obejmuje ogół komórek badanej tkanki występujących u różnych osobników, które są lub mogłyby się pojawić w danych warunkach.Obejmuje ogół eksperymentów, które można by wykonywać w takich samych warunkach

CIĘŻAR → 7 g, 100 g, 2.2 kg, 7 uncji, 30 funtów, 5.3 tonyKOLOR → biały, żółty, zielony, niebieski, fioletowy, czerwony, brązowy, czarny

albo #FFFFFF, #ffff33, #339900, #000033, #ff3366, #97694F, #000000

Populacja statystyczna – wyróżniony zbiór obiektów podlegających badaniu. W biologii najczęściej są to osobniki, ale równie często komórki, tkanki, wykonywane eksperymenty itp.

Populacje statystyczne są de facto nieskończone.

Definicja rozkładu

Przyporządkowanie wartości zmiennej liczby równej prawdopodobieństwu pojawienia się tej wartości w populacji.

Wartość zmiennej ⟶ prawdopodobieństwoNp.

Niebieski kolor oczu ⟶ 0.45Zielony kolor oczu ⟶ 0.18

Brązowy kolor oczu ⟶ 0.37

Ciężar psa w przedziale [2, 2.5 kg) ⟶ 0.07Ciężar psa w przedziale [2.5, 3 kg) ⟶ 0.11

Rozkład zmiennej dyskretnej

0

0.1

0.2

0.3

0.4

0.5

x1 x2 x3 x4 x5

częs

tość

Wartości zmiennej

i

inN

Wartości Liczba

obiektów

Frakcja/

częstość

x1 n1 n1/N

x2 n2 n2/N

x3 n3 n3/N

x4 n4 n4/N

x5 n5 n5/N

Funkcja rozkładu

Gdy N zmierza do nieskończoności, frakcje zmierzają do pewnej liczb pi.

Funkcja przyporządkowująca wartościom zmiennej frakcję występowania danej wartości - funkcja rozkładu zmiennej.

1i

ip

Rozkład zmiennej ciągłej

Rozkład zmiennej zależy od tego na jakie odcinki dzielimy zakres wartości zmiennej.Jakość informacji odczytywanej z utworzonych tablic/wykresów jest najlepsza przy małych odcinkach

Przy dużych próbach najlepiej jest zastosować podział na wiele odcinków o szerokości Δx [jedn.] zrobić histogram dzieląc wysokość słupków przez Δx i narysować wykres rozkładu w formie liniowej.

Pole powierzchni pod wykresem gęstości rozkładu jest równe 1.

Uzyskujemy w ten sposób gęstość rozkładu.

Rozkłady, a wielkości rzeczywiste

Rozkłady – obiekty abstrakcyjne – odpowiednio zilustrowana wielkość pomiarowa (zmienna) właściwa dla konkretnej populacji.

Rzeczywisty zbiór wielkości pomiarowych – zbiór liczb określający wartość pomiarową dla kolejnych osobników (innych obiektów) populacji statystycznej.

Histogram Rozkład

O rzeczywistych wartościach mówimy, ze są losowane z jakiegoś rozkładu.

Co to znaczy, że liczbę losujemy z rozkładu?

Rzucamy w wykres rozkładu małym elementem.Gdy element nie trafił w rozkład ponawiamy rzut.Kiedy trafił, odczytujemy jego pierwszą współrzędną na osi 0X.

Każdy punkt zakreślonego na niebiesko obszaru może zostać wylosowany z jednakowym prawdopodobieństwem.

0

0.1

0.2

0.3

0.4

0.5

x1 x2 x3 x4 x5

częs

tość

Wartości zmiennej

Co to znaczy, że wielkość losujemy z rozkładu dyskretnego?

Rzucamy w wykres rozkładu małym elementem.Gdy element nie trafił w rozkład ponawiamy rzut.Kiedy trafił, odczytujemy wartość odpowiadającą słupkowi, w który trafił.

Każdy punkt zakreślonego na brązowo obszaru może zostać wylosowany z jednakowym prawdopodobieństwem.

0

0.05

0.1

obwód szyi

Długość ogona

Rozkłady pary zmiennych

Każdy element bryły pod gęstością rozkładu może zostać wylosowany z jednakowym prawdopodobieństwem.

Losujemy element bryły pod rozkładem. Odczytujemy jego dwie początkowe współrzędne.

Rozkład pary zmiennych jest bryłą pod wykresem funkcji f(x,y).Objętość tej bryły jest równa 1.f(x,y) jest gęstością rozkładu.

Rozkład – rzeczywistość rzucona na kartkę papieru

A posteriori

A priori

Wyniki pomiarów tworzą rozkład

Wyniki pomiarów są losowane z rozkładu

Podstawowe założenie

Każda zmienna

określona dla każdej populacji statystycznej

istniejącej w określonych warunkach

posiada jeden, jednoznacznie określony rozkład.

Podstawowy problem

Jaki to rozkład?

Rodzaje rozkładów: określane przez przyrodę i matematykę

Rozkład zmiennej pomiarowej1. Istnieje i jest jednoznacznie określony.2. Można ten rozkład traktować jako cechę przyrody.3. Przyroda nie daje nam gotowego wzoru na funkcję rozkładu zmiennej dyskretnej

lub gęstość rozkładu zmiennej ciągłej.

Rodzaje rozkładów

Rozkład zmiennej wyznaczonej przez dowolną funkcję f:ℝℝ+, która ma tę właściwość, że obszar pod jej wykresem ma pole powierzchni równe 1.

1. Można dla niech wyprowadzać różne wzory i dowodzić różne twierdzenia.2. Można go używać w programach komputerowych. 3. Nie wiemy, czy ma on związek z pomiarami biologicznymi.

Rozkłady, które określa przyroda

Rozkłady, które określa matematyka

Rozkłady określone przez przyrodę

Długość ciała wyznaczona jest przez cechy genetyczne osobników i warunki środowiskowe .

Interesuje nas jak przyroda kształtuje długość ciała osobników żyjących i tych, które mogłyby się w danej populacji pojawić, gdyby warunki życia osobników nie zmieniły się, jak też nie zmieniłaby się struktura genetyczna populacji.

Interesuje nas teoretyczny rozkład długości ciała wszystkich możliwych osobników, które wywodzą się z konkretnej populacji i wyrosłyby w danych warunkach.

gęstość rozkładu jest funkcją ciągłą, bo nieciągłość oznaczałaby dziwne wyróżnienie jakiejś wartości długości osobnika

z takich samych powodów gęstość rozkładu długości jest funkcją różniczkowalną

Rozkłady określone przez przyrodę

Poza ciągłością i różniczkowalnością gęstości rozkładu nic więcej nie możemy powiedzieć o rozkładach tworzonych przez przyrodę.

Można, co nieco wnioskować o rozkładach pewnych zmiennych, ze względu na własności pewnych rozkładów danych wzorem matematycznym.

Rozkłady określone przez matematykę

Rozkłady w R.

beta - rozkład betabinom - rozkład dwumianowycauchy - rozkład Cauchy'egochisq - rozkład chi-kwadratexp - rozkład wykładniczyf - rozkład Fgamma - rozkład gammageometric - rozkład geometrycznyhypergeometric - rozkład hypergeometrycznyllnorm - rozkład log-normalnylogis - rozkład logistycznynbinom - rozkład ujemny dwumianowynorm - rozkład normalnypois - rozkład Poissonasignrank - rozkład statystyk testu znakowanych rank Wilcoxonat - rozkład studentaunif - rozkład jednostajnyweibull - rozkład weibullawilcox - rozkład Wilcoxona

Rozkłady określone przez matematykę

Dla każdego rozkładu danego wzorem opracowano optymalne algorytmy losowania liczb z takiego rozkładu, wyliczania pól powierzchni pod rozkładem od danej liczby na lewo od niej (wartości rozkładu skumulowanego zwanej inaczej dystrybuantą).

Przedrostki r, d, p i q

r… – liczby losowane z danego rozkładu. d… - wartość funkcji rozkładu lub gęstości rozkładu.p… - prawdopodobieństwo odpowiadające wartości zmiennej skumulowanej (dystrybuancie), czyli pole powierzchni pod gęstością rozkładu.q… - kwantyle rzędu p - wartość zmiennej skumulowanej odpowiadające prawdopodobieństwu p, czyli polu powierzchni pod gęstością rozkładu równemu dokładnie p.

Rozkładya priori i a posteriori

Przykład: rozkład czasu przejścia przez labirynt

Eksperyment: Labirynt. Szczur go nie zna, ale wie, że po jego przebyciu otrzyma smakołyk.

Za pomocą stopera wylicza się czas dotarcia do smakołyku.

Eksperyment przeprowadzono dla 20 szczurów. Dla 19 uzyskano wyniki (szczur nr 4 wszedł do ciemnego korytarza i zasnął w nim; po 20 minutach został zabrany z powrotem do klatki).

Przykład: rozkład czasu przejścia przez labirynt

Uzyskane wyniki.

Histogram.

Celem pracy jest znalezienie takiego rozkładu, z jakiego mogą pochodzić te liczby.

Przykład: rozkład czasu przejścia przez labirynt

Metoda:1. Rozważamy wszystkie rozkłady o parametrze mean=200 do 600 i parametrze sd równym od 100 do 400.2. Z każdego rozkładu losujemy 10000 razy próbę 19-elementową. 3. Dla każdego takiego losowania wyliczamy średnią i odchylenie standardowe.4. Wyliczamy liczbę średnich z prób mniejszych od 395.4737 i liczbę odchyleń standardowych z prób mniejszych od 184.6075.

W macierzy „wynik” zapisujemy 1 gdy obie wielkości są 95% przedziale ufności

wynik=outer(rep(1,200)*2,rep(-1,150))

for (n1 in 1:200){mi=200+2*n1

for (n2 in 1:150){ sig=100+2*n2

ls=0

lo=0

for (n in 1:10000) {

proba=rnorm(19,mi,sig)

sred=mean(proba)

odchsd=sd(proba)

if (sred<395.4737) ls=ls+1

if (odchsd<184.6075) lo=lo+1}

if (ls/10000<0.975 &

ls/10000>0.025 & lo/10000<0.975 &

lo/10000>0.025) wynik[n1,n2]=1

else wynik[n1,n2]=0}}

Przykład: rozkład czasu docierania do smakołyku

Zakres zmienności parametrów mean i sd z którego mogą pochodzić dane

Wyniki :

Rozkłady a priori

Poruszanie się szczurów w nowym środowisku

Działanie kilku przeciwstawnych emocji:1. Ciekawość – eksploracja nowego środowiska. 2. Strach, frustracja – zamieranie w miejscu, powrót do przebytego wcześniej

terenu.

Chodzenie po labiryncie odcinkami zakończonych zatrzymywaniem się i czasami powroty do przebytych wcześniej miejsc.

Przykład: model poruszania się po labiryncie

1. Błądzenie

przypadkowe

2. Błądzenie

przypadkowe bez

zawracania (poza

końcami ślepych

korytarzy)

3. Błądzenie

przypadkowe bez

zawracania (poza

końcami ślepych

korytarzy)

zaznaczaniem

końców ślepych

korytarzy

4. Model końcowy (założenia takie jak w 3 + emocje)

Rozkłady a posteriori

0

0.1

0

150

300

450

600

750

900

1050

1200

1350

1500

1650

1800

1950

2100

2250

2400

2550

2700

2850

3000

czas

Rozkład czasu uzyskany dla 10000 powtórzeń symulacji

Zalety analizy a posteriori

Możliwość poprawiania modelu.

Uwzględnienie zmniejszenia w czasie emocji strachu i wzrostu ciekawości. Zobaczenie jak parametry związane z ta funkcja wpływają na czas przejścia przez labirynt.

Wprowadzanie do modelu różnych „sztuczek” stosowanych przez szczury by usprawnić sobie przejście przez labirynt.

Zobaczenie jak emocje wpływają na skuteczność wprowadzania znaków przez szczury na labiryncie.

Rozkładów mające znaczenie w przyrodzie.

Rozkłady a posteriori dla pewnych standardowych układów eksperymentalnych

Rozkład dwumianowy:

Rodziny rozkładów mających znaczenie w przyrodzie

knkp,n )p1(p

k

n)k(P

Pojawia się wszędzie tam, gdzie można zastosować n-krotnie powtórzone działanie, którego wynik będący sukcesem zdarza się z prawdopodobieństwem p. Pomiar polega na liczeniu sukcesów.

• Częstość eksperymentów dających wynik x przy n-krotnym powtarzaniu eksperymentu • Częstość wartości x dyskretnej zmiennej pomiarowej X przy wielokrotnym wykonaniu pomiaru n obiektów.

Najważniejsza własność rozkładu dwumianowego

Rodziny rozkładów mających znaczenie w przyrodzie

Im większe N tym większy jest obszar, na którym P{X=k} jest praktycznie równe 0. Rozkład jest coraz bardziej skoncentrowany wokół liczby pN.

0)k(Plim}n),...,k(n),k(n,...,1,0{k

p.nn

Przy dużym n suma prawdopodobieństw ze znacznego „obszaru „ jest praktycznie równa 0

Prawo wielkich liczb Bernoulliego – prawo naprawdę wielkich liczb

p=

0.5

p=

0.2

5

Rozkład Poissona:

Rodziny rozkładów mających znaczenie w przyrodzie

e

!k)k(P

k

Pojawia się wszędzie tam, gdzie można zastosować schemat Bernoulliego, ale średnia liczba sukcesów na n powtórzeń jest stała (np= dla różnych n), a liczba pomiarów bardzo duża. knk

n n1

nk

nlim)k(P

Do analizy skupiskowości/równomierności rozmieszczenia obiektów, na przykład gąsienic rusałki pawika na liściach pokrzywy.

Zastosowanie rozkładu Poissona

1. Liczymy wszystkie dojrzałe liście kilku pokrzyw i liczbę gąsienic na każdym liściu.

2. Następnie robimy rozkład liczby gąsienic na liściu, czyli przyporządkowanie:0 gąsienic n0 liści1 gąsienica n1 liści2 gąsienice n2 liści…k gąsienic nk liści

3. Przy losowym rozmieszczeniu gąsienic rozkład ten jest rozkładem Poissona, czyli jego wariancja jest równa wartości oczekiwanej. Rozkład równomierny ma wariancje mniejszą, a skupiskowy większą.

5. Jeżeli I<1 rozmieszczenie jest równomierne, Jeżeli I=1 rozmieszczenie jest losowyJeżeli I>1 rozmieszczenie jest skupiskowe

Zastosowanie rozkładu Poissona

Wynika stąd, że przy losowym rozmieszczeniu gąsienic rozkład ten jest rozkładem dwumianowym.

Zastosowanie rozkładu Poissona

Porównanie obu rozkładów:

Rozkład geometryczny: gdzie k>0

Rodziny rozkładów majacych znaczenie w przyrodzie

1kp )p1(p)k(P

Pojawia się wszędzie tam, gdzie w jednostce czasu Δt może zajść sukces z prawdopodobieństwem p, a pomiar polega na długości trwania ciągu porażek.

• częstość określonej długości trwania doświadczenia polegającego na wielokrotnym powtarzaniu eksperymentu do osiągnięcia sukcesu,• częstość określonej długość życia osobnika (sukces = śmierć w czasie [(k-1)Δt,k Δt), porażka = przeżycie danego czasu), gdy osobnikom zmarłym w czasie [0,Δt) przypisujemy długość życia 1.• częstość ustalonej liczby nukleotydów liczonych od początku chromosomu do pierwszej mutacji.

Rozkład ujemny dwumianowy: gdzie r>0, k0

Rodziny rozkładów mających znaczenie w przyrodzie

krp,r )p1(p

1r

1kr)k(P

Pojawia się wszędzie tam, gdzie w ciągu eksperymentów może zajść sukces z prawdopodobieństwem p, a pomiar polega na liczeniu ilości porażek do momentu pojawienia się r sukcesów. Najczęściej r=1.

• częstość określonej długości życia osobnika, gdy osobnikom zmarłym w czasie [0,Δt) przypisujemy długość życia 0.• częstość określonej liczby niezmutowanych nukleotydów między dwoma zmutowanymi

kk1p,1 )p1(p)p1(p

0

1k1)k(P

r=1

r= 5

Przesunięty rozkład geometryczny

Rozkład wykładniczy: gdzie l>0, x0

Rodziny rozkładów majacych znaczenie w przyrodzie

xe)x(f

Pojawia się jako przybliżenie rozkładu geometrycznego i ujemnego dwumianowego (r=1) dla bardzo długich czasów trwania zjawiska do momentu osiągnięcia sukcesu, w stosunku do odcinka czasu Δt, dla którego znane jest prawdopodobieństwo sukcesu.

tx

)txt,t(plim

0x

Rozkład czasu trwania procesu, gdy w każdym momencie może nastąpić jego koniec i prawdopodobieństwo końca nie zmienia się w czasie.

Rozkład normalny: gdzie m dowolne, s>0

Rodziny rozkładów mających znaczenie w przyrodzie

2

2

2

)x(

, e2

1)x(f

Najbardziej znany, Najczęściej stosowany jako założenie, że dana zmienna pomiarowa ma rozkład z rodziny rozkładów normalnych.

Co ma rozkład normalny?

Rozkład normalny jest dobrym przybliżeniem rozkładu dwumianowego dla dużych N i p niezbyt małym i niezbyt bliskim 1.

Rozkład normalny jest rozkładem średnich z n pomiarów (przy odpowiednio dużych, ale nie bardzo dużych n) zmiennej X mającej nawet bardzo dziwny rozkład (ale posiadający wartość oczekiwaną).

Mocne prawo wielkich liczb = dla większości rozkładów jest to prawo niezbyt wielkich liczb

Co ma rozkład normalny?

Prawo Lindenberga-Levy’ego, odmiana mocnego prawa wielkich liczb, - prawo niezbyt wielkich liczb

Zmienne, które kształtowane są przez czynnik główny i szereg czynników zmniejszających i zwiększających wartość zmiennej, spełniających warunek Lindenberga (co oznacza, że wpływ żadnej ze zmiennych nie dominuje nad innymi) będą miały rozkład normalny.

Co ma rozkład normalny?

Własności rozkładu normalnego

Jeżeli zmienne X1, X2, …, Xn mają rozkład normalny standaryzowany i są niezależne od siebie to zmienna Y= X1

2+ X22+ …+ Xn

2 ma rozkład chi-kwadrat o n stopniach swobody.

Jeżeli zmienne X1, X2, …, Xn mają rozkład normalny standaryzowany, n-1 z nich jest niezależnych od siebie oraz X1

2+ X22+ …+ Xn

2=C jest stałe to zmienna Y= X1

2+ X22+ …+ Xn

2 ma rozkład chi-kwadrat o n-1 stopniach swobody.

1

2

3

4

5

Rozkłady w R.

Przykład zastosowania R Do sprawdzenia trzeciego twierdzenia (własności rozkładu normalnego)

Co jeszcze powinniśmy wiedzieć o rozkładach?

Łączenie rozkładów

Powstaje wtedy, gdy wyniki pomiarów dwóch grup osobników (populacji, grup wyróżnionych ze względu na płeć itp.) mieszamy ze sobą i wykonujemy ich rozkład.

Zmiana jednostek zmiennej

zamiana jedn. na kilojedn.

Rozkłady zmiennej i zmiennej przekształconej

Jeżeli X jest losowana z rozkładu

to jaki rozkład tworzą liczby f(X)?

f(X)=X+2, f(X)=2X lub f(X)=ln(X)

Rozkłady zmiennej i zmiennej przekształconej

Przesunięcie zmiennej Przemnożenie zmiennej

Rozkłady zmiennej i zmiennej przekształconej

Logarytmowanie zmiennej ciągłej

Rozkłady i prawdopodobieństwo

Prawdopodobieństwo dla biologów = średnia częstość zdarzeń w przedziale czasowym, przestrzennym, określonym przez warunki eksperymentu/obserwacji itp.

Prawdopodobieństwa związane z rozkładami to średnia częstość uzyskania wartości x zmiennej X przy losowaniu wartości.

Wyliczenie prawdopodobieństwa, że zmienna dyskretna będzie mieć wartość x4 jest równe wysokości słupka dla x4.

Wyliczenie prawdopodobieństwa, że zmienna ciągła będzie mieć wartość między x4 a x5 jest równe polu powierzchni fragmentu rozkładu między prostymi x=x4 i x=x5.

Rozkłady i prawdopodobieństwo

W matematyce rozkłady traktowane są jako przestrzenie probabilistyczne.

Można ją sobie wyobrazić jako zbiór zdarzeń elementarnych x1, x2, x3, x4 i x5, z których każde występuje z innym prawdopodobieństwem równym wysokości odpowiedniego słupka.

Można ją sobie wyobrazić jako przestrzeń geometryczną, w której zbiorami mierzalnymi są tylko fragmenty rozkładu między dwoma prostymi prostopadłymi do osi poziomej, a prawdopodobieństwo jest polem powierzchni takiej figury.

Nomenklatura statystyczna

P{X=x2} – prawdopodobieństwo, ze zmienna X ma wartość x2.

P{X=x2 lub X=x3} – prawdopodobieństwo, ze zmienna X ma wartość x2 lub x3.

P{X<x} – prawdopodobieństwo, że X jest mniejsze od x

P{x1<X<x2} – prawdopodobieństwo, że X ma wartość w przedziale [x1, x2]

Nomenklatura statystyczna

fX oznacza rozkład (funkcję rozkładu) dla zmiennej dyskretnej oraz gęstość rozkładu zmiennej ciągłej.

FX oznacza rozkład skumulowany (skumulowaną funkcję rozkładu) dla zmiennej dyskretnej oraz całkę z gęstości rozkładu zmiennej ciągłej. W statystyce nazywa się to dystrybuantą.

Dla zmiennej ciągłej =P{X>x1 oraz X<x2}

Dla zmiennej dyskretnej uporządkowanej FX(x)=P{Xx}

Dla zmiennej ciągłej FX(x)= dt)t(fx

X

Dla zmiennej dyskretnej fX(x)=P{X=x}

dt)t(f2

1

x

x

X

Koniec