analiza

8

Click here to load reader

Transcript of analiza

Page 1: analiza

zadanie rozpoznawania z dwoma cechami (n=2) i z trzema klasami (M=3) dla algorytmu rozpoznawania według wzoru (9) weźmy następujące funkcje klasyfikująceg1(x) = (x1)^2+(x2)^2 ; g2(x)=2*x1; g3(x) = 2*x2;

wyznaczamy powierzchnie rozdzielające te obszary decyzyjne . w [...]

analogicznie wyznaczamy równanie powierzchni s13 x1

2 x 2−12=0oraz x1− x2=0---wynik obliczeń wykres 2 okręgi i linia prosta

powyższy opis stanowi opis idei klasyfikującej, ale nie jest przedstawieniem metody zawsze użytecznejprzedstawienie metody wymaga podania:sposobu wyznaczania funkcji klasyfikującychsposobu dokonywania podziału na obszary decyzyjne

w następnej sekcji opisany zostanie jeden ze sposobów : probabilistyczny model niepewności

Probabilistyczny model niepewności

Stosowanie modelu statystycznego do zadania rozpoznawania oznacza założenie że wartości elementów wektora cech x oraz numer klas j opisujemy używając metod właściwych dla statystyki - traktujemy je jako zmienne losowe które oznaczamy odpowiednio % i J

Zmienna losowa % jest typu ciągłego a jej wartości pochodzą z przestrzeni X, natomiast zmienna losowa J przyjmuje wartości dyskretne ze zbioru klas M = { 1,2..M}.

Aby losowość mogła być użyteczna należy jednak wstępnie coś wiedzieć o jej charakterze.Dla zmiennej losowej J jest to jej rozkład scharakteryzowany prawdopodobieństwami wystąpień klas

P J= j= p j j∈M

Z kole dla zmiennej losowej % dla każdej wartość j należy do M znana jest jej funkcja gęstości prawdopodobieństwa

f x / j = f j x x∈Xjest to tak zwana gęstość cech w klasietzw bezwarunkowa funkcja gęstości

f x =∑ j∈Mp j f jx

jest dodatnia dla wszystkich x∈X

praktyczna interpretacja prawdopodobieństw(11) jest taka ze obiekty należące do rozważanych klas pojawiają się z pewna znana(zbadana) statystyczna prawidłowością, o której mówią nam właśnie prawdopodobieństwa(11) obiekty jednych las występują częściej niż innych klas

występuje tez zmienność każdej cechy .

Page 2: analiza

Przykład jedna z klas chorób będzie grypa jednym z symptomów jest podwyższona temperatura, choć wiadomo ,ze grypa przebiega przy równych jej wartościach, bywa że i bez gorączki

warunkowa gęstość prawdopodobieństwa wystąpienia tej cechy (th temperatury) w omawianej klasie choroby ma więc jakiś kształt (podobny rozkład jak Poissona temp od 36 do 41(dead))

gdy chcemy rozpoznawać obiekty(chorobę), to dokonujemy pomiarów wartości wszystkich dostępnych(albo tylko istotnych) cech np. temperatura ciśnienie...następnie w oparciu o te wartości odniesienie do ich gęstości prawdopodobieństw możemy określić prawdopodobieństwo, ze badany obiekt należy do klas j;

p j x=P J= j /= x : x∈X : j∈M (14)

prawdopodobieństwo a posteriori j-tej klasy

pytanie brzmi, jak można je policzyćWiadomo ze dysponujemy informacjami a priori(11), (12).

wzór bayesa

p jx =p j f j x

f x (15)

w którym f(x) liczymy z definicji (13)

przykład w zadaniu rozpoznawania z dwoma lasami (dychotomia) prawdopodobieństwa klas wynoszą p1 i p2

rozpatrzmy dwa przypadki w których skalarna cecha x ma warunkowe rozkłady w klasach przedstawiona na rysunkach a) – b)

f1(x) f2(x)2 garby wielbłąda na osi X gdzie szczyty garbów są x1 x2

przypadek 1 rys adla cechy x1 po zastosowaniu wzoru (15) otrzymamy następujące prawdopodobieństwa

p1(x1) = 1p2(x1) = 0

z kolei dla cechy x2 otrzymamy odwrotne

widać ze jeśli ślady warunkowych gęstości(12) są rozłączne, to wartość cechy x jednoznacznie wskazuje na klasę rozpoznawanego obiektu. Czyli znając wiemy na pewno jakiej klasy jest obiekt, obo odpowiednie prawdopodobieństwa są albo 1, albo 0

przypadek 2 rys b

f1(x) = f2(x) = f(x)znowu podobna krzywa do rozkładu Poissona x3 na środku(max) osi X

rys b warunkowe gęstości prawdopodobieństwa cech

Page 3: analiza

teraz dla obiektu x3 mamyp1(x3) = p1p2(x3) = p2czyli p1+p2=1

Jak widać dokonania pomiaru cechy byli bezcelowe. Jakąkolwiek wartość daje pomiar, to prawdopodobieństwo wystąpienia klasy jest równe prawdopodobieństwo a prior tej klasy.Postać warunkowych gęstości cechy oznacza w tym przypadku, ze zmienne losowe % oraz J są statystycznie niezależne.Dokonanie pomiaru nie zwiększa naszej wiedzy.

Sytuacje a) i b) są skrajne i stosowane stosunkowo rzadko spotykane w praktyce

Najczęściej ani gęstość cechy nie są jednakowe ani też ich klasy nie są rozłączne(rys).Dwa rozkłady Poissona z częściom wspólną nakładające się (obszar sporny) obszary nienakładające się to klasa1 i klasa2 zależnie do której cechy należąprzestrzeń cech(cala oś X)

Warunkowe gęstości cechy – przykład dychotomii.

Zadaniem algorytmu decyzyjnego jest rozstrzygniecie dotyczące zaliczenia sprawdzanego obiektu do jednej z klas. rozstrzygniecie musi być możliwie najlepsze. Należy zatem zawsze określić kryterium optymalności wdusi którego oceniamy jakość rozstrzygnięciawprowadźmy nieujemna i ograniczona funkcje dwóch argumentów

0≤Li , j ≤∞ , i , j∈M

Funkcje ta nazywamy funkcja straty, a jej wartości miara straty. wprowadzimy zliczając obiekt j-tej błędnie jako przynależny do klasy i-tejGdy rozpoznania są trafne to straty nie ma zatem

L i , j =0

Gdy i != j, co oznacza ze algorytm podjąć błędną decyzje to wartość funkcji jest tym większa im większa jest odległość pomiędzy i j.Jeśli następstwo błędnej decyzji jest trudne do oszacowania lub tylko chodzi nam o stwierdzenie zaistnienia błędów to wygodniej jest przyjąć zero-jedynkową funkcje strat:

L i , j ={0 jeśli i= j1 jeśli i != j

Zauważmy dalej ze skoro wartości cechy obiektu X są realizacja zmiennej losowej, to wynik rozpoznawania czyli numer klasy i wskazany przez algorytm rozpoznawania Phi jest także realizacja zmiennej losowej, niech ta zmienna będzie oznaczona litera I.

Jest to zmienna losowa dyskretna przyjmująca wartości ze zbioru numerów klas Mtak więc I= phi % ;Przyjmując że % jest zmienna losowa typu ciągłego reprezentacja wartości elementów wektora cech x.

Interesuje nas prawdopodobieństwo zdarzenia, że wartości cech obiektu z klasy j-tej wpadną do i-tego obszaru decyzyjnego D x

i algorytmu phi.Równoważnie interesuje nas prawdopodobieństwo ze algorytm rozpoznawania phi zaliczy niepoprawnie obiekt klasy j-tej dla klasy i-tej.

Page 4: analiza

formalnie q i , j=P I=i /J = j =∫

Dxi

f j xdx (18)

Możemy to sobie wyobrazić jako całkowanie po obszarze Dxi pod funkcja całka j

czyli obliczenie „powierzchni błędnych decyzji”.

W szczególności q i , j jest prawdopodobieństwem poprawnej klasyfikacji obiektu klasy j-tej a Pc [ phi ] liczone jak następuje

Pc phi =∑j∈M

p j q j , j =∑j∈M

p j∫Dx

j

f j xdx (19)

Oznacza średnie prawdopodobieństwo poprawnej klasyfikacji algorytmu rozpoznawania phi..zauważmy ze we wzorze (19) całkujemy po obszarze j-tym czyli chodzi o j-te decyzje w j-tym obszarze..

oznaczmy jeszcze Pe phi =1– Pc phi=∑j∈M

p j ∑i∈M , i!= j

q i , j jako średnie

prawdopodobieństwo błędu

wartość zmiennej losowej skokowej skośnej

E X =∑i=1

n

x i p i

skokowa zbiór wartości nieskończony

E X =∑i=1

x i p i (jeśli szereg jest zbieżny i równocześnie ∑i=1

∣x I p i∣ jest tak zbieżny)

gdy zmienna losowa jest ciągła i jej gęstością jest funkcja f wówczas

E X =∫∞

−∞

xf xdx

Jeśli ∫∞

−∞

xf x dx jest zbieżna i równocześnie ∣∫∞

−∞

xf xdx∣ jest zbieżna.

Gdy warunek ten nie jest spełniony to zmienna skokowa nie ma wartości oczekiwanej.

Z własność dowodzi się, że jeśli zmienne losowe X i Y są określone na tym samym zbiorze i obie maja wartość oczekiwana to ma ja również suma zmiennych losowych X i Y oraz:

E X Y =E X E Y

Wróćmy co funkcji strat 0≤L i , j≤∞ gdzie i , j∈M

pamiętając ze oba argument tej funkcji są wielkościami losowymi określimy wartośc oczekiwana E I , J przypomnijmy ze I= phi %

R[ phi ]=E i , j [ L I , J ]=E % , J [ L phi % , J ]

wielkości te nazywamy średnim ryzykiem lub po prostu ryzykiem reguły decyzyjnej czyli algorytmu rozpoznawania phi

Page 5: analiza

Dla przypadku pełnej informacji probabilistycznej oznaczającej znajomości prawdopodobieństwa (11) i gęstości(12) należny dla przyjętej funkcji strat(17) wyznaczyć taki algorytm rozpoznania phi postaci(9) który będzie minimalizował średnie ryzyko (21) czyli

R[phi* ]=minphi

R [ phi ] (26)

tak sformułowany problem optymalizacyjny w teorii decyzji statystycznych nazwę bayesowskiego problemu decyzyjnego a sam algorytm jest nazywany algorytmem bayesa(beyesowska reguła decyzyjna).

średnie ryzyko R [ phi]=E I , J [L I , J ]=E % ,J [L phi % , J ]

ryzyko warunkowe r j=E % , j [ L phi % , j ]=∫x

L i , j f j xdx

średnie ryzyko R [ phi]=∑j∈M

p j r j

R[ phi ]=E % , J [ L phi , J ]¿

≝ ∫x∈X

∑j∈M

L i , j p j f j xdx=

=∑j∈M

p j ∑j∈M

L i , j ∫D

ix

f j x dx=

=∑j∈M

p j ∑j∈M

L i , j q i / j

(22)

r j=E %/ j [L phi % , j ]¿

≝∫X

L i , j f j xdx (23)

r j=E J / x[ L phi % , j ]¿

≝∑j∈M

L i , j p j x (24)

tutaj p j x jest prawdopodobieństwem a posteriori (15)

Bayesowski problem decyzyjny - Algorytm Bayesa.

Rozpoczynamy ze wzoru (26) R[phi* ]=minphi

R [ phi ]

Wyznaczenie reguły decyzyjnej to wyznaczenie optymalnej decyzji dla każdej ustalonej obserwacji dla x∈X przepis jest następujący.

phi∗ x=i , jezeli mink∈M

rk x

phi∗ x=i jesli ∑j∈M

L i , j p j f j x=mink∈M

∑j∈M

L i , j p j f j x tego nie jestem pewien.

Page 6: analiza

Związek funkcyjny odznacza się tym ze każdej wartości jednej zmiennej niezależnej(X) odpowiada tyko jedna, jednoznacznie określona wartość zmiennej zależnej(Y).Wiadomo na przykład, ze obwód kwadratu jest funkcja jego boku (Ob=4a)

Związek statystyczny polega na tym, ze określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej. Można zatem obliczyć jak się zmieni wartość zmiennej Y w odniesieniu do wartości niezależnej X.

Regresje – interpretacja.

[Średnia arytmetyczna ]

wartość oczekiwana E X =∫−∞

xf xdx

f(x) funkcja gęstości rozkładu

Można narysować wykres zęby zobrazować zbiór danych i zależność między nimi(wykres rozrzutu)

liczba obserwacji n→∞ wykres opisuje stopniami szarości obszarów w których jest ich mniej, więcej (współśrodkowe elipsy pod jakimś kątem w którego kierunku zachodzi rozrzut)

Rozważanie wartości X(x1), szukamy wartości Y(?) → E(Y|X=x1)

Liczba wartości oczekiwanych też →inf(cała linia prosta w punkcie x1) , wiec wyznaczamy wartość oczekiwana warunkową E(Y|X=x1) lub w skrócie E(Y|X)

postępując analogicznie dla wszystkich możliwych wartości zmiennej X otrzymamy pewna linie którą nazywamy - linia regresji I rodzaju.Jest ona zdefiniowana przez warunkowe wartości zmiennej Y(zmiennej zależnej) pod warunkiem, że zmienna X(zmienna niezależna) przyjmuje wartości x, czylig(X)=E(Y|X=x) prostsza wersja tego samego→ g(x)=E(Y|X)

W przypadku skończonej liczby zmiennych losowych, konieczna jest znajomość tej zmiennej losowej dwuwymiarowej(X,Y), jeśli się go nie zna zastępuje się linie regresji I rodzaju →

linia regresji II rodzajujest to funkcja f(x) jeżeli znany rozkład i jest normalny to g(x) = f(x), jeśli nie to f(x) != g(x)

Postać analityczna linii regresji II rodzajumodel regresji liniowej opisujący liniową zależność zmiennej Y do zmiennej X można zapisać w postaci równaniaY = f(X) = Bo+B1X+eBo,B1 - parametry modelu(współczynniki regresji),e – składnik losowy

Jest to równanie regresji liniowejNależy zwrócić uwagę na obecność we wzorze tzw składnika losowego e. Występowanie składnika losowego e w równaniu związane jest z brakiem pełnego dopasowania analitycznego postaci funkcji regresji do rzeczywistego powiązania miedzy analizowanymi zmiennymi.

Page 7: analiza

Składnik losowy reprezentuje losowe zakłócenia funkcyjnego powiązania miedzy wartościami zmiennej zależnej, a wartościami zmiennej niezalanejSkładnik ten wyraża wpływ wszystkich czynników, które obok zmiennej Xi mogą wpływać na zmienna objaśnianą YNależy pamiętać, że w rzeczywistości parametry Bo B1 nie za znane – są jedynie wartościami teoretycznymi.

Oszacowanie funkcji regresji przyjmuje wówczas następującą postaćY(z daszkiem) = b0, b1X+Eb0, b1 = współczynniki będące ocenami parametrów regresji B0,B1

E = [e1,e2,e3,...]T wektor reszt rożnie zdefiniowanych jakoei = yi-y`i

Metody najmniejszych kwadratów.Rozważając serie punktów (xi,yi) i=1,2,3... oraz funkcje

ydaszek =b0b1 x

reszty będące realizacja składnika losowego, który jest zmienna losowa występująca w populacji generalnej, możemy wyrazić następująco

ei= yi− y daszek ii= yi−b0b1 xparametry b0 b1 dobiera się tak aby zminimalizować sumę kwadratów reszt

reszty te możemy interpretować jakobłędy popełniane podczas oceny parametrów prostej, a co za tym idzie oceny wyznaczanej funkcji regresji, alboodległości punktów empirycznych od wyznaczonej linii regresji

graficznie reszty to punkty odległe od prostej linii regresji

parametry b0 b1 ,które minimalizacja funkcje postaci:

S=∑i=1

n

ei 2=∑

i=1to

n yi− y i daszek 2=∑i=1

n

yi – b0b1 xi 2=min

we wzorze tym tylko b0 i b1 są parametrami pozostałe wartości SA znane zatem S jest funkcja zmiennych b0 b1S=f(b0,b1)

przyrównanie do 0 Sb0

=0 oraz Sb1

=0

Sb0

=−2∑i=1

n

yi – b0 – b1 x i

Sb1

=−2∑i=1

n

yi – b0 – b1 xi ⋅x i

daje nam układ równań normalnych

∑i=1

n

y i n⋅b0 –∑i=1

n

b1⋅xi=0

∑i=1

n

yi⋅xi i b0⋅∑i=1

n

xi−b1⋅∑i=1

n

xi2=0

Page 8: analiza

rozwiązanie tego układu równań z dwiema niewiadomymi przedstawia się następująco

b1=

∑i=1

n

y i−yx i−x

∑i=1

n

xi−x2

=Cov xyvar x

b0=y−b1⋅x

analiza korelacjimiara liniowej zależności między zmiennymi X oraz Y i wyraża się wzorem :r(X,Y) = r(X,Y) = Cov(X,Y) / SXSYGdzie Cov(X,Y) kowiarancja X,Y

Cov X ,Y =Cov Y , X =∑ xi – x yi− y

nn= liczba obserwacjiSX i SY odchylenia standardowe zmiennej X,Y

SX = ∑ x i−x2

nSY = analogicznie

można podstawić do pierwszego wzoru i będzie ostateczny wzór

Zależność korelacyjna charakteryzuje się tym ze określonym wartością jednej zmiennej (X) przyporządkowane są ściśle określone średnie wartości (Y))

wartości współczynnika korelacji Pearsona zawierają się w przedziale [-1,1]gdy war + czyli rosnąca oba w góręujemny wzrost jednego → spadek drugiego

jeśli rozkład był równoległy do którejś z osi X, Y to nie ma korelacji

im współczynnik bliższy 1 to korelacja się silniejsza, bliżej 0 słabszaod 1 do -1 pełny funkcyjny związek linowyr(X,Y) =0 brak korelacji

współczynnik bliski zeru nie oznacza braku korelacji lecz braku korelacji liniowej

trzy pytania