Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 ·...
Transcript of Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 ·...
Metody identyfikacji obserwacji odstających
Dr Piotr Denderski
Instytut Nauk Ekonomicznych Polskiej Akademii NaukUniversity of Leicester
7 lutego 2019
Plan szkolenia
1. Wprowadzenie
2. Dane jednowymiarowe
3. Dane dwuwymiarowe
4. Obserwacje odstające w regresji liniowej
5. Metody oparte o redukcję wymiaru
2 / 119
WprowadzenieOpis problemu, przygotowanie danych, podstawowe narzędzia
matematyczne
3 / 119
Obserwacje odstające - ilustracja zamiast definicji
Rysunek: źródło: www.mleczko.pl
4 / 119
Wykrywanie obserwacji odstających - praktyka
Rysunek: Zimowy krajobraz z łyżwiarzami, Hendrick Avercamp, 1608 rok
5 / 119
Cele szkolenia
I Dowiedzenie, że wykrywanie obserwacji odstających jestbardzo złożonym problemem
I Omówienie wybranych metod zaimplementowanych w językuR (składnia, własności, stojąca za ich implementacją teoria)
I Przygotowanie uczestników do dalszych własnych studiów wzakresie detekcji outlierów
I Napisanie przy okazji szkolenia kilku użytecznych metod dowykorzystania w przyszłości
I Wyrobienie intuicji dot. sił i słabości wybranych metod
6 / 119
Do zapamiętania
Dlaczego chcemy wykryć obserwacje odstające?I .. dla poprawy jakości danych: obs. odst. mogą zaburzać
estymację/predykcję/klasyfikacjęI błędy wprowadzania danych/pomiaru?I obserwacje “wyjątkowe”I obserwację odstającą możemy usunąć bądź zastąpić
“poprawną” (imputacja) ... - obydwa te działania zwykle nie sązalecane, zamiast nich najlepiej stosować metody odporne nawystępowanie wyjątków
I ... ponieważ powinniśmy na nie reagowaćI outlier = zachowanie niestandardowe (np. pranie pieniędzy,
próby wyłudzeń), często posiada określone cechycharakterystyczne, wówczas stoimy przed zadaniemgrupowania/predykcji, lecz niekoniecznie - detekcji w sensie, wjakim będziemy dziś to omawiali
7 / 119
Zbiory danych
Dla danych jednowymiarowych wykorzystamy klasyczny zbiórdanych o irysach (iris), dla danych wielowymiarowychwykorzystamy:
I returns 00 17.csv - zawiera dzienne stopy zwrotu z akcji firmApple i Microsoft od maja 2000 do maja 2017 roku
I zbiory danych generowanych samodzielnie - da nam tokontrolę nad sposobem wprowadzenia obs. odstających
I housing.csv- zawiera dane o transakcjach na rynkunieruchomości, tzw. Ames housing data
8 / 119
Próby definicji obserwacji odstającej
Hawkins 1980Outlier jest obserwacją, która odstaje tak bardzo od pozostałychobserwacji w próbie, że rodzi to podejrzenia, iż ta obserwacjazostała wygenerowana przez inny mechanizm (niż reszta próby).
IntuicjaZwyczajne dane pochodzą z procesu je generującego o określonejstrukturze (data generating process), wyjątki/anomalie sąodstępstwem od tego procesu
9 / 119
Słynne przypadki obserwacji odstających
CiążaDługość ciąży gatunku ludzkiego wynosi przeciętnie 280 dni
Słynne sprawy sądowe:I Gaskill vs. Gaskill, sąd nie uznał pozwu o oddalenie ojcostwa
ciąży o długości 331 dni (brak wyraźnego dowodu“nieobecności” męża)
I Wood vs Wood - 346 dni, mąż zostaje uznany ojcemI Hadlum vs Hadlum - poród po upływie 349 dni od dnia
rozpoczęcia przez męża służby wojskowej, zostaje on jednakuznany ojcem.
10 / 119
Zastosowania metod wykrywania outlierów
I Wykrywanie przestępstw:I Wzorzec wydatków zmienia się po kradzieży karty kredytowej
(wysokość wydatków, częstotliwość, lokalizacja)I Medycyna:
I Niestandardowe wyniki testów, symptomyI Niestandardowo częste występowanie choroby na danym
obszarzeI Sport:
I Testy antydopingowe po osiągnięciu niestandardowego wyniku
11 / 119
Obecny paradygmat
Większość najnowszych metod oparta jest o algorytmy grupowania:
I Algorytmy te często nie przypisują wszystkich punktów dogrup/klastrów
I Będziemy stosować te algorytmy szukając grupniestandardowych albo grupy elementów ”pozostałych”
I Problem:I Algorytmy te nie są zoptymalizowane pod kątem wykrywania
outlierówI Dokładność algorytmu detekcji zależy od dokładności
algorytmu grupowania - to drugie zagadnienie samo w sobiejest trudne, często stosuje się metody nieparametryczne
I Zbiór obserwacji niestandardowych może zostać uznany zaistotną grupę
12 / 119
Podział metod detekcji outlierów
I Metody globalne/lokalne: jaki zbiór jest zbiorem odniesieniadla własności “odstawania” elementu?
I Wynik metody: tutaj możliwe są dwa warianty skrajne:I binarny: metoda każdy element zbioru określa jako outlier (1)
lub obserwacją nim nie będącą (0)I ciągły: metoda ustanawia ranking obserwacji, np. od
najbardziej do najmniej odstającychI Konstrukcja metody: w jaki sposób definiowana jest własność
odstawania obserwacji od reszty zbioru?I model statystycznyI własności geometryczne zbioru obserwacji (depth-based,deviation-based)
I odległość - obserwacje “normalne” są “blisko” innychobserwacji (distance-based)
I gęstość - gęstość wokół obserwacji normalnych nie różni się odinnych gęstości
I oparte o redukcję wymiaru
13 / 119
Do zapamiętania
Definicja obserwacji odstającej wpływa na wybór metody
Definicja obserwacji odstającej zależy od problemu, którychcemy rozwiązać
14 / 119
Do zapamiętania
Definicja obserwacji odstającej wpływa na wybór metody
Definicja obserwacji odstającej zależy od problemu, którychcemy rozwiązać
14 / 119
Przykład
15 / 119
Dane jednowymiaroweTesty statystyczne, metody nieparametryczne, pakiet outliers()
16 / 119
Jakiej matematyki potrzebujemy?
I Potrzebujemy narzędzi, by rozróżniać obserwacje“środkowe/centralne/zwyczajne” od tych “bardziej odległych”(w jakimś sensie).
I W sensie probabilistycznym - będziemy wykorzystywaćkwantyle rozkładu
I W sensie geometrycznym - będziemy wykorzystywać pojęcieodległości i inne, które są o nie oparte
17 / 119
Kwantyle, dystrybuanta i jej odwracanie
18 / 119
Zadanie programistyczne nr 1
1. Proszę załadować zbiór iris, zawiera on 4 zmiennenumeryczne, które nas interesują (szerokości i długościpłatków sepal i petal)
2. Proszę wyświetlić informację o kwartylach naszych danychwykorzystując metodę quantile(stats)
3. Czy zauważamy jakiekolwiek różnice między rozkładami 4zmiennych w naszym zbiorze w oparciu o wyświetloneinformacje?
19 / 119
Metoda quantile - dlaczego aż 9 typów?
I Krótka odpowiedź: kwantyle z próby są przybliżeniem“prawdziwych” kwantyli, kwantyle wyznaczane sąnumerycznie, zgodnie z wzorami przedstawionymi whelp(quantile)
I Poruszam tę kwestię, żeby pokazać, że nawet tak trywialnezagadnienie może być skomplikowane, szczególnie w małychpróbach
I W dużych próbach powinniśmy jedynie uważać na ewentualnenieciągłości dystrybuanty (mass points)
20 / 119
Odrobina teorii
Nierówność CzebyszewaNiech X będzie zmienną losową o wartosci oczekiwanej E[X ] zeskończoną wariancją σ2. Wówczas, dla dowolnego a > 1 zachodzi:
P(|X − E[X ]| > aσ) <1a2
I Dla rozkładu spełniającego założenia twierdzenia p-stwo, żeobserwacja odstaje o 3 odch. standardowe od sredniej nieprzekracza 19 ≈ 0.11.
I Dla rozkładu normalnego można tę nierównosć wyraźniewzmocnić: obserwacje które odstają od mediany/sredniej o niewięcej niż 3 odch. standardowe stanowią 99.7% masyrozkładu.
21 / 119
Odrobina teorii
Nierówność CzebyszewaNiech X będzie zmienną losową o wartosci oczekiwanej E[X ] zeskończoną wariancją σ2. Wówczas, dla dowolnego a > 1 zachodzi:
P(|X − E[X ]| > aσ) <1a2
I Dla rozkładu spełniającego założenia twierdzenia p-stwo, żeobserwacja odstaje o 3 odch. standardowe od sredniej nieprzekracza 19 ≈ 0.11.
I Dla rozkładu normalnego można tę nierównosć wyraźniewzmocnić: obserwacje które odstają od mediany/sredniej o niewięcej niż 3 odch. standardowe stanowią 99.7% masyrozkładu.
21 / 119
Obserwacje odstające - wpływ na statystyki opisowe
I Przyjmijmy, że w “poprawnej” próbie pojawia się obserwacjaodstająca, jakiego rodzaju problemy to ze sobą niesie?
I Zmienia się średnia z próbyI Zmienia się wariancjaI Mediana zmienia się jedynie w stopniu wynikającym z dodania
dodatkowej zmiennej (tj. niezależnie od jej wartości, jedynie odtego, czy nowa obserwacja znajduje się powyżej czy poniżejmediany)
I Wniosek: metody parametryczne, wykorzystująceśrednią/kowariancję mogą podlegać rozmaitym zaburzeniomzwiązanym z występowaniem outlierów
22 / 119
Obserwacje odstające - wpływ na statystyki opisowe
I Przyjmijmy, że w “poprawnej” próbie pojawia się obserwacjaodstająca, jakiego rodzaju problemy to ze sobą niesie?
I Zmienia się średnia z próbyI Zmienia się wariancjaI Mediana zmienia się jedynie w stopniu wynikającym z dodania
dodatkowej zmiennej (tj. niezależnie od jej wartości, jedynie odtego, czy nowa obserwacja znajduje się powyżej czy poniżejmediany)
I Wniosek: metody parametryczne, wykorzystująceśrednią/kowariancję mogą podlegać rozmaitym zaburzeniomzwiązanym z występowaniem outlierów
22 / 119
Obserwacje odstające - wpływ na statystyki opisowe
I Przyjmijmy, że w “poprawnej” próbie pojawia się obserwacjaodstająca, jakiego rodzaju problemy to ze sobą niesie?
I Zmienia się średnia z próbyI Zmienia się wariancjaI Mediana zmienia się jedynie w stopniu wynikającym z dodania
dodatkowej zmiennej (tj. niezależnie od jej wartości, jedynie odtego, czy nowa obserwacja znajduje się powyżej czy poniżejmediany)
I Wniosek: metody parametryczne, wykorzystująceśrednią/kowariancję mogą podlegać rozmaitym zaburzeniomzwiązanym z występowaniem outlierów
22 / 119
Metody detekcji w próbie jednowymiarowej - klasyfikacja
I Nieparametryczne:I IQR, z-score i metody pokrewne (inne rodzaje
znormalizowanego odchyleniem standardowym odstępem odwartości średniej)
I Parametryczne:I Test Grubbs’a, Dixona
Następnie przejdziemy do wybranych testów normalności rozkładu(jest to pierwszy krok przed aplikacją metod parametrycznych)
23 / 119
Test Shapiro-Wilka normalności rozkładu
I H0: próba x = (x1, ..., xn) (posortowana) pochodzi z populacjio rozkładzie normalnym
I Ha: próba x = (x1, ..., xn) (posortowana) nie pochodzi zpopulacji o rozkładzie normalnym
Statystykę wyznacza się z wzoru:
W =(∑n
i=1 aixi )2∑n
i=1 (xi − x)2
gdzie współczynniki ai wyznacza się w oparciu o tabele.
24 / 119
Test Kołmogorowa-Smirnowa
Dystrybuanta empiryczna Fn dla n obserwacji niezależnych zidentycznego rozkładu (iid), i-ta obserwacja xi , jest zdefiniowanaprzez:
Fn(x) =1n
n∑i=1
I[−∞,x)(xi )
Test KS dany jest wzorem:
Dn = supx|Fn(x)− F (x)|
gdzie hipoteza zerowa brzmi: próba jest ciągnięta z rozkładu odystrybuancie F (x).
25 / 119
Zadanie programistyczne 3
1. Przeprowadzić test normalności rozkłądów 4 zmiennych wzbiorze iris
26 / 119
Rozstęp międzykwartylowy
z j. angielskiego: Interquartile range, IQR, definujemy następująco:
IQR = Q3 − Q1
Z definicji, IQR pokrywa obszar 50% masy prawdopodobieństwaw próbie.Dla rozkładu normalnego można wyliczyć, że w przedziale
BW = [xmediana − 1.5× IQR, xmediana + 1.5× IQR]
znajduje się około 7 obserwacji na 1000.
27 / 119
Rozstęp międzykwartylowy
z j. angielskiego: Interquartile range, IQR, definujemy następująco:
IQR = Q3 − Q1
Z definicji, IQR pokrywa obszar 50% masy prawdopodobieństwaw próbie.
Dla rozkładu normalnego można wyliczyć, że w przedziale
BW = [xmediana − 1.5× IQR, xmediana + 1.5× IQR]
znajduje się około 7 obserwacji na 1000.
27 / 119
Rozstęp międzykwartylowy
z j. angielskiego: Interquartile range, IQR, definujemy następująco:
IQR = Q3 − Q1
Z definicji, IQR pokrywa obszar 50% masy prawdopodobieństwaw próbie.Dla rozkładu normalnego można wyliczyć, że w przedziale
BW = [xmediana − 1.5× IQR, xmediana + 1.5× IQR]
znajduje się około 7 obserwacji na 1000.
27 / 119
Alternatywne heurystyki
I Przyjęcie przedziału BW jako[xmediana − a× IQR, xmediana + a× IQR] z wartością a = 2bądź a = 3
I Wykorzystanie odchylenia standardowego (Czebyszew!)
28 / 119
Wizualizacja outlierów - wykres ramkowy/pudełkowy
29 / 119
Wykresy typu QQ (kwantyl-kwantyl)
I Główna idea: porównywanie kwantyli rozkładu empirycznego zwybranym rozkładem teoretycznym
I Przy założeniu zgodnosci rozkładów wykres w przybliżeniu jestlinią prostą
I Wspomaga wizualną identyfikację outlierów oraz odchyleń odwybranego założenia parametrycznego dot. rozkładuempirycznego (np. grube ogony, skosnosć)
30 / 119
Wykres QQ - przykład
Os x - rozkład teoretyczny, os y - rozkład empiryczny
31 / 119
Zadanie programistyczne 4
1. Wygenerować wykresy pudełkowe dla 4 zmiennych w zbiorzeiris(boxplot())
2. Zidentyfikować indeksy obserwacji wystających poza IQR wkażdym przypadku (help(boxplot.stats())
3. Wygenerować wykresy Q-Q dla 4 zmiennych testując hipotezęo rozkładzie normalnym
32 / 119
Test Z-score
Jest to metoda heurystyczna, związana z nierównoscią Czebyszewa.Dla każdej obserwacji definiujemy statystykę Z :
zi =xi − x
sx
Przyjmuje się, że każda obserwacja, dla której wartosć statystyki zjest większa niż 3 lub mniejsza niż -3 jest outlierem (nierównośćCzebyszewa).
Można wykazać, że przy liczebnosci próby n wartosć statystyki zjest ograniczona co do modułu przez n−1√
nco sprawia, że użycie tej
metody dla małych n nie jest rekomendowane. Inna nazwa tejstatystyki to (dość mylące) odchylenie normalne
33 / 119
Test Z-score
Jest to metoda heurystyczna, związana z nierównoscią Czebyszewa.Dla każdej obserwacji definiujemy statystykę Z :
zi =xi − x
sx
Przyjmuje się, że każda obserwacja, dla której wartosć statystyki zjest większa niż 3 lub mniejsza niż -3 jest outlierem (nierównośćCzebyszewa).Można wykazać, że przy liczebnosci próby n wartosć statystyki zjest ograniczona co do modułu przez n−1√
nco sprawia, że użycie tej
metody dla małych n nie jest rekomendowane.
Inna nazwa tejstatystyki to (dość mylące) odchylenie normalne
33 / 119
Test Z-score
Jest to metoda heurystyczna, związana z nierównoscią Czebyszewa.Dla każdej obserwacji definiujemy statystykę Z :
zi =xi − x
sx
Przyjmuje się, że każda obserwacja, dla której wartosć statystyki zjest większa niż 3 lub mniejsza niż -3 jest outlierem (nierównośćCzebyszewa).Można wykazać, że przy liczebnosci próby n wartosć statystyki zjest ograniczona co do modułu przez n−1√
nco sprawia, że użycie tej
metody dla małych n nie jest rekomendowane. Inna nazwa tejstatystyki to (dość mylące) odchylenie normalne
33 / 119
Zmodyfikowany Z-score(MAD-score)
Możliwą alternatywą jest tzw. odchylenie typu MAD:
zi =0.6745(xi − x)
MAD
gdzie przez MAD rozumiemy medianę absolutnych odchyleń:
MAD = mediana|xi −mediana[x ]|
za outliera przyjmujemy obserwację dla której wartosć zi jest co domodułu wyższa niż 3.5 (wyższa wartość ponieważ mediana jestmniej podatna na obserwacje odstającec)
34 / 119
Metoda scores(outliers), odchylenie χ2
I Opisane przeze mnie metody są zaimplementowane wmetodzie scores(outliers)
I Poza w/w heurystykami, metoda zwraca również inne“scores”-y
Przykładem innego rodzaju odchylenia jest odchylenie typu χ2
definiowane jako:
ci =(xi − x)2
σ2
metoda zakłada znajomosć wariancji zmiennej, z której rozkładuciągniona jest próba, z tego powodu testy typu χ2 są rzadkostosowane.
35 / 119
Metoda scores(outliers), odchylenie χ2
I Opisane przeze mnie metody są zaimplementowane wmetodzie scores(outliers)
I Poza w/w heurystykami, metoda zwraca również inne“scores”-y
Przykładem innego rodzaju odchylenia jest odchylenie typu χ2
definiowane jako:
ci =(xi − x)2
σ2
metoda zakłada znajomosć wariancji zmiennej, z której rozkładuciągniona jest próba, z tego powodu testy typu χ2 są rzadkostosowane.
35 / 119
Metoda scores(outliers), odchylenie χ2
I Opisane przeze mnie metody są zaimplementowane wmetodzie scores(outliers)
I Poza w/w heurystykami, metoda zwraca również inne“scores”-y
Przykładem innego rodzaju odchylenia jest odchylenie typu χ2
definiowane jako:
ci =(xi − x)2
σ2
metoda zakłada znajomosć wariancji zmiennej, z której rozkładuciągniona jest próba, z tego powodu testy typu χ2 są rzadkostosowane.
35 / 119
Zadanie programistyczne 5
1. Napisać metodę runScores() która dla zbioru danych xprzeprowadzi obliczenia z-score, MAD-score, χ2-score i zwróciindeksy obserwacji podejrzanych o odstawanie wg kryteriumłącznego: wskazania przez w/w metody
2. Zastosować napisaną metodę dla 4 zmiennych
36 / 119
Masking oraz swamping
I Niektóre testy wykrywania outlierów są zaprojektowane dowykrywania obecności pojedynczej obs. odstającej, inne - dlawielu obs. odstających
I Nie należy na ślepo stosować testu do wykrywania obserwacjipojedynczej iteracyjnie - jeśli w zbiorze danych jest kilka obs.odstających blisko siebie możemy błędnie nie wykryć żadnej znich (maskowanie/masking)
I Testy na obecność wielu outlierów mogą wymagać określeniadokładnej liczby obs. odstających w tescie - jesli określimy tęliczbę zbyt wysoko, możemy błędnie wykryć obserwację“standardową” jako odstającą(pochłanianie/przytłaczanie/swamping).
37 / 119
Masking oraz swamping
I Niektóre testy wykrywania outlierów są zaprojektowane dowykrywania obecności pojedynczej obs. odstającej, inne - dlawielu obs. odstających
I Nie należy na ślepo stosować testu do wykrywania obserwacjipojedynczej iteracyjnie - jeśli w zbiorze danych jest kilka obs.odstających blisko siebie możemy błędnie nie wykryć żadnej znich (maskowanie/masking)
I Testy na obecność wielu outlierów mogą wymagać określeniadokładnej liczby obs. odstających w tescie - jesli określimy tęliczbę zbyt wysoko, możemy błędnie wykryć obserwację“standardową” jako odstającą(pochłanianie/przytłaczanie/swamping).
37 / 119
Masking oraz swamping
I Niektóre testy wykrywania outlierów są zaprojektowane dowykrywania obecności pojedynczej obs. odstającej, inne - dlawielu obs. odstających
I Nie należy na ślepo stosować testu do wykrywania obserwacjipojedynczej iteracyjnie - jeśli w zbiorze danych jest kilka obs.odstających blisko siebie możemy błędnie nie wykryć żadnej znich (maskowanie/masking)
I Testy na obecność wielu outlierów mogą wymagać określeniadokładnej liczby obs. odstających w tescie - jesli określimy tęliczbę zbyt wysoko, możemy błędnie wykryć obserwację“standardową” jako odstającą(pochłanianie/przytłaczanie/swamping).
37 / 119
Ograniczenia metod i ich implementacji w R
I Testy, które zaraz omówimy, są skonstruowane dlamałych/średnich prób - tutaj pytanie o występowanie obs.odstającej jest mniej trywialne, niż w bardzo dużym zbiorzedanych
I Często istotnym ograniczeniem będzie dla nas n = 30 jakorozmiar próby
I Dlaczego tak jest? Przypominam, w dużych próbachwystępowanie outlierów częściej jest po prostu realizacjącharakterystyki rozkładu (obserwacji z ogona), w małychpróbach outlier faktycznie może stanowić “wyjątek”
38 / 119
Ograniczenia metod i ich implementacji w R
I Testy, które zaraz omówimy, są skonstruowane dlamałych/średnich prób - tutaj pytanie o występowanie obs.odstającej jest mniej trywialne, niż w bardzo dużym zbiorzedanych
I Często istotnym ograniczeniem będzie dla nas n = 30 jakorozmiar próby
I Dlaczego tak jest? Przypominam, w dużych próbachwystępowanie outlierów częściej jest po prostu realizacjącharakterystyki rozkładu (obserwacji z ogona), w małychpróbach outlier faktycznie może stanowić “wyjątek”
38 / 119
Ograniczenia metod i ich implementacji w R
I Testy, które zaraz omówimy, są skonstruowane dlamałych/średnich prób - tutaj pytanie o występowanie obs.odstającej jest mniej trywialne, niż w bardzo dużym zbiorzedanych
I Często istotnym ograniczeniem będzie dla nas n = 30 jakorozmiar próby
I Dlaczego tak jest? Przypominam, w dużych próbachwystępowanie outlierów częściej jest po prostu realizacjącharakterystyki rozkładu (obserwacji z ogona), w małychpróbach outlier faktycznie może stanowić “wyjątek”
38 / 119
Zadanie programistyczne 6
1. Wygenerować nowy zbiór danych, składający się z 30pierwszych wierszy zbioru iris
2. Przeprowadzić dla tego zbioru procedury, które wykonaliśmyna zbiorze pierwotnym
Następnie zapoznamy się z funkcjami grubbs.test(outliers),dixon.test(outliers) i rosnerTest(envStats),
39 / 119
Test Grubbs’a
I Założenie: próba (x1, ..., xn) pochodzi z rozkładu normalnegoI Hipoteza zerowa H0: w próbie brak jest obserwacji odstającychI Hipoteza alternatywna Ha: w próbie jest przynajmniej jedna
obserwacja odstającaI Test służy do odpowiedzi na pytanie: czy wartosć
maksymalna/minimalna w próbie jest outlierem?
40 / 119
Test Grubbs’a
Statystyka G dla testu dwustronnego jest obliczana wg wzoru:
G = max1,...,n
|xi − x |sx
gdzie: x - srednia z próby, a sx - odchylenie standardowe z próby.Wersje jednostronne testują czy obserwacjanajmniejsza/największa (odpowiednio, xmin, xmax) jest outlierem,wówczas wyznaczamy statystykę G z poniższych wzorów:
G =x − xmin
sxbądź G =
xmax − x
sx
41 / 119
Test Grubbs’a
Stwierdzamy występowanie przesłanek do odrzucenia hipotezyzerowej dla testu dwustronnego, przy poziomie istotnosci α, gdy:
G >N − 1√
N
√√√√√ t2α2N ,N−2
N − 2 + t2α2N ,N−2
gdzie t2α2N ,N−2
oznacza górną wartosć krytyczną z rozkładut-studenta z N − 2 stopniami swobody przy poziomie istotnosci α
2N .Dla testów jednostronnych w powyższym wzorze należy zastąpićα2N przez α
N
42 / 119
Test Grubbs’a
I Możliwym przeformułowaniem jest test ilorazu wariancji pousunięciu z próby obserwacji największej i najmniejszej(statystyka U)
I Istnieje uogólnienie testu Grubbs’a na przypadek k > 2outlierów, jest to test Tietjen’a-Moore’a, lecz jest on dosćsłabo zaimplementowany w R
I Mocniejszym narzędziem jest test Rosnera/GESD
43 / 119
Test Dixona
Przyjmijmy, że mamy dane posortowane x = (x1, ..., xn),x1 ¬ ... ¬ xn.Dla danej obserwacji xi możemy obliczyć statystykę Q poprzez:
Qi =lukai
zakres
gdzie przez lukai oznaczamy odległosć od zmiennej podejrzanej obycie odstającą od jej najbliższego sąsiada a poprzez zakresrozumiemy różnicę między wartoscią największą i najmniejszą wpróbieProblem nr 1: testujemy istnienie wartosci “ekstremalnych”, leczw mianowniku mamy funkcję próby, która od nich zależyProblem nr 2: jest to test dla jednej obserwacji, zatempowinnismy martwić się o masking
44 / 119
Test Dixona - 6 odmian
r10 =x2 − x1xn − x1
dla x1 bądź:xn − xn−1xn − x1
dla xn
r11 =x2 − x1
xn−1 − x1dla x1 bądź:
xn − xn−1xn − x2
dla xn
r12 =x2 − x1
xn−2 − x1dla x1 bądź:
xn − xn−1xn − x3
dla xn
r20 =x3 − x1xn − x1
dla x1 bądź:xn − xn−2xn − x1
dla xn
r21 =x3 − x1
xn−1 − x1dla x1 bądź:
xn − xn−2xn − x2
dla xn
r22 =x3 − x1
xn−2 − x1dla x1 bądź:
xn − xn−2xn − x3
dla xn
Czy ktos spróbuje odgadnąć, skąd wynika to wariantowanie?
45 / 119
Test Rosnera/GESD
I GESD - uogólnione ekstremalne studentyzowane odchylenie
I służy do wykrywania k < 10 obserwacji odstających, studiasymulacyjne wskazują, że test działa bardzo dokładnie dla prób oliczebnosci większej niż n = 25.
I Mechanizm działania opiera się na iteracyjnym stosowaniu testuGrubbs’a z istotną modyfikacją wartosci krytycznych zależnie odliczby k
I W procedurze obliczamy wartosci statystki Gj po usunięciu j − 1obserwacji ekstremalnych i wartosci krytyczne testu ze wzoru:
λj =(n − 1)tp,n−j−1√
(n − j − 1 + t2p,n−j−1)(n − j + 1)
i p = 1− α2(n−j+1)
I Za liczbę outlierów przyjmuje się maxj : Gj λj
Uwaga, wymagana jest instalacja pakietu EnvStats46 / 119
Zadanie programistyczne 7
1. Przeprowadzić testy Grubbs’a, Dixona i Rosnera wnowoutworzonym zbiorze dla wszystkich zmiennych,dodatkowo porównać wyniki iteracyjnego stosowania testuGrubbs’a z testem Rosnera przyjmując wszędzie wartościdefault
2. Przeprowadzić test Rosnera z k = 10 dla wszystkich 4zmiennych, co obserwujemy?
47 / 119
Podsumowanie
I Zakończylismy pierwszy temat naszego szkoleniaI Dylemat czy dana obserwacja jest odstająca czy też swiadczy
o “prawdziwym” zróżnicowaniu próby jest nietrywialny nawetw najprostszym, jednowymiarowym problemie.
I Metody wizualizacji są istotną pomocą dla metodstatystycznych i powinny być zawsze stosowane
48 / 119
Dane dwuwymiarowe
49 / 119
Zadanie programistyczne nr 8
1. Wczytać zbiór danych o dziennych stopach zwrotu
2. Wyświetlić podsumowanie zbioru
3. Wydzielić nowy zbiór danych, składający się z pierwszych 30wierszy zbioru podstawowego (nie usuwając przy tym zbioruwyjściowego), zbiór wyjściowy będziemy od tej pory nazywaćzbiorem dużym, a zbiór pierwszych 30 wierszy - zbioremmałym
4. Narysować wykresy punktowe obu zbiorów
5. Narysować wykresy pudełkowe obu zbiorów (tj. w rozbiciu naposzczególne zmienne)
50 / 119
Zadanie programistyczne nr 9
1. Wykorzystać poznane do tej pory metody dla wykryciaobserwacji odstających w zbiorze dużym i zbiorze małym (w 1wymiarze, tj. dla zmiennych Apple i Microsoft osobno)
2. Czy w przypadku zbioru małego możemy zidentyfikowaćwizualnie obserwacje podejrzane o odstawanie w 2 wymiarach?
51 / 119
Więcej niż 1 wymiar: kluczowe problemy
I Zmienna będąca outlierem wg jednej cechy/zmiennej nie musibyć widoczna jako outlier względem drugiej cechy/zmiennej
I Wraz z dodatkowym wymiarem pojawia się więcej rodzajówdefiniowania ”odstawania” (przykłady na najbliższych 4slajdach)
I Im więcej wymiarów, tym zadanie detekcji outlierów staje sięwizualnie trudniejsze, a przez to - bardziej istotne dla wynikówprocedury, którą chcemy przeprowadzić(estymacja/predykcja/klasyfikacja)
52 / 119
Anomalie skoncentrowane/zgrupowane (zbiór niebieski I)
53 / 119
Anomalie rozproszone (zbiór niebieski I)
54 / 119
Anomalie lokalne (zbiór niebieski II)
55 / 119
Anomalie globalne (zbiór niebieski II)
56 / 119
Algorytm powłoki/otoczki wypukłej convex hull
I Główna idea: algorytm “obiera” zbiór danych z najbardziej“zewnętrznych” warstw.
I Metoda niezależna od rozkładu/nieparametrycznaI Tego rodzaju metoda jest przykładem metod opartych o tzw.
“głębokość” zbioru danych.I Metoda globalna
57 / 119
Pojęcie wypukłości
Zbiór wypukłyZbiór B ∈ RN nazywa się wypukłym jeśli zachodzi:
∀x , y ∈ B,∀α ∈ [1, 0]αx + (1− α) y ∈ B
Otoczka wypukłaOtoczką wypukłą zbioru B nazywamy najmniejszy zbiór wypukłyzawierający zbiór B:
conv(B) =⋂{H : B ⊂ H,H jest wypukły}
58 / 119
Rekursywna implementacja
1. Algorytm polega na wyznaczaniu i usuwaniu otoczekwypukłych zbioru danych
I Niech X (0) - zbiór wyjściowyI W i-tym kroku procedury, k 1, elementem wejściowym jest
zbiór X (i−1), krok algorytmu polega na wyznaczeniu otoczkiwypukłej zbioru X (i−1) i usunięciu punktów tejże otoczki
I Punkty usunięte w i-tym kroku procedury mają głębokość i
2. Algorytm zatrzymuje się po wykonaniu k kroków lubwcześniej, jeśli zbiór X (i−1) jest pusty.
59 / 119
Zadanie programistyczne nr 10
1. Zastosować metodę chull() do zbioru małego, wygenerowaćwykres z zaznaczoną otoczką wypukłą zbioru
2. Zaimplementować metodę usuwania obserwacji odstajacych woparciu o otoczkę wypukłą; metoda przyjmuje za argumentzbiór danych X oraz głębokość k i wykorzystuje metodęchull()
3. Metoda powinna sprawdzić, czy postawione zadanie ma sens(tj. czy k wejściowe nie jest zbyt duże, zarówno dlauruchomienia procedury, jak i jej wcześniejszegozastopowania)
4. Zastosować zaimplementowana metodę dla dużego zbiorudanych, kolorując odpowiednio punkty usunięte w i-tym krokuprocedury (przyjmijmy k = 5.
60 / 119
Metoda powłoki wypukłej - dyskusja
I Metoda efektywna jedynie dla niskiej liczby wymiarów (wpraktyce, nie więcej niż 3)
I Metoda wykazuje analogię do eliminacji w oparciu o odległekwantyle rozkładu statystycznego, lecz jest wolna od założeńparametrycznych
I Warianty metody: różnicowanie względem głębokości(quasi-score)
I Punktem odniesienia jest cały zbiór danych
61 / 119
Przykład: metoda isodepth(depth)
−0.04 −0.02 0.00 0.02 0.04
−0.
03−
0.02
−0.
010.
000.
010.
020.
03
X
Y
62 / 119
Metryka/odległość - własności ogólne
Powiemy, że dana funkcja d(x , y) jest metryką w przestrzeni Zjeśli spełnia ona następujące aksjomaty:
I Identyczność nierozróżnialnych elementów przestrzeni:d(x , y) = 0 ⇐⇒ x = y
I Symetria: d(x , y) = d(y , x)
I Nierówność trójkąta: d(x , y) ¬ d(x , z) + d(z , y)
Z powyższych wynika również, że metryka jest nieujemna:∀x , y ∈ Z : d(x , y) 0. Przejdziemy teraz do omówienia kilkurodzajów metryk, które uwzględniono w implementacji metod,które będziemy dziś omawiać w pakietach
63 / 119
Odległość Euklidesowa
I Niech będą dane dwa punkty w przestrzeni dwu-wymiarowej:a = (a1, a2) i b = (b1, b2), wówczas odległość Euklidesowamiędzy a i b zadana jest wzorem:
d(a, b) =√
(a1 − b1)2 + (a2 − b2)2
(długość przeciwprostokątnej w trójkącie zadanymwierzchołkami a, b i c = (b1, a2)); dla wektorówn-wymiarowych: a = (a1, ..., an) i b = (b1, ..., bn):
d(a, b) =
√√√√ n∑i=1
(ai − bi )2
64 / 119
Odległość miejska/manhattańska
d(a, b) =n∑
i=1
|ai − bi |
w tej metryce “chodzimy między budynkami”
65 / 119
Odległość Mahalanobisa
I Kluczowa idea: odległość punktu od rozkładuI Innymi słowy: niech próba X pochodzi z rozkładu D, jak
daleko od X jest punkt y?I Wykorzystamy tutaj pomysł stojący za testami opartymi na
”score”, tj. będziemy mierzyć odległość punktu od wartościoczekiwanej rozkładu w wielokrotnościach odchyleniastandardowego
I Odchylenie typu χ2: przyjmując, że znamy średnią rozkładu µi wariancjęσ2, kwadrat odchylenia obserwacji x od µ wyrażonyw odch. standardowym σ to:
(x − µ)2
σ2= (x − µ)(σ2)−1(x − µ)
66 / 119
Odległość Mahalanobisa w RN
niech x ∈ RN , wówczas odległość tego wektora od rozkładuzmiennej wielowymiarowej z wektorem wartości oczekiwanych µoraz macierzą wariancji-kowariancji Σ zadana jest wzorem:√
(x − µ)T Σ−1 (x − µ)
W ogólności, można stosować tę odległość jako miaręniepodobieństwa dwóch wektorów losowych x , y jeśli pochodzą onez tego samego rozkładu z macierzą wariancji-kowariancji Σ:
dmah(x , y) = (x − y)TΣ−1(x − y)
Wykorzystamy tę ideę do wykrywania outlierów w danychwielowymiarowych.
67 / 119
Naiwny algorytm wykorzystujący odległość Mahalanobisa
Rozkład dmahPrzy założeniu, że dysponujemy obserwacjami wygenerowanymi zn-wymiarowego rozkładu normalnego, rozkład kwadratu odległościMahalanobisa jest rozkładem χ2(n)
I Dane wsadowe: K × N zbiór obserwacji S ∈ RN , prógkrytyczny p
I Wynik: możliwe obserwacje odstająceI Algorytm:
1. Oblicz wektor wartości średnich i macierzywariancji-kowariancji z próby S
2. Wyznacz wektor tK×1 odległości Mahalanobisa dla każdegopunktu z S
3. Wyznacz i zwróć indeksy j elementów t których wartośćprzewyższa funkcję odwrotną z pierwiastka kwadratowego1− p-kwantyla statystyki χ2 z N stopniami swobody
68 / 119
Problem: algorytm polega na estymacji momentów z próby
I Jak już wiemy, obecność obserwacji odstających możezaburzać oszacowanie wartości oczekiwanej, a co za tym idzie- macierzy wariancji-kowariancji
I Rozwiązanie: zastosowanie odpornego estymatora dlamacierzy wariancji-kowariancji
I Metoda R której użyjemy pozwala na zastosowanie jednej zdwóch metod estymacji odpornej macierzywariancji-kowariancji: MCD (Minimum CovarianceDeterminant) oraz MVE (Minimum Vollume Ellipsoid),omówimy teraz ich ogólną ideę i wyjaśnimy co dzieje się, gdywywołamy daną metodę w R.
69 / 119
Problem: algorytm polega na estymacji momentów z próby
I Jak już wiemy, obecność obserwacji odstających możezaburzać oszacowanie wartości oczekiwanej, a co za tym idzie- macierzy wariancji-kowariancji
I Rozwiązanie: zastosowanie odpornego estymatora dlamacierzy wariancji-kowariancji
I Metoda R której użyjemy pozwala na zastosowanie jednej zdwóch metod estymacji odpornej macierzywariancji-kowariancji: MCD (Minimum CovarianceDeterminant) oraz MVE (Minimum Vollume Ellipsoid),omówimy teraz ich ogólną ideę i wyjaśnimy co dzieje się, gdywywołamy daną metodę w R.
69 / 119
Problem: algorytm polega na estymacji momentów z próby
I Jak już wiemy, obecność obserwacji odstających możezaburzać oszacowanie wartości oczekiwanej, a co za tym idzie- macierzy wariancji-kowariancji
I Rozwiązanie: zastosowanie odpornego estymatora dlamacierzy wariancji-kowariancji
I Metoda R której użyjemy pozwala na zastosowanie jednej zdwóch metod estymacji odpornej macierzywariancji-kowariancji: MCD (Minimum CovarianceDeterminant) oraz MVE (Minimum Vollume Ellipsoid),omówimy teraz ich ogólną ideę i wyjaśnimy co dzieje się, gdywywołamy daną metodę w R.
69 / 119
Odporne estymowanie Σ - intuicja
70 / 119
MCD
Estymator MCDEstymator MCD jest wyznaczony przez zbiór punktów (oliczebności h), które minimalizują wyznacznik macierzywariancji-kowariancji pośród wszystkich zbiorów o liczebności h.
I Dla zbioru danych o wymiarach N × k gdzie k - liczbawymiarów, musi zachodzić h > k
I Zwyczajowo przyjmuje się h = 34N
I MCD jest odporny na występowanie N − h obserwacjiodstających
71 / 119
Zadanie programistyczne nr 11
1. Zaimplementować metodę compareMetricOutliers(), która:I Dla dwuwymiarowego zbioru danych X wyznaczy odległości
miejską, euklidesową i Mahalanobisa (bez uodpornieniamacierzy wariancji-kowariancji, można dodać jako opcjęmetody) względem wektora:
I średnich z próbyI median z próby
I wyznaczy i zwróci indeksy outlierów zidentyfikowanych woparciu o statystykę χ2 dla odległości Mahalanobisa, dlapozostałych odległości - obserwacje odstające od średniejodległości o więcej niż trzy odchylenia standardowe; dla każej zw/w odległości oraz zwróci wartości odległości outlierów
2. Metodę zastosować do dużego zbioru danych
3. Wygenerować wykresy punktowe z pokolorowanymi outlieramiusunięte wg. każdej z odległości i rodzaju punktu centralnego(opcjonalnie)
72 / 119
Zadanie programistyczne nr 12
I Dla zbioru danych zawierającego dzienne stopy zwrotu proszę:1. Zaimplementować algorytm naiwny w oparciu o odległość
Mahalanobisa i zaprezentować jego wyniki na wykresiekwantyl-kwantyl (uwaga, tutaj interesuje nas rozkład χ2)
2. Narysować wykres punktowy danych z zaznaczonymi na nimoutlierami
3. Powtórzyć kroki 1-3 dla odległości Mahalanobisa w oparciu ometodę MVD
4. Narysować wykres punktowy obrazujący zależność międzystandardową odległością Mahalanobisa i odległością uzyskanąw oparciu o estymator MVD
5. Do wykresu punktowego wyróżnić obserwacje ostająceosobnym kolorem
73 / 119
Dyskusja w/w algorytmów
I Algorytm oparty o rozkład χ2 i dmah jest algorytmemparametrycznym
I Zaimplementowaliśmy też dwa algorytmynieco-mniej-parametryczne, wykorzystujące nierównośćCzebyszewa w oparciu o odległość względem punktucentralnego danych
I Problem: punkt centralny może być punktem odstającym
74 / 119
Ilustracja
−1.0 −0.5 0.0 0.5 1.0
−1.
0−
0.5
0.0
0.5
1.0
x
y
75 / 119
Algorytm k-najbliższych sąsiadów (KNN, k-nearestneighbours)
I Metoda może być używana zarówno w celu przeprowadzeniaregresji, jak też - klasyfikacji
I Ogólna zasada działania: mając dany zbiór treningowyobserwujemy w nim zestaw cech X ∈ RN (np. wzrost, waga)oraz kategorii Y (np. płeć), przyjmijmy, że Y = {y1, ..., yn}oraz, że X = {x1, ..., xM}, M >> n
I Klasyfikujemy nową obserwację z zestawem cech xnowy
wybierając k-najbliższych sąsiadów tej obserwacji iprzeprowadzając wśród nich “głosowanie” tj. zliczającrealizacje poszczególnej wartości kategorii Y :
1. sortujemy elementy zbioru X wg odległości do punktu xnowy
2. wybieramy k elementów dla których ta odległość jestnajmniejsza
3. zliczamy częstość wystąpienia każdej z realizacji kategorii Y(dlatego też zwykle przyjmuje się k nieparzyste jeśliY = {y1, y2})
76 / 119
KNN w detekcji outlierów
I Dla każdego elementu obliczamy odległość do k = 1, ...,Nsąsiada
I Za outlier score przyjmujemy:I odległość do N-tego sąsiadaI sumę odległości do najbliższych k sąsiadów
I Odrzucamy p obserwacji z najwyższym outlier score (lubstosujemy nierówność Czebyszewa)
będziemy teraz korzystać z pakietu dbscan
77 / 119
Przykład
78 / 119
Problemy algorytmu KNN
I Niezbilansowanie liczebności poszczególnych kategoriiI klątwa wymiaru - ponieważ metoda polega na obliczeniu
odległości, w wysokowymiarowych przypadkach“wszystkie punkty są stosunkowo blisko”
79 / 119
Zadanie programistyczne nr 13
1. Zastosować metodę kNN(dbscan) na zbiorze małym zk ∈ {1, 2, 3}
2. Wyznaczyć zarówno sumę odległości do k sąsiadów jak teżodległość do k-tego sąsiada dla każdej z obserwacji
3. Znaleźć po 2 obserwacje z najwyższą i najniższą wartościąoutlier score, zaznaczyć je na wykresie
4. Wykorzystując funkcję kNN(dbscan) napisać metodęwyznaczającą p% zbioru obserwacji w oparciu o jeden zopisanych powyżej outlier score
5. Zastosować metodę detekcji outlierów dla dużego zbioru zk = 1, k = 5 i k = 10, jak zmienia się zbiór outlierów?
80 / 119
Metody oparte o gęstość zbioru
I Mówiąc nieco nieściśle, przez gęstość rozumiemy częstotliwośćwystępowania innych elementów zbioru, które są “blisko”interesującej nas obserwacji
I gęstość wokół outliera powinna być wyraźnie niższa, niż wokół“normalnych” obserwacji
I metody oparte o odległość mają problem z asymetrycznymizagęszczeniami zbioru
81 / 119
Od odległości do gęstości
I O1 i O2 odstają “lokalnie”I O3 odstaje “globalnie”
wniosek: należy porównywać gęstości względne (w stosunkudo sąsiedztwa)
82 / 119
Od odległości do gęstości
I O1 i O2 odstają “lokalnie”I O3 odstaje “globalnie”
wniosek: należy porównywać gęstości względne (w stosunkudo sąsiedztwa)
82 / 119
Od odległości do gęstości
I O1 i O2 odstają “lokalnie”I O3 odstaje “globalnie”
wniosek: należy porównywać gęstości względne (w stosunkudo sąsiedztwa)
82 / 119
Local Outlier Factor
1. weźmy punkt x i niech xk - k-ty sąsiad punktu x k-odległośćod x dk(x) = d(x , xk)
2. k-sąsiedztwo punktu x , Nk(x) = {y : d(x , y) ¬ d(x , xk)}3. Uogólnienie pojęcia odległości: reachability distance, dla
punktów x i y :
reach-dk(x , y) = max {dk(x), d(x , y)}
4. lokalna gęstość dostepności punktu x :
lrd(x) =#Nk(x)∑
y∈Nk (x) reach-dk(x , y)
83 / 119
Local Outlier Factor
LOF dla punktu x definiujemy jako średnią lrd(x) orazlrd(y), y ∈ Nk(x):
LOFk(x) =
∑y∈Nk (x)
lrd(y)lrd(x)
#Nk(x)
Im niższy lrd dla punktu x i im wyższy lrd dla jego k-sąsiadów,tym wyższy LOF.
84 / 119
Local Outlier Factor - ilustracja
85 / 119
Przykład
86 / 119
Przykład modyfikacji LOF: Influenced Outlierness
I W niektórych zbiorach zgrupowania o różnych gęstościach niesą wyraźnie porozcinane
I W takich przypadkach LOF będzie miał kłopoty zwytypowaniem outlierów
87 / 119
Influenced Outlierness
Rozwiązanie: zbiór wpływu: k-sąsiedztwo punktu x oraz jegoodwrócone k-sąsiedztwa (tj. zbiór wszystkich punktów, dla którychpunkt x jest k-sąsiadem) (KIS(x)), k-influence space
I gęstość mierzona jako den(x) = 1dk (x)
I Score zdefiniowany przez INFLOk(x) =
∑y∈KIS(x)
den(y)
#KIS(x)den(x)
88 / 119
Zadanie programistyczne nr 14
1. Przeprowadzić kroki opisane w poprzednim zadaniu zwykorzystaniem metody lof(dbscan) zamiast kNN(dbscan)
2. Porównać zbiory outlierów zidentyfikowane w oparciu o kNN ilof, co obserwujemy?
89 / 119
Algorytm ABOD - Angle Based Outlier Detection
90 / 119
Idea algorytmu
I W przestrzeniach wielowymiarowych kąty są bardziej stabilne,niż odległości (wraz ze zwiększaniem wymiaru)
I Punkt x jest outlierem, jeśli większość pozostałych obiektówjest położona na podobnych wektorach skierowanychwychodzących z x
I Punkt x nie jest outlierem, jeśli wychodzące z niego wektoryskierowane w stronę pozostałych obiektów są skierowane podróżnymi kątami
ABOD(x) = Var〈−→xy ,−→xz〉‖−→xy‖‖−→xz}
, y , z ∈ B
gdzie B jest odpowiednio dobranym zbiorem (np. k-sąsiedztwemx). Niski ABOD(x) - obserwacja jest outlierem, wysoki ABOD(x) -obserwacja nie jest outlierem.
91 / 119
ABOD - przykład
92 / 119
Zadanie programistyczne nr 15
1. Wczytać pakiet abodOutlier
2. Zastosować metodę abod dla zbioru małego, wyznaczyć dwapunkty z najmniejszymi i największymi wartościami abod
3. Zastosować metodę abodOutlier dla zbioru dużego zmieniająck = 3, 5, 10 oraz wybierając metodę random
93 / 119
Obserwacje odstające w analizie regresji
94 / 119
Obserwacje odstające a estymacja
I Klasyczne metody estymacji można, w ogólności, sprowadzićdo problemu minimalizacji odległości zmiennychobjaśniających i objaśnianych (rzutowanie)
I Przykładem jest klasyczna metoda najmniejszych kwadratów,gdzie celem jest wybór parametrycznej postaci związku(zadanego przez wektor parametrów θ) między zmiennymiobjaśniającymi a zmienną objaśnianą tak, aby zminimalizowaćsumę kwadratów odchyleń predykcji yi od obserwacji yi :
minθ
n∑i=1
(yi − yi (θ))2
95 / 119
Metoda Najmniejszych Kwadratów - przypomnienie
I wektor zmiennej objaśnianej y = (y1, ..., yn)
I macierz zmiennych objaśniających X z typowym elementemxi ,j , i = 1, ..., k oraz j = 1, ..., n
I wektor szacowanych parametrów β
I wektor reszt/rezyduów:ε = y − y = y − βX
96 / 119
Założenia metody MNK
I ∀i εi ∼ N(0, σ2
), ponadto realizacje εi są niezależne
I Macierz X ma pełny rządI Model jest liniowy względem elementów wektora β
MNK zaimplementowano w R w metodzie lm()
97 / 119
Przypomnienie: wyprowadzenie estymatora
minβ
SSE (β) ≡ (y − βX)T (y − βX) =⇒
∂
∂βSSE (β) = 0 ⇐⇒ ∂
∂βyyT − 2yTXβ + βTXTXβ = 0 =⇒
−2XTy + 2XTXβ = 0 =⇒
β =(
XTX)−1
XTy
98 / 119
Estymator MNK - 1 zmienna objaśniająca
I Dla ustalenia uwagi przyjmijmy, że rozważamy przypadekdwuwymiarowy:
wektor obserwacji zmiennej objaśnianej y = (y1, ..., yn)
wektor obserwacji zmiennej objaśnianej x = (x1, ..., xn)
I ... być może jest to uwaga trywialna, ale dla porządku: teobserwacje nie są posortowane, obserwujemy pary (xi , yi )
I postulujemy związek między x a y postaci:
yi = b + axi + εi
I b to wyraz wolny równania regresjiI a to współczynnik nachylenia/kierunkowy
99 / 119
Estymator MNK - szczególny przypadek
I Wzory na współczynniki równania regresji są następujące:
b =1n
∑i xyyi − x y
1n
∑ni x2i − x
=Cov(X ,Y )
Var [X ]
a = y − bx
I Reszty (błędy dopasowania) z modelu:
ei = yi − a− bxi
100 / 119
Obserwacje niestandardowe w estymacji
I Należy rozróżnić trzy typy potencjalnie wpływających naestymację parametrów regresji:
I odstająceI z wysoką dźwigniąI wpływowe
I Przejdziemy teraz do zdefiniowania kilku miar wpływuobserwacji na estymację
I Ważne: przedstawiona powyżej klasyfikacja nie jest rozłączna
101 / 119
Klasyfikacja obserwacji niestandardowych
I obserwacja odstająca: nietypowa/ekstremalna obserwacja yk co prowadzido podniesienia wartości reszty ek (to z kolei, przykładowo, zmniejszaistotność oszacowania parametrów i miary dopasowania modelu dodanych)
I obserwacja wpływowa: usunięcie takiej zmiennej ma istotny wpływ naoszacowane wartości parametrów a i b, kandydatami na takie zmienne sąnietypowe/ekstremalne obserwacje x
I dźwignię i-tej obserwacji definiujemy jako:
hi =1n
+(xi − x)2∑n
i(xi − x)2
I Zauważmy, że zawsze 1 hi 1n
oraz, że w naszym modelu∑
ihi = 2,
ogólnie, przy k parametrów modelu zachodzi∑
ihi = k, regułą decyzyjną
uznania obserwacji za wpływową jest, gdy hi >2kn
I w literaturze proponuje się następnie usuwanie obserwacji potencjalniewpływowych dla upewnienia się, że oszacowania parametrów ulegnązmianie
102 / 119
reszty modelu - charakterystyki
niech ei = yi − a− bxi
wówczas błąd standardowy i-tej reszty wyraża się wzorem:
SEi = σ√
1− hi
gdzie σ, tj. prawdziwe odchylenie standardowe jest aproksymowaneprzez eT e
n−k w małej próbie warto reszty poddać “studentyzacji”:
ri =eiSEi
103 / 119
Reality check, czyli ... po co to wszystko?I przy normalnej wartości zmiennej x i ekstremalnej wartości
zmiennej y możemy testować hipotezę dot. pochodzenia ri zrozkładu normalnego o średniej µ = 0 i odchyleniustandardowym σ = 1
I problem: test ten może nie wychwycić zmiennej o “normalnej”wartości zmiennej y przy jednoczesnym odchyleniu zmiennej x
I w/w sytuację można próbować obchodzić usuwając j-tąobserwację ze zbioru danych, reestymując model bez tejobserwacji i obliczając zmodyfikowaną resztę:
di = yi − yi/i
następnie ją studentyzując:
ti =di
SEdi
i testując z rozkładu t-studenta104 / 119
Różnica dopasowań (Difference in FITs)
Alternatywną metodą mierzenia wpływu obserwacji jest formuła:
DFFITSi =yi − yi/i
s/i√hi
gdzie indeks /i oznacza wartości obliczone z modeluwyestymowanego po usunięciu i-tej obserwacji z próby. Regułądecyzyjną jest potraktowanie i-tej obserwacji jako wpływowej gdy
wartość DFFITSi > 2√
kn gdzie, przypominam, k to liczba
parametrów modelu a n - liczba obserwacji.
105 / 119
Odległość Cook’a
Alternatywnie można spojrzeć na różnicę w wartości szacowanychparametrów wykorzystując tzw. Odległość Cook’a Di :
Di =
∑nj=1
(yj − yj/i
)2k ×MSE
gdzie błąd średniokwadratowy to:
MSE =
∑i e2i
n − k
Popularną regułą jest przyjęcie 4N gdzie N to liczebność próby zapoziom, którego przekroczenie sugeruje, iż obserwacja jestwpływowa.
106 / 119
Różnica wartości współczynników kierunkowych
W literaturze zwykło oznaczać się wektor estymowanychwspółczynników grecką literą β, zatem:
DFBeta = ||β − βı||
jest kolejną metodą diagnostyczną wpływu i-tej obserwacji.
107 / 119
Prosty eksperyment
> set.seed(3)> x = rnorm(30, 1, 1)> y = 2*x + rnorm(30,0,1)> model = lm(y~x)> plot(x,y)> abline(model)
108 / 119
Przykład
−2 −1 0 1 2 3
−5
05
10
x
y
109 / 119
Zadanie Programistyczne nr 16
1. Powtórzyć przeprowadzoną przeze mnie “symulację”
2. Wykreślić wykres odległości Cooka i DIFFITS
3. Zidentyfikować obserwacje wpływowe
110 / 119
Zadanie Programistyczne nr 17
Rozważmy trzy dodatkowe zmienne o1 = (1, 10), o2 = (5, 13),o3 = (7, 2)
1. Dla każdej oi : wprowadzić oi do zbioru danych
2. Wyestymować nowy model regresji
3. Nanieść linie regresji modelu pierwotnego i modeluwyestymowanego po dodaniu obserwacji oi
4. Każdorazowo porównać odległość Cooka i DIFFITS międzymodelem pierwotnym, a wyestymowanym
Którą z obserwacji przyjmiemy za (najbardziej) wpływową?
111 / 119
Co dalej?
I Wiemy, że niektóre obserwacje wpływają na wartościoszacowań parametrów modelu regresji.
I Usuwanie tych obserwacji może być dośćproblematyczne/czasochłonne, niewątpliwie powinniśmy każdyprzypadek rozważyć z osobna, bądź...
I ... zmienić metodę estymacji na odporną na występowanieobserwacji odstających (rlm(MASS))
112 / 119
Zadanie programistyczne nr 18
I Dla zbioru danych zawierających obserwację oi uznaną zanajbardziej wpływową wyestymować regresję odporną metodąrlm
I Wygenerować 30 zbiorów testowych w oparciu o “prawdziwy”model y = 2x + 3 + ε, x ∼ N (1, 2), ε ∼ N (0, 1)
I Porównać dokładność modeli wyestymowanych metodami lm()i rlm(MASS) poprzez wzięcie średniej błęduśredniokwadratowego prognozy
113 / 119
I Do tej pory operowaliśmy w 2-3 wymiarach, w ten sposóbpozbywamy się części informacji zawartej w pozostałychwymiarach naszego zbioru danych.
I Główna idea: sprowadzamy N (“duże”) do 2-3 wymiarów itam aplikujemy metody, które już poznaliśmy i umiemystosować.
I Rozważymy dwa algorytmy: metodę głównych składowych(Principal Component Analysis, rotacja/algorytm liniowy) iStochastyczną Metodę Porządkowania Sąsiadów w Oparciu oRozkład t (t-Distributed Stochastic Neighbour Embedding,t-SNE)
114 / 119
Metody oparte o redukcję wymiaru
115 / 119
Opis jakościowy metody t-SNE
I przekształca powinowactwo punktów danych wprawdopodobieństwa.
I powinowactw pierwotne reprezentowane przez gaussowskieprawdopodobieństwa łączne, powinowactwo włączane jestreprezentowane przez rozkłady t Studenta.
I Ujawnianie struktur w wielu skalach na jednej mapieI Ujawnianie danych leżących w wielu różnych rozgałęzieniach
lub grupachI Ograniczenie tendencji do skupiania punktów w środku
116 / 119
t-SNE, przestrzeń pierwotnaNiech x1, ..., xN będzie zbiorem wielowymiarowym (przestrzeniąpierwotną)
I Wyjdźmy od miary powinowactwa opartej o rozkład normalny:
pj|i =e−‖xi−xj‖
2
2σ2i∑
k 6=i e− ‖xi−xk‖2
2σ2i
I powinowactwo punktu xj do punktu xi jest p-stwem warunkowympj|i tego, że xi “wybrałby” xj za swojego sąsiada, gdyby sąsiedzi bylilosowani z rozkładu Gaussa wycentrowanego w xi , stąd wyznaczamypij =
pj|i+pi|j2N , pii = 0
I parametrem metody jest σi - zależne od punktu “środkowego”,zależy w nietrywialny sposób od redukcji entropii, heurystycznie -mniejsze wartości σi są używane w bardziej gęstych podzbiorachzbioru danych
I Kernel wykorzystuje odległość euklidesową ‖ · ‖ więc jest podatny naklątwę wymiarowości
117 / 119
t-SNE, przestrzeń docelowaI W przestrzeni docelowej z wymiarem zredukowanym w
stosunku do przestrzeni pierwotnej mamy punkty y1, ...yNodpowiadające x1, ..., xN .
I Algorytm oblicza podobieństwa:
qij =
11+‖yi−yj‖2∑
k 6=j1
1+‖yi−yj‖2
korzystając z rozkładu Cauchy’ego (t-studenta z 1 stopniemswobody)
I Mając daną propozycję y1, ..., yd algorytm minimalizujeodległość Kullbacka-Leiblera między rozkładami zadanymiprzez pij i qij :
KL(P,Q) =∑i 6=j
pij ln
(pijqij
)
118 / 119
Zadanie programistyczne nr 19
1. Wczytać dane z pliku housing.csv
2. Interesują nas zmienne: LotFrontage, LotArea, TotalBsmtSF,GrLiveArea, SalePrice,
3. Proszę przeanalizować w/w zmienne pod kątem występowaniaobserwacji odstających, korelacje między zmiennymi,kwantyle, zapisać indeksy obserwacji odstających w oparciu ometody jednowymiarowe
4. Proszę zastosować na zbiorze metody prcomp(stats) itsne(tsne), redukując do dwóch wymiarów, porównaćotrzymane wyniki
5. Proszę usunąć obserwacje odstające w zbiorze uzyskanymmetodą tsne(tsne) w dwóch wymiarach stosując wybranyprzez siebie algorytm, wyniki porównać z tymi uzyskanimi wkroku 3.
119 / 119