Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 ·...

137
Metody identyfikacji obserwacji odstających Dr Piotr Denderski Instytut Nauk Ekonomicznych Polskiej Akademii Nauk University of Leicester 7 lutego 2019

Transcript of Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 ·...

Page 1: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Metody identyfikacji obserwacji odstających

Dr Piotr Denderski

Instytut Nauk Ekonomicznych Polskiej Akademii NaukUniversity of Leicester

7 lutego 2019

Page 2: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Plan szkolenia

1. Wprowadzenie

2. Dane jednowymiarowe

3. Dane dwuwymiarowe

4. Obserwacje odstające w regresji liniowej

5. Metody oparte o redukcję wymiaru

2 / 119

Page 3: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

WprowadzenieOpis problemu, przygotowanie danych, podstawowe narzędzia

matematyczne

3 / 119

Page 4: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Obserwacje odstające - ilustracja zamiast definicji

Rysunek: źródło: www.mleczko.pl

4 / 119

Page 5: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Wykrywanie obserwacji odstających - praktyka

Rysunek: Zimowy krajobraz z łyżwiarzami, Hendrick Avercamp, 1608 rok

5 / 119

Page 6: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Cele szkolenia

I Dowiedzenie, że wykrywanie obserwacji odstających jestbardzo złożonym problemem

I Omówienie wybranych metod zaimplementowanych w językuR (składnia, własności, stojąca za ich implementacją teoria)

I Przygotowanie uczestników do dalszych własnych studiów wzakresie detekcji outlierów

I Napisanie przy okazji szkolenia kilku użytecznych metod dowykorzystania w przyszłości

I Wyrobienie intuicji dot. sił i słabości wybranych metod

6 / 119

Page 7: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Do zapamiętania

Dlaczego chcemy wykryć obserwacje odstające?I .. dla poprawy jakości danych: obs. odst. mogą zaburzać

estymację/predykcję/klasyfikacjęI błędy wprowadzania danych/pomiaru?I obserwacje “wyjątkowe”I obserwację odstającą możemy usunąć bądź zastąpić

“poprawną” (imputacja) ... - obydwa te działania zwykle nie sązalecane, zamiast nich najlepiej stosować metody odporne nawystępowanie wyjątków

I ... ponieważ powinniśmy na nie reagowaćI outlier = zachowanie niestandardowe (np. pranie pieniędzy,

próby wyłudzeń), często posiada określone cechycharakterystyczne, wówczas stoimy przed zadaniemgrupowania/predykcji, lecz niekoniecznie - detekcji w sensie, wjakim będziemy dziś to omawiali

7 / 119

Page 8: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zbiory danych

Dla danych jednowymiarowych wykorzystamy klasyczny zbiórdanych o irysach (iris), dla danych wielowymiarowychwykorzystamy:

I returns 00 17.csv - zawiera dzienne stopy zwrotu z akcji firmApple i Microsoft od maja 2000 do maja 2017 roku

I zbiory danych generowanych samodzielnie - da nam tokontrolę nad sposobem wprowadzenia obs. odstających

I housing.csv- zawiera dane o transakcjach na rynkunieruchomości, tzw. Ames housing data

8 / 119

Page 9: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Próby definicji obserwacji odstającej

Hawkins 1980Outlier jest obserwacją, która odstaje tak bardzo od pozostałychobserwacji w próbie, że rodzi to podejrzenia, iż ta obserwacjazostała wygenerowana przez inny mechanizm (niż reszta próby).

IntuicjaZwyczajne dane pochodzą z procesu je generującego o określonejstrukturze (data generating process), wyjątki/anomalie sąodstępstwem od tego procesu

9 / 119

Page 10: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Słynne przypadki obserwacji odstających

CiążaDługość ciąży gatunku ludzkiego wynosi przeciętnie 280 dni

Słynne sprawy sądowe:I Gaskill vs. Gaskill, sąd nie uznał pozwu o oddalenie ojcostwa

ciąży o długości 331 dni (brak wyraźnego dowodu“nieobecności” męża)

I Wood vs Wood - 346 dni, mąż zostaje uznany ojcemI Hadlum vs Hadlum - poród po upływie 349 dni od dnia

rozpoczęcia przez męża służby wojskowej, zostaje on jednakuznany ojcem.

10 / 119

Page 11: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zastosowania metod wykrywania outlierów

I Wykrywanie przestępstw:I Wzorzec wydatków zmienia się po kradzieży karty kredytowej

(wysokość wydatków, częstotliwość, lokalizacja)I Medycyna:

I Niestandardowe wyniki testów, symptomyI Niestandardowo częste występowanie choroby na danym

obszarzeI Sport:

I Testy antydopingowe po osiągnięciu niestandardowego wyniku

11 / 119

Page 12: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Obecny paradygmat

Większość najnowszych metod oparta jest o algorytmy grupowania:

I Algorytmy te często nie przypisują wszystkich punktów dogrup/klastrów

I Będziemy stosować te algorytmy szukając grupniestandardowych albo grupy elementów ”pozostałych”

I Problem:I Algorytmy te nie są zoptymalizowane pod kątem wykrywania

outlierówI Dokładność algorytmu detekcji zależy od dokładności

algorytmu grupowania - to drugie zagadnienie samo w sobiejest trudne, często stosuje się metody nieparametryczne

I Zbiór obserwacji niestandardowych może zostać uznany zaistotną grupę

12 / 119

Page 13: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Podział metod detekcji outlierów

I Metody globalne/lokalne: jaki zbiór jest zbiorem odniesieniadla własności “odstawania” elementu?

I Wynik metody: tutaj możliwe są dwa warianty skrajne:I binarny: metoda każdy element zbioru określa jako outlier (1)

lub obserwacją nim nie będącą (0)I ciągły: metoda ustanawia ranking obserwacji, np. od

najbardziej do najmniej odstającychI Konstrukcja metody: w jaki sposób definiowana jest własność

odstawania obserwacji od reszty zbioru?I model statystycznyI własności geometryczne zbioru obserwacji (depth-based,deviation-based)

I odległość - obserwacje “normalne” są “blisko” innychobserwacji (distance-based)

I gęstość - gęstość wokół obserwacji normalnych nie różni się odinnych gęstości

I oparte o redukcję wymiaru

13 / 119

Page 14: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Do zapamiętania

Definicja obserwacji odstającej wpływa na wybór metody

Definicja obserwacji odstającej zależy od problemu, którychcemy rozwiązać

14 / 119

Page 15: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Do zapamiętania

Definicja obserwacji odstającej wpływa na wybór metody

Definicja obserwacji odstającej zależy od problemu, którychcemy rozwiązać

14 / 119

Page 16: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Przykład

15 / 119

Page 17: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Dane jednowymiaroweTesty statystyczne, metody nieparametryczne, pakiet outliers()

16 / 119

Page 18: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Jakiej matematyki potrzebujemy?

I Potrzebujemy narzędzi, by rozróżniać obserwacje“środkowe/centralne/zwyczajne” od tych “bardziej odległych”(w jakimś sensie).

I W sensie probabilistycznym - będziemy wykorzystywaćkwantyle rozkładu

I W sensie geometrycznym - będziemy wykorzystywać pojęcieodległości i inne, które są o nie oparte

17 / 119

Page 19: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Kwantyle, dystrybuanta i jej odwracanie

18 / 119

Page 20: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zadanie programistyczne nr 1

1. Proszę załadować zbiór iris, zawiera on 4 zmiennenumeryczne, które nas interesują (szerokości i długościpłatków sepal i petal)

2. Proszę wyświetlić informację o kwartylach naszych danychwykorzystując metodę quantile(stats)

3. Czy zauważamy jakiekolwiek różnice między rozkładami 4zmiennych w naszym zbiorze w oparciu o wyświetloneinformacje?

19 / 119

Page 21: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Metoda quantile - dlaczego aż 9 typów?

I Krótka odpowiedź: kwantyle z próby są przybliżeniem“prawdziwych” kwantyli, kwantyle wyznaczane sąnumerycznie, zgodnie z wzorami przedstawionymi whelp(quantile)

I Poruszam tę kwestię, żeby pokazać, że nawet tak trywialnezagadnienie może być skomplikowane, szczególnie w małychpróbach

I W dużych próbach powinniśmy jedynie uważać na ewentualnenieciągłości dystrybuanty (mass points)

20 / 119

Page 22: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Odrobina teorii

Nierówność CzebyszewaNiech X będzie zmienną losową o wartosci oczekiwanej E[X ] zeskończoną wariancją σ2. Wówczas, dla dowolnego a > 1 zachodzi:

P(|X − E[X ]| > aσ) <1a2

I Dla rozkładu spełniającego założenia twierdzenia p-stwo, żeobserwacja odstaje o 3 odch. standardowe od sredniej nieprzekracza 19 ≈ 0.11.

I Dla rozkładu normalnego można tę nierównosć wyraźniewzmocnić: obserwacje które odstają od mediany/sredniej o niewięcej niż 3 odch. standardowe stanowią 99.7% masyrozkładu.

21 / 119

Page 23: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Odrobina teorii

Nierówność CzebyszewaNiech X będzie zmienną losową o wartosci oczekiwanej E[X ] zeskończoną wariancją σ2. Wówczas, dla dowolnego a > 1 zachodzi:

P(|X − E[X ]| > aσ) <1a2

I Dla rozkładu spełniającego założenia twierdzenia p-stwo, żeobserwacja odstaje o 3 odch. standardowe od sredniej nieprzekracza 19 ≈ 0.11.

I Dla rozkładu normalnego można tę nierównosć wyraźniewzmocnić: obserwacje które odstają od mediany/sredniej o niewięcej niż 3 odch. standardowe stanowią 99.7% masyrozkładu.

21 / 119

Page 24: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Obserwacje odstające - wpływ na statystyki opisowe

I Przyjmijmy, że w “poprawnej” próbie pojawia się obserwacjaodstająca, jakiego rodzaju problemy to ze sobą niesie?

I Zmienia się średnia z próbyI Zmienia się wariancjaI Mediana zmienia się jedynie w stopniu wynikającym z dodania

dodatkowej zmiennej (tj. niezależnie od jej wartości, jedynie odtego, czy nowa obserwacja znajduje się powyżej czy poniżejmediany)

I Wniosek: metody parametryczne, wykorzystująceśrednią/kowariancję mogą podlegać rozmaitym zaburzeniomzwiązanym z występowaniem outlierów

22 / 119

Page 25: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Obserwacje odstające - wpływ na statystyki opisowe

I Przyjmijmy, że w “poprawnej” próbie pojawia się obserwacjaodstająca, jakiego rodzaju problemy to ze sobą niesie?

I Zmienia się średnia z próbyI Zmienia się wariancjaI Mediana zmienia się jedynie w stopniu wynikającym z dodania

dodatkowej zmiennej (tj. niezależnie od jej wartości, jedynie odtego, czy nowa obserwacja znajduje się powyżej czy poniżejmediany)

I Wniosek: metody parametryczne, wykorzystująceśrednią/kowariancję mogą podlegać rozmaitym zaburzeniomzwiązanym z występowaniem outlierów

22 / 119

Page 26: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Obserwacje odstające - wpływ na statystyki opisowe

I Przyjmijmy, że w “poprawnej” próbie pojawia się obserwacjaodstająca, jakiego rodzaju problemy to ze sobą niesie?

I Zmienia się średnia z próbyI Zmienia się wariancjaI Mediana zmienia się jedynie w stopniu wynikającym z dodania

dodatkowej zmiennej (tj. niezależnie od jej wartości, jedynie odtego, czy nowa obserwacja znajduje się powyżej czy poniżejmediany)

I Wniosek: metody parametryczne, wykorzystująceśrednią/kowariancję mogą podlegać rozmaitym zaburzeniomzwiązanym z występowaniem outlierów

22 / 119

Page 27: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Metody detekcji w próbie jednowymiarowej - klasyfikacja

I Nieparametryczne:I IQR, z-score i metody pokrewne (inne rodzaje

znormalizowanego odchyleniem standardowym odstępem odwartości średniej)

I Parametryczne:I Test Grubbs’a, Dixona

Następnie przejdziemy do wybranych testów normalności rozkładu(jest to pierwszy krok przed aplikacją metod parametrycznych)

23 / 119

Page 28: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Test Shapiro-Wilka normalności rozkładu

I H0: próba x = (x1, ..., xn) (posortowana) pochodzi z populacjio rozkładzie normalnym

I Ha: próba x = (x1, ..., xn) (posortowana) nie pochodzi zpopulacji o rozkładzie normalnym

Statystykę wyznacza się z wzoru:

W =(∑n

i=1 aixi )2∑n

i=1 (xi − x)2

gdzie współczynniki ai wyznacza się w oparciu o tabele.

24 / 119

Page 29: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Test Kołmogorowa-Smirnowa

Dystrybuanta empiryczna Fn dla n obserwacji niezależnych zidentycznego rozkładu (iid), i-ta obserwacja xi , jest zdefiniowanaprzez:

Fn(x) =1n

n∑i=1

I[−∞,x)(xi )

Test KS dany jest wzorem:

Dn = supx|Fn(x)− F (x)|

gdzie hipoteza zerowa brzmi: próba jest ciągnięta z rozkładu odystrybuancie F (x).

25 / 119

Page 30: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zadanie programistyczne 3

1. Przeprowadzić test normalności rozkłądów 4 zmiennych wzbiorze iris

26 / 119

Page 31: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Rozstęp międzykwartylowy

z j. angielskiego: Interquartile range, IQR, definujemy następująco:

IQR = Q3 − Q1

Z definicji, IQR pokrywa obszar 50% masy prawdopodobieństwaw próbie.Dla rozkładu normalnego można wyliczyć, że w przedziale

BW = [xmediana − 1.5× IQR, xmediana + 1.5× IQR]

znajduje się około 7 obserwacji na 1000.

27 / 119

Page 32: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Rozstęp międzykwartylowy

z j. angielskiego: Interquartile range, IQR, definujemy następująco:

IQR = Q3 − Q1

Z definicji, IQR pokrywa obszar 50% masy prawdopodobieństwaw próbie.

Dla rozkładu normalnego można wyliczyć, że w przedziale

BW = [xmediana − 1.5× IQR, xmediana + 1.5× IQR]

znajduje się około 7 obserwacji na 1000.

27 / 119

Page 33: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Rozstęp międzykwartylowy

z j. angielskiego: Interquartile range, IQR, definujemy następująco:

IQR = Q3 − Q1

Z definicji, IQR pokrywa obszar 50% masy prawdopodobieństwaw próbie.Dla rozkładu normalnego można wyliczyć, że w przedziale

BW = [xmediana − 1.5× IQR, xmediana + 1.5× IQR]

znajduje się około 7 obserwacji na 1000.

27 / 119

Page 34: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Alternatywne heurystyki

I Przyjęcie przedziału BW jako[xmediana − a× IQR, xmediana + a× IQR] z wartością a = 2bądź a = 3

I Wykorzystanie odchylenia standardowego (Czebyszew!)

28 / 119

Page 35: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Wizualizacja outlierów - wykres ramkowy/pudełkowy

29 / 119

Page 36: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Wykresy typu QQ (kwantyl-kwantyl)

I Główna idea: porównywanie kwantyli rozkładu empirycznego zwybranym rozkładem teoretycznym

I Przy założeniu zgodnosci rozkładów wykres w przybliżeniu jestlinią prostą

I Wspomaga wizualną identyfikację outlierów oraz odchyleń odwybranego założenia parametrycznego dot. rozkładuempirycznego (np. grube ogony, skosnosć)

30 / 119

Page 37: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Wykres QQ - przykład

Os x - rozkład teoretyczny, os y - rozkład empiryczny

31 / 119

Page 38: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zadanie programistyczne 4

1. Wygenerować wykresy pudełkowe dla 4 zmiennych w zbiorzeiris(boxplot())

2. Zidentyfikować indeksy obserwacji wystających poza IQR wkażdym przypadku (help(boxplot.stats())

3. Wygenerować wykresy Q-Q dla 4 zmiennych testując hipotezęo rozkładzie normalnym

32 / 119

Page 39: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Test Z-score

Jest to metoda heurystyczna, związana z nierównoscią Czebyszewa.Dla każdej obserwacji definiujemy statystykę Z :

zi =xi − x

sx

Przyjmuje się, że każda obserwacja, dla której wartosć statystyki zjest większa niż 3 lub mniejsza niż -3 jest outlierem (nierównośćCzebyszewa).

Można wykazać, że przy liczebnosci próby n wartosć statystyki zjest ograniczona co do modułu przez n−1√

nco sprawia, że użycie tej

metody dla małych n nie jest rekomendowane. Inna nazwa tejstatystyki to (dość mylące) odchylenie normalne

33 / 119

Page 40: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Test Z-score

Jest to metoda heurystyczna, związana z nierównoscią Czebyszewa.Dla każdej obserwacji definiujemy statystykę Z :

zi =xi − x

sx

Przyjmuje się, że każda obserwacja, dla której wartosć statystyki zjest większa niż 3 lub mniejsza niż -3 jest outlierem (nierównośćCzebyszewa).Można wykazać, że przy liczebnosci próby n wartosć statystyki zjest ograniczona co do modułu przez n−1√

nco sprawia, że użycie tej

metody dla małych n nie jest rekomendowane.

Inna nazwa tejstatystyki to (dość mylące) odchylenie normalne

33 / 119

Page 41: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Test Z-score

Jest to metoda heurystyczna, związana z nierównoscią Czebyszewa.Dla każdej obserwacji definiujemy statystykę Z :

zi =xi − x

sx

Przyjmuje się, że każda obserwacja, dla której wartosć statystyki zjest większa niż 3 lub mniejsza niż -3 jest outlierem (nierównośćCzebyszewa).Można wykazać, że przy liczebnosci próby n wartosć statystyki zjest ograniczona co do modułu przez n−1√

nco sprawia, że użycie tej

metody dla małych n nie jest rekomendowane. Inna nazwa tejstatystyki to (dość mylące) odchylenie normalne

33 / 119

Page 42: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zmodyfikowany Z-score(MAD-score)

Możliwą alternatywą jest tzw. odchylenie typu MAD:

zi =0.6745(xi − x)

MAD

gdzie przez MAD rozumiemy medianę absolutnych odchyleń:

MAD = mediana|xi −mediana[x ]|

za outliera przyjmujemy obserwację dla której wartosć zi jest co domodułu wyższa niż 3.5 (wyższa wartość ponieważ mediana jestmniej podatna na obserwacje odstającec)

34 / 119

Page 43: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Metoda scores(outliers), odchylenie χ2

I Opisane przeze mnie metody są zaimplementowane wmetodzie scores(outliers)

I Poza w/w heurystykami, metoda zwraca również inne“scores”-y

Przykładem innego rodzaju odchylenia jest odchylenie typu χ2

definiowane jako:

ci =(xi − x)2

σ2

metoda zakłada znajomosć wariancji zmiennej, z której rozkładuciągniona jest próba, z tego powodu testy typu χ2 są rzadkostosowane.

35 / 119

Page 44: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Metoda scores(outliers), odchylenie χ2

I Opisane przeze mnie metody są zaimplementowane wmetodzie scores(outliers)

I Poza w/w heurystykami, metoda zwraca również inne“scores”-y

Przykładem innego rodzaju odchylenia jest odchylenie typu χ2

definiowane jako:

ci =(xi − x)2

σ2

metoda zakłada znajomosć wariancji zmiennej, z której rozkładuciągniona jest próba, z tego powodu testy typu χ2 są rzadkostosowane.

35 / 119

Page 45: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Metoda scores(outliers), odchylenie χ2

I Opisane przeze mnie metody są zaimplementowane wmetodzie scores(outliers)

I Poza w/w heurystykami, metoda zwraca również inne“scores”-y

Przykładem innego rodzaju odchylenia jest odchylenie typu χ2

definiowane jako:

ci =(xi − x)2

σ2

metoda zakłada znajomosć wariancji zmiennej, z której rozkładuciągniona jest próba, z tego powodu testy typu χ2 są rzadkostosowane.

35 / 119

Page 46: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zadanie programistyczne 5

1. Napisać metodę runScores() która dla zbioru danych xprzeprowadzi obliczenia z-score, MAD-score, χ2-score i zwróciindeksy obserwacji podejrzanych o odstawanie wg kryteriumłącznego: wskazania przez w/w metody

2. Zastosować napisaną metodę dla 4 zmiennych

36 / 119

Page 47: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Masking oraz swamping

I Niektóre testy wykrywania outlierów są zaprojektowane dowykrywania obecności pojedynczej obs. odstającej, inne - dlawielu obs. odstających

I Nie należy na ślepo stosować testu do wykrywania obserwacjipojedynczej iteracyjnie - jeśli w zbiorze danych jest kilka obs.odstających blisko siebie możemy błędnie nie wykryć żadnej znich (maskowanie/masking)

I Testy na obecność wielu outlierów mogą wymagać określeniadokładnej liczby obs. odstających w tescie - jesli określimy tęliczbę zbyt wysoko, możemy błędnie wykryć obserwację“standardową” jako odstającą(pochłanianie/przytłaczanie/swamping).

37 / 119

Page 48: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Masking oraz swamping

I Niektóre testy wykrywania outlierów są zaprojektowane dowykrywania obecności pojedynczej obs. odstającej, inne - dlawielu obs. odstających

I Nie należy na ślepo stosować testu do wykrywania obserwacjipojedynczej iteracyjnie - jeśli w zbiorze danych jest kilka obs.odstających blisko siebie możemy błędnie nie wykryć żadnej znich (maskowanie/masking)

I Testy na obecność wielu outlierów mogą wymagać określeniadokładnej liczby obs. odstających w tescie - jesli określimy tęliczbę zbyt wysoko, możemy błędnie wykryć obserwację“standardową” jako odstającą(pochłanianie/przytłaczanie/swamping).

37 / 119

Page 49: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Masking oraz swamping

I Niektóre testy wykrywania outlierów są zaprojektowane dowykrywania obecności pojedynczej obs. odstającej, inne - dlawielu obs. odstających

I Nie należy na ślepo stosować testu do wykrywania obserwacjipojedynczej iteracyjnie - jeśli w zbiorze danych jest kilka obs.odstających blisko siebie możemy błędnie nie wykryć żadnej znich (maskowanie/masking)

I Testy na obecność wielu outlierów mogą wymagać określeniadokładnej liczby obs. odstających w tescie - jesli określimy tęliczbę zbyt wysoko, możemy błędnie wykryć obserwację“standardową” jako odstającą(pochłanianie/przytłaczanie/swamping).

37 / 119

Page 50: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Ograniczenia metod i ich implementacji w R

I Testy, które zaraz omówimy, są skonstruowane dlamałych/średnich prób - tutaj pytanie o występowanie obs.odstającej jest mniej trywialne, niż w bardzo dużym zbiorzedanych

I Często istotnym ograniczeniem będzie dla nas n = 30 jakorozmiar próby

I Dlaczego tak jest? Przypominam, w dużych próbachwystępowanie outlierów częściej jest po prostu realizacjącharakterystyki rozkładu (obserwacji z ogona), w małychpróbach outlier faktycznie może stanowić “wyjątek”

38 / 119

Page 51: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Ograniczenia metod i ich implementacji w R

I Testy, które zaraz omówimy, są skonstruowane dlamałych/średnich prób - tutaj pytanie o występowanie obs.odstającej jest mniej trywialne, niż w bardzo dużym zbiorzedanych

I Często istotnym ograniczeniem będzie dla nas n = 30 jakorozmiar próby

I Dlaczego tak jest? Przypominam, w dużych próbachwystępowanie outlierów częściej jest po prostu realizacjącharakterystyki rozkładu (obserwacji z ogona), w małychpróbach outlier faktycznie może stanowić “wyjątek”

38 / 119

Page 52: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Ograniczenia metod i ich implementacji w R

I Testy, które zaraz omówimy, są skonstruowane dlamałych/średnich prób - tutaj pytanie o występowanie obs.odstającej jest mniej trywialne, niż w bardzo dużym zbiorzedanych

I Często istotnym ograniczeniem będzie dla nas n = 30 jakorozmiar próby

I Dlaczego tak jest? Przypominam, w dużych próbachwystępowanie outlierów częściej jest po prostu realizacjącharakterystyki rozkładu (obserwacji z ogona), w małychpróbach outlier faktycznie może stanowić “wyjątek”

38 / 119

Page 53: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zadanie programistyczne 6

1. Wygenerować nowy zbiór danych, składający się z 30pierwszych wierszy zbioru iris

2. Przeprowadzić dla tego zbioru procedury, które wykonaliśmyna zbiorze pierwotnym

Następnie zapoznamy się z funkcjami grubbs.test(outliers),dixon.test(outliers) i rosnerTest(envStats),

39 / 119

Page 54: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Test Grubbs’a

I Założenie: próba (x1, ..., xn) pochodzi z rozkładu normalnegoI Hipoteza zerowa H0: w próbie brak jest obserwacji odstającychI Hipoteza alternatywna Ha: w próbie jest przynajmniej jedna

obserwacja odstającaI Test służy do odpowiedzi na pytanie: czy wartosć

maksymalna/minimalna w próbie jest outlierem?

40 / 119

Page 55: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Test Grubbs’a

Statystyka G dla testu dwustronnego jest obliczana wg wzoru:

G = max1,...,n

|xi − x |sx

gdzie: x - srednia z próby, a sx - odchylenie standardowe z próby.Wersje jednostronne testują czy obserwacjanajmniejsza/największa (odpowiednio, xmin, xmax) jest outlierem,wówczas wyznaczamy statystykę G z poniższych wzorów:

G =x − xmin

sxbądź G =

xmax − x

sx

41 / 119

Page 56: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Test Grubbs’a

Stwierdzamy występowanie przesłanek do odrzucenia hipotezyzerowej dla testu dwustronnego, przy poziomie istotnosci α, gdy:

G >N − 1√

N

√√√√√ t2α2N ,N−2

N − 2 + t2α2N ,N−2

gdzie t2α2N ,N−2

oznacza górną wartosć krytyczną z rozkładut-studenta z N − 2 stopniami swobody przy poziomie istotnosci α

2N .Dla testów jednostronnych w powyższym wzorze należy zastąpićα2N przez α

N

42 / 119

Page 57: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Test Grubbs’a

I Możliwym przeformułowaniem jest test ilorazu wariancji pousunięciu z próby obserwacji największej i najmniejszej(statystyka U)

I Istnieje uogólnienie testu Grubbs’a na przypadek k > 2outlierów, jest to test Tietjen’a-Moore’a, lecz jest on dosćsłabo zaimplementowany w R

I Mocniejszym narzędziem jest test Rosnera/GESD

43 / 119

Page 58: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Test Dixona

Przyjmijmy, że mamy dane posortowane x = (x1, ..., xn),x1 ¬ ... ¬ xn.Dla danej obserwacji xi możemy obliczyć statystykę Q poprzez:

Qi =lukai

zakres

gdzie przez lukai oznaczamy odległosć od zmiennej podejrzanej obycie odstającą od jej najbliższego sąsiada a poprzez zakresrozumiemy różnicę między wartoscią największą i najmniejszą wpróbieProblem nr 1: testujemy istnienie wartosci “ekstremalnych”, leczw mianowniku mamy funkcję próby, która od nich zależyProblem nr 2: jest to test dla jednej obserwacji, zatempowinnismy martwić się o masking

44 / 119

Page 59: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Test Dixona - 6 odmian

r10 =x2 − x1xn − x1

dla x1 bądź:xn − xn−1xn − x1

dla xn

r11 =x2 − x1

xn−1 − x1dla x1 bądź:

xn − xn−1xn − x2

dla xn

r12 =x2 − x1

xn−2 − x1dla x1 bądź:

xn − xn−1xn − x3

dla xn

r20 =x3 − x1xn − x1

dla x1 bądź:xn − xn−2xn − x1

dla xn

r21 =x3 − x1

xn−1 − x1dla x1 bądź:

xn − xn−2xn − x2

dla xn

r22 =x3 − x1

xn−2 − x1dla x1 bądź:

xn − xn−2xn − x3

dla xn

Czy ktos spróbuje odgadnąć, skąd wynika to wariantowanie?

45 / 119

Page 60: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Test Rosnera/GESD

I GESD - uogólnione ekstremalne studentyzowane odchylenie

I służy do wykrywania k < 10 obserwacji odstających, studiasymulacyjne wskazują, że test działa bardzo dokładnie dla prób oliczebnosci większej niż n = 25.

I Mechanizm działania opiera się na iteracyjnym stosowaniu testuGrubbs’a z istotną modyfikacją wartosci krytycznych zależnie odliczby k

I W procedurze obliczamy wartosci statystki Gj po usunięciu j − 1obserwacji ekstremalnych i wartosci krytyczne testu ze wzoru:

λj =(n − 1)tp,n−j−1√

(n − j − 1 + t2p,n−j−1)(n − j + 1)

i p = 1− α2(n−j+1)

I Za liczbę outlierów przyjmuje się maxj : Gj ­ λj

Uwaga, wymagana jest instalacja pakietu EnvStats46 / 119

Page 61: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zadanie programistyczne 7

1. Przeprowadzić testy Grubbs’a, Dixona i Rosnera wnowoutworzonym zbiorze dla wszystkich zmiennych,dodatkowo porównać wyniki iteracyjnego stosowania testuGrubbs’a z testem Rosnera przyjmując wszędzie wartościdefault

2. Przeprowadzić test Rosnera z k = 10 dla wszystkich 4zmiennych, co obserwujemy?

47 / 119

Page 62: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Podsumowanie

I Zakończylismy pierwszy temat naszego szkoleniaI Dylemat czy dana obserwacja jest odstająca czy też swiadczy

o “prawdziwym” zróżnicowaniu próby jest nietrywialny nawetw najprostszym, jednowymiarowym problemie.

I Metody wizualizacji są istotną pomocą dla metodstatystycznych i powinny być zawsze stosowane

48 / 119

Page 63: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Dane dwuwymiarowe

49 / 119

Page 64: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zadanie programistyczne nr 8

1. Wczytać zbiór danych o dziennych stopach zwrotu

2. Wyświetlić podsumowanie zbioru

3. Wydzielić nowy zbiór danych, składający się z pierwszych 30wierszy zbioru podstawowego (nie usuwając przy tym zbioruwyjściowego), zbiór wyjściowy będziemy od tej pory nazywaćzbiorem dużym, a zbiór pierwszych 30 wierszy - zbioremmałym

4. Narysować wykresy punktowe obu zbiorów

5. Narysować wykresy pudełkowe obu zbiorów (tj. w rozbiciu naposzczególne zmienne)

50 / 119

Page 65: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zadanie programistyczne nr 9

1. Wykorzystać poznane do tej pory metody dla wykryciaobserwacji odstających w zbiorze dużym i zbiorze małym (w 1wymiarze, tj. dla zmiennych Apple i Microsoft osobno)

2. Czy w przypadku zbioru małego możemy zidentyfikowaćwizualnie obserwacje podejrzane o odstawanie w 2 wymiarach?

51 / 119

Page 66: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Więcej niż 1 wymiar: kluczowe problemy

I Zmienna będąca outlierem wg jednej cechy/zmiennej nie musibyć widoczna jako outlier względem drugiej cechy/zmiennej

I Wraz z dodatkowym wymiarem pojawia się więcej rodzajówdefiniowania ”odstawania” (przykłady na najbliższych 4slajdach)

I Im więcej wymiarów, tym zadanie detekcji outlierów staje sięwizualnie trudniejsze, a przez to - bardziej istotne dla wynikówprocedury, którą chcemy przeprowadzić(estymacja/predykcja/klasyfikacja)

52 / 119

Page 67: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Anomalie skoncentrowane/zgrupowane (zbiór niebieski I)

53 / 119

Page 68: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Anomalie rozproszone (zbiór niebieski I)

54 / 119

Page 69: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Anomalie lokalne (zbiór niebieski II)

55 / 119

Page 70: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Anomalie globalne (zbiór niebieski II)

56 / 119

Page 71: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Algorytm powłoki/otoczki wypukłej convex hull

I Główna idea: algorytm “obiera” zbiór danych z najbardziej“zewnętrznych” warstw.

I Metoda niezależna od rozkładu/nieparametrycznaI Tego rodzaju metoda jest przykładem metod opartych o tzw.

“głębokość” zbioru danych.I Metoda globalna

57 / 119

Page 72: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Pojęcie wypukłości

Zbiór wypukłyZbiór B ∈ RN nazywa się wypukłym jeśli zachodzi:

∀x , y ∈ B,∀α ∈ [1, 0]αx + (1− α) y ∈ B

Otoczka wypukłaOtoczką wypukłą zbioru B nazywamy najmniejszy zbiór wypukłyzawierający zbiór B:

conv(B) =⋂{H : B ⊂ H,H jest wypukły}

58 / 119

Page 73: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Rekursywna implementacja

1. Algorytm polega na wyznaczaniu i usuwaniu otoczekwypukłych zbioru danych

I Niech X (0) - zbiór wyjściowyI W i-tym kroku procedury, k ­ 1, elementem wejściowym jest

zbiór X (i−1), krok algorytmu polega na wyznaczeniu otoczkiwypukłej zbioru X (i−1) i usunięciu punktów tejże otoczki

I Punkty usunięte w i-tym kroku procedury mają głębokość i

2. Algorytm zatrzymuje się po wykonaniu k kroków lubwcześniej, jeśli zbiór X (i−1) jest pusty.

59 / 119

Page 74: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zadanie programistyczne nr 10

1. Zastosować metodę chull() do zbioru małego, wygenerowaćwykres z zaznaczoną otoczką wypukłą zbioru

2. Zaimplementować metodę usuwania obserwacji odstajacych woparciu o otoczkę wypukłą; metoda przyjmuje za argumentzbiór danych X oraz głębokość k i wykorzystuje metodęchull()

3. Metoda powinna sprawdzić, czy postawione zadanie ma sens(tj. czy k wejściowe nie jest zbyt duże, zarówno dlauruchomienia procedury, jak i jej wcześniejszegozastopowania)

4. Zastosować zaimplementowana metodę dla dużego zbiorudanych, kolorując odpowiednio punkty usunięte w i-tym krokuprocedury (przyjmijmy k = 5.

60 / 119

Page 75: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Metoda powłoki wypukłej - dyskusja

I Metoda efektywna jedynie dla niskiej liczby wymiarów (wpraktyce, nie więcej niż 3)

I Metoda wykazuje analogię do eliminacji w oparciu o odległekwantyle rozkładu statystycznego, lecz jest wolna od założeńparametrycznych

I Warianty metody: różnicowanie względem głębokości(quasi-score)

I Punktem odniesienia jest cały zbiór danych

61 / 119

Page 76: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Przykład: metoda isodepth(depth)

−0.04 −0.02 0.00 0.02 0.04

−0.

03−

0.02

−0.

010.

000.

010.

020.

03

X

Y

62 / 119

Page 77: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Metryka/odległość - własności ogólne

Powiemy, że dana funkcja d(x , y) jest metryką w przestrzeni Zjeśli spełnia ona następujące aksjomaty:

I Identyczność nierozróżnialnych elementów przestrzeni:d(x , y) = 0 ⇐⇒ x = y

I Symetria: d(x , y) = d(y , x)

I Nierówność trójkąta: d(x , y) ¬ d(x , z) + d(z , y)

Z powyższych wynika również, że metryka jest nieujemna:∀x , y ∈ Z : d(x , y) ­ 0. Przejdziemy teraz do omówienia kilkurodzajów metryk, które uwzględniono w implementacji metod,które będziemy dziś omawiać w pakietach

63 / 119

Page 78: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Odległość Euklidesowa

I Niech będą dane dwa punkty w przestrzeni dwu-wymiarowej:a = (a1, a2) i b = (b1, b2), wówczas odległość Euklidesowamiędzy a i b zadana jest wzorem:

d(a, b) =√

(a1 − b1)2 + (a2 − b2)2

(długość przeciwprostokątnej w trójkącie zadanymwierzchołkami a, b i c = (b1, a2)); dla wektorówn-wymiarowych: a = (a1, ..., an) i b = (b1, ..., bn):

d(a, b) =

√√√√ n∑i=1

(ai − bi )2

64 / 119

Page 79: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Odległość miejska/manhattańska

d(a, b) =n∑

i=1

|ai − bi |

w tej metryce “chodzimy między budynkami”

65 / 119

Page 80: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Odległość Mahalanobisa

I Kluczowa idea: odległość punktu od rozkładuI Innymi słowy: niech próba X pochodzi z rozkładu D, jak

daleko od X jest punkt y?I Wykorzystamy tutaj pomysł stojący za testami opartymi na

”score”, tj. będziemy mierzyć odległość punktu od wartościoczekiwanej rozkładu w wielokrotnościach odchyleniastandardowego

I Odchylenie typu χ2: przyjmując, że znamy średnią rozkładu µi wariancjęσ2, kwadrat odchylenia obserwacji x od µ wyrażonyw odch. standardowym σ to:

(x − µ)2

σ2= (x − µ)(σ2)−1(x − µ)

66 / 119

Page 81: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Odległość Mahalanobisa w RN

niech x ∈ RN , wówczas odległość tego wektora od rozkładuzmiennej wielowymiarowej z wektorem wartości oczekiwanych µoraz macierzą wariancji-kowariancji Σ zadana jest wzorem:√

(x − µ)T Σ−1 (x − µ)

W ogólności, można stosować tę odległość jako miaręniepodobieństwa dwóch wektorów losowych x , y jeśli pochodzą onez tego samego rozkładu z macierzą wariancji-kowariancji Σ:

dmah(x , y) = (x − y)TΣ−1(x − y)

Wykorzystamy tę ideę do wykrywania outlierów w danychwielowymiarowych.

67 / 119

Page 82: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Naiwny algorytm wykorzystujący odległość Mahalanobisa

Rozkład dmahPrzy założeniu, że dysponujemy obserwacjami wygenerowanymi zn-wymiarowego rozkładu normalnego, rozkład kwadratu odległościMahalanobisa jest rozkładem χ2(n)

I Dane wsadowe: K × N zbiór obserwacji S ∈ RN , prógkrytyczny p

I Wynik: możliwe obserwacje odstająceI Algorytm:

1. Oblicz wektor wartości średnich i macierzywariancji-kowariancji z próby S

2. Wyznacz wektor tK×1 odległości Mahalanobisa dla każdegopunktu z S

3. Wyznacz i zwróć indeksy j elementów t których wartośćprzewyższa funkcję odwrotną z pierwiastka kwadratowego1− p-kwantyla statystyki χ2 z N stopniami swobody

68 / 119

Page 83: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Problem: algorytm polega na estymacji momentów z próby

I Jak już wiemy, obecność obserwacji odstających możezaburzać oszacowanie wartości oczekiwanej, a co za tym idzie- macierzy wariancji-kowariancji

I Rozwiązanie: zastosowanie odpornego estymatora dlamacierzy wariancji-kowariancji

I Metoda R której użyjemy pozwala na zastosowanie jednej zdwóch metod estymacji odpornej macierzywariancji-kowariancji: MCD (Minimum CovarianceDeterminant) oraz MVE (Minimum Vollume Ellipsoid),omówimy teraz ich ogólną ideę i wyjaśnimy co dzieje się, gdywywołamy daną metodę w R.

69 / 119

Page 84: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Problem: algorytm polega na estymacji momentów z próby

I Jak już wiemy, obecność obserwacji odstających możezaburzać oszacowanie wartości oczekiwanej, a co za tym idzie- macierzy wariancji-kowariancji

I Rozwiązanie: zastosowanie odpornego estymatora dlamacierzy wariancji-kowariancji

I Metoda R której użyjemy pozwala na zastosowanie jednej zdwóch metod estymacji odpornej macierzywariancji-kowariancji: MCD (Minimum CovarianceDeterminant) oraz MVE (Minimum Vollume Ellipsoid),omówimy teraz ich ogólną ideę i wyjaśnimy co dzieje się, gdywywołamy daną metodę w R.

69 / 119

Page 85: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Problem: algorytm polega na estymacji momentów z próby

I Jak już wiemy, obecność obserwacji odstających możezaburzać oszacowanie wartości oczekiwanej, a co za tym idzie- macierzy wariancji-kowariancji

I Rozwiązanie: zastosowanie odpornego estymatora dlamacierzy wariancji-kowariancji

I Metoda R której użyjemy pozwala na zastosowanie jednej zdwóch metod estymacji odpornej macierzywariancji-kowariancji: MCD (Minimum CovarianceDeterminant) oraz MVE (Minimum Vollume Ellipsoid),omówimy teraz ich ogólną ideę i wyjaśnimy co dzieje się, gdywywołamy daną metodę w R.

69 / 119

Page 86: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Odporne estymowanie Σ - intuicja

70 / 119

Page 87: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

MCD

Estymator MCDEstymator MCD jest wyznaczony przez zbiór punktów (oliczebności h), które minimalizują wyznacznik macierzywariancji-kowariancji pośród wszystkich zbiorów o liczebności h.

I Dla zbioru danych o wymiarach N × k gdzie k - liczbawymiarów, musi zachodzić h > k

I Zwyczajowo przyjmuje się h = 34N

I MCD jest odporny na występowanie N − h obserwacjiodstających

71 / 119

Page 88: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zadanie programistyczne nr 11

1. Zaimplementować metodę compareMetricOutliers(), która:I Dla dwuwymiarowego zbioru danych X wyznaczy odległości

miejską, euklidesową i Mahalanobisa (bez uodpornieniamacierzy wariancji-kowariancji, można dodać jako opcjęmetody) względem wektora:

I średnich z próbyI median z próby

I wyznaczy i zwróci indeksy outlierów zidentyfikowanych woparciu o statystykę χ2 dla odległości Mahalanobisa, dlapozostałych odległości - obserwacje odstające od średniejodległości o więcej niż trzy odchylenia standardowe; dla każej zw/w odległości oraz zwróci wartości odległości outlierów

2. Metodę zastosować do dużego zbioru danych

3. Wygenerować wykresy punktowe z pokolorowanymi outlieramiusunięte wg. każdej z odległości i rodzaju punktu centralnego(opcjonalnie)

72 / 119

Page 89: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zadanie programistyczne nr 12

I Dla zbioru danych zawierającego dzienne stopy zwrotu proszę:1. Zaimplementować algorytm naiwny w oparciu o odległość

Mahalanobisa i zaprezentować jego wyniki na wykresiekwantyl-kwantyl (uwaga, tutaj interesuje nas rozkład χ2)

2. Narysować wykres punktowy danych z zaznaczonymi na nimoutlierami

3. Powtórzyć kroki 1-3 dla odległości Mahalanobisa w oparciu ometodę MVD

4. Narysować wykres punktowy obrazujący zależność międzystandardową odległością Mahalanobisa i odległością uzyskanąw oparciu o estymator MVD

5. Do wykresu punktowego wyróżnić obserwacje ostająceosobnym kolorem

73 / 119

Page 90: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Dyskusja w/w algorytmów

I Algorytm oparty o rozkład χ2 i dmah jest algorytmemparametrycznym

I Zaimplementowaliśmy też dwa algorytmynieco-mniej-parametryczne, wykorzystujące nierównośćCzebyszewa w oparciu o odległość względem punktucentralnego danych

I Problem: punkt centralny może być punktem odstającym

74 / 119

Page 91: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Ilustracja

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

1.0

x

y

75 / 119

Page 92: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Algorytm k-najbliższych sąsiadów (KNN, k-nearestneighbours)

I Metoda może być używana zarówno w celu przeprowadzeniaregresji, jak też - klasyfikacji

I Ogólna zasada działania: mając dany zbiór treningowyobserwujemy w nim zestaw cech X ∈ RN (np. wzrost, waga)oraz kategorii Y (np. płeć), przyjmijmy, że Y = {y1, ..., yn}oraz, że X = {x1, ..., xM}, M >> n

I Klasyfikujemy nową obserwację z zestawem cech xnowy

wybierając k-najbliższych sąsiadów tej obserwacji iprzeprowadzając wśród nich “głosowanie” tj. zliczającrealizacje poszczególnej wartości kategorii Y :

1. sortujemy elementy zbioru X wg odległości do punktu xnowy

2. wybieramy k elementów dla których ta odległość jestnajmniejsza

3. zliczamy częstość wystąpienia każdej z realizacji kategorii Y(dlatego też zwykle przyjmuje się k nieparzyste jeśliY = {y1, y2})

76 / 119

Page 93: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

KNN w detekcji outlierów

I Dla każdego elementu obliczamy odległość do k = 1, ...,Nsąsiada

I Za outlier score przyjmujemy:I odległość do N-tego sąsiadaI sumę odległości do najbliższych k sąsiadów

I Odrzucamy p obserwacji z najwyższym outlier score (lubstosujemy nierówność Czebyszewa)

będziemy teraz korzystać z pakietu dbscan

77 / 119

Page 94: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Przykład

78 / 119

Page 95: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Problemy algorytmu KNN

I Niezbilansowanie liczebności poszczególnych kategoriiI klątwa wymiaru - ponieważ metoda polega na obliczeniu

odległości, w wysokowymiarowych przypadkach“wszystkie punkty są stosunkowo blisko”

79 / 119

Page 96: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zadanie programistyczne nr 13

1. Zastosować metodę kNN(dbscan) na zbiorze małym zk ∈ {1, 2, 3}

2. Wyznaczyć zarówno sumę odległości do k sąsiadów jak teżodległość do k-tego sąsiada dla każdej z obserwacji

3. Znaleźć po 2 obserwacje z najwyższą i najniższą wartościąoutlier score, zaznaczyć je na wykresie

4. Wykorzystując funkcję kNN(dbscan) napisać metodęwyznaczającą p% zbioru obserwacji w oparciu o jeden zopisanych powyżej outlier score

5. Zastosować metodę detekcji outlierów dla dużego zbioru zk = 1, k = 5 i k = 10, jak zmienia się zbiór outlierów?

80 / 119

Page 97: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Metody oparte o gęstość zbioru

I Mówiąc nieco nieściśle, przez gęstość rozumiemy częstotliwośćwystępowania innych elementów zbioru, które są “blisko”interesującej nas obserwacji

I gęstość wokół outliera powinna być wyraźnie niższa, niż wokół“normalnych” obserwacji

I metody oparte o odległość mają problem z asymetrycznymizagęszczeniami zbioru

81 / 119

Page 98: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Od odległości do gęstości

I O1 i O2 odstają “lokalnie”I O3 odstaje “globalnie”

wniosek: należy porównywać gęstości względne (w stosunkudo sąsiedztwa)

82 / 119

Page 99: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Od odległości do gęstości

I O1 i O2 odstają “lokalnie”I O3 odstaje “globalnie”

wniosek: należy porównywać gęstości względne (w stosunkudo sąsiedztwa)

82 / 119

Page 100: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Od odległości do gęstości

I O1 i O2 odstają “lokalnie”I O3 odstaje “globalnie”

wniosek: należy porównywać gęstości względne (w stosunkudo sąsiedztwa)

82 / 119

Page 101: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Local Outlier Factor

1. weźmy punkt x i niech xk - k-ty sąsiad punktu x k-odległośćod x dk(x) = d(x , xk)

2. k-sąsiedztwo punktu x , Nk(x) = {y : d(x , y) ¬ d(x , xk)}3. Uogólnienie pojęcia odległości: reachability distance, dla

punktów x i y :

reach-dk(x , y) = max {dk(x), d(x , y)}

4. lokalna gęstość dostepności punktu x :

lrd(x) =#Nk(x)∑

y∈Nk (x) reach-dk(x , y)

83 / 119

Page 102: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Local Outlier Factor

LOF dla punktu x definiujemy jako średnią lrd(x) orazlrd(y), y ∈ Nk(x):

LOFk(x) =

∑y∈Nk (x)

lrd(y)lrd(x)

#Nk(x)

Im niższy lrd dla punktu x i im wyższy lrd dla jego k-sąsiadów,tym wyższy LOF.

84 / 119

Page 103: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Local Outlier Factor - ilustracja

85 / 119

Page 104: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Przykład

86 / 119

Page 105: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Przykład modyfikacji LOF: Influenced Outlierness

I W niektórych zbiorach zgrupowania o różnych gęstościach niesą wyraźnie porozcinane

I W takich przypadkach LOF będzie miał kłopoty zwytypowaniem outlierów

87 / 119

Page 106: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Influenced Outlierness

Rozwiązanie: zbiór wpływu: k-sąsiedztwo punktu x oraz jegoodwrócone k-sąsiedztwa (tj. zbiór wszystkich punktów, dla którychpunkt x jest k-sąsiadem) (KIS(x)), k-influence space

I gęstość mierzona jako den(x) = 1dk (x)

I Score zdefiniowany przez INFLOk(x) =

∑y∈KIS(x)

den(y)

#KIS(x)den(x)

88 / 119

Page 107: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zadanie programistyczne nr 14

1. Przeprowadzić kroki opisane w poprzednim zadaniu zwykorzystaniem metody lof(dbscan) zamiast kNN(dbscan)

2. Porównać zbiory outlierów zidentyfikowane w oparciu o kNN ilof, co obserwujemy?

89 / 119

Page 108: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Algorytm ABOD - Angle Based Outlier Detection

90 / 119

Page 109: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Idea algorytmu

I W przestrzeniach wielowymiarowych kąty są bardziej stabilne,niż odległości (wraz ze zwiększaniem wymiaru)

I Punkt x jest outlierem, jeśli większość pozostałych obiektówjest położona na podobnych wektorach skierowanychwychodzących z x

I Punkt x nie jest outlierem, jeśli wychodzące z niego wektoryskierowane w stronę pozostałych obiektów są skierowane podróżnymi kątami

ABOD(x) = Var〈−→xy ,−→xz〉‖−→xy‖‖−→xz}

, y , z ∈ B

gdzie B jest odpowiednio dobranym zbiorem (np. k-sąsiedztwemx). Niski ABOD(x) - obserwacja jest outlierem, wysoki ABOD(x) -obserwacja nie jest outlierem.

91 / 119

Page 110: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

ABOD - przykład

92 / 119

Page 111: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zadanie programistyczne nr 15

1. Wczytać pakiet abodOutlier

2. Zastosować metodę abod dla zbioru małego, wyznaczyć dwapunkty z najmniejszymi i największymi wartościami abod

3. Zastosować metodę abodOutlier dla zbioru dużego zmieniająck = 3, 5, 10 oraz wybierając metodę random

93 / 119

Page 112: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Obserwacje odstające w analizie regresji

94 / 119

Page 113: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Obserwacje odstające a estymacja

I Klasyczne metody estymacji można, w ogólności, sprowadzićdo problemu minimalizacji odległości zmiennychobjaśniających i objaśnianych (rzutowanie)

I Przykładem jest klasyczna metoda najmniejszych kwadratów,gdzie celem jest wybór parametrycznej postaci związku(zadanego przez wektor parametrów θ) między zmiennymiobjaśniającymi a zmienną objaśnianą tak, aby zminimalizowaćsumę kwadratów odchyleń predykcji yi od obserwacji yi :

minθ

n∑i=1

(yi − yi (θ))2

95 / 119

Page 114: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Metoda Najmniejszych Kwadratów - przypomnienie

I wektor zmiennej objaśnianej y = (y1, ..., yn)

I macierz zmiennych objaśniających X z typowym elementemxi ,j , i = 1, ..., k oraz j = 1, ..., n

I wektor szacowanych parametrów β

I wektor reszt/rezyduów:ε = y − y = y − βX

96 / 119

Page 115: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Założenia metody MNK

I ∀i εi ∼ N(0, σ2

), ponadto realizacje εi są niezależne

I Macierz X ma pełny rządI Model jest liniowy względem elementów wektora β

MNK zaimplementowano w R w metodzie lm()

97 / 119

Page 116: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Przypomnienie: wyprowadzenie estymatora

minβ

SSE (β) ≡ (y − βX)T (y − βX) =⇒

∂βSSE (β) = 0 ⇐⇒ ∂

∂βyyT − 2yTXβ + βTXTXβ = 0 =⇒

−2XTy + 2XTXβ = 0 =⇒

β =(

XTX)−1

XTy

98 / 119

Page 117: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Estymator MNK - 1 zmienna objaśniająca

I Dla ustalenia uwagi przyjmijmy, że rozważamy przypadekdwuwymiarowy:

wektor obserwacji zmiennej objaśnianej y = (y1, ..., yn)

wektor obserwacji zmiennej objaśnianej x = (x1, ..., xn)

I ... być może jest to uwaga trywialna, ale dla porządku: teobserwacje nie są posortowane, obserwujemy pary (xi , yi )

I postulujemy związek między x a y postaci:

yi = b + axi + εi

I b to wyraz wolny równania regresjiI a to współczynnik nachylenia/kierunkowy

99 / 119

Page 118: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Estymator MNK - szczególny przypadek

I Wzory na współczynniki równania regresji są następujące:

b =1n

∑i xyyi − x y

1n

∑ni x2i − x

=Cov(X ,Y )

Var [X ]

a = y − bx

I Reszty (błędy dopasowania) z modelu:

ei = yi − a− bxi

100 / 119

Page 119: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Obserwacje niestandardowe w estymacji

I Należy rozróżnić trzy typy potencjalnie wpływających naestymację parametrów regresji:

I odstająceI z wysoką dźwigniąI wpływowe

I Przejdziemy teraz do zdefiniowania kilku miar wpływuobserwacji na estymację

I Ważne: przedstawiona powyżej klasyfikacja nie jest rozłączna

101 / 119

Page 120: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Klasyfikacja obserwacji niestandardowych

I obserwacja odstająca: nietypowa/ekstremalna obserwacja yk co prowadzido podniesienia wartości reszty ek (to z kolei, przykładowo, zmniejszaistotność oszacowania parametrów i miary dopasowania modelu dodanych)

I obserwacja wpływowa: usunięcie takiej zmiennej ma istotny wpływ naoszacowane wartości parametrów a i b, kandydatami na takie zmienne sąnietypowe/ekstremalne obserwacje x

I dźwignię i-tej obserwacji definiujemy jako:

hi =1n

+(xi − x)2∑n

i(xi − x)2

I Zauważmy, że zawsze 1 ­ hi ­ 1n

oraz, że w naszym modelu∑

ihi = 2,

ogólnie, przy k parametrów modelu zachodzi∑

ihi = k, regułą decyzyjną

uznania obserwacji za wpływową jest, gdy hi >2kn

I w literaturze proponuje się następnie usuwanie obserwacji potencjalniewpływowych dla upewnienia się, że oszacowania parametrów ulegnązmianie

102 / 119

Page 121: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

reszty modelu - charakterystyki

niech ei = yi − a− bxi

wówczas błąd standardowy i-tej reszty wyraża się wzorem:

SEi = σ√

1− hi

gdzie σ, tj. prawdziwe odchylenie standardowe jest aproksymowaneprzez eT e

n−k w małej próbie warto reszty poddać “studentyzacji”:

ri =eiSEi

103 / 119

Page 122: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Reality check, czyli ... po co to wszystko?I przy normalnej wartości zmiennej x i ekstremalnej wartości

zmiennej y możemy testować hipotezę dot. pochodzenia ri zrozkładu normalnego o średniej µ = 0 i odchyleniustandardowym σ = 1

I problem: test ten może nie wychwycić zmiennej o “normalnej”wartości zmiennej y przy jednoczesnym odchyleniu zmiennej x

I w/w sytuację można próbować obchodzić usuwając j-tąobserwację ze zbioru danych, reestymując model bez tejobserwacji i obliczając zmodyfikowaną resztę:

di = yi − yi/i

następnie ją studentyzując:

ti =di

SEdi

i testując z rozkładu t-studenta104 / 119

Page 123: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Różnica dopasowań (Difference in FITs)

Alternatywną metodą mierzenia wpływu obserwacji jest formuła:

DFFITSi =yi − yi/i

s/i√hi

gdzie indeks /i oznacza wartości obliczone z modeluwyestymowanego po usunięciu i-tej obserwacji z próby. Regułądecyzyjną jest potraktowanie i-tej obserwacji jako wpływowej gdy

wartość DFFITSi > 2√

kn gdzie, przypominam, k to liczba

parametrów modelu a n - liczba obserwacji.

105 / 119

Page 124: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Odległość Cook’a

Alternatywnie można spojrzeć na różnicę w wartości szacowanychparametrów wykorzystując tzw. Odległość Cook’a Di :

Di =

∑nj=1

(yj − yj/i

)2k ×MSE

gdzie błąd średniokwadratowy to:

MSE =

∑i e2i

n − k

Popularną regułą jest przyjęcie 4N gdzie N to liczebność próby zapoziom, którego przekroczenie sugeruje, iż obserwacja jestwpływowa.

106 / 119

Page 125: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Różnica wartości współczynników kierunkowych

W literaturze zwykło oznaczać się wektor estymowanychwspółczynników grecką literą β, zatem:

DFBeta = ||β − βı||

jest kolejną metodą diagnostyczną wpływu i-tej obserwacji.

107 / 119

Page 126: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Prosty eksperyment

> set.seed(3)> x = rnorm(30, 1, 1)> y = 2*x + rnorm(30,0,1)> model = lm(y~x)> plot(x,y)> abline(model)

108 / 119

Page 127: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Przykład

−2 −1 0 1 2 3

−5

05

10

x

y

109 / 119

Page 128: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zadanie Programistyczne nr 16

1. Powtórzyć przeprowadzoną przeze mnie “symulację”

2. Wykreślić wykres odległości Cooka i DIFFITS

3. Zidentyfikować obserwacje wpływowe

110 / 119

Page 129: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zadanie Programistyczne nr 17

Rozważmy trzy dodatkowe zmienne o1 = (1, 10), o2 = (5, 13),o3 = (7, 2)

1. Dla każdej oi : wprowadzić oi do zbioru danych

2. Wyestymować nowy model regresji

3. Nanieść linie regresji modelu pierwotnego i modeluwyestymowanego po dodaniu obserwacji oi

4. Każdorazowo porównać odległość Cooka i DIFFITS międzymodelem pierwotnym, a wyestymowanym

Którą z obserwacji przyjmiemy za (najbardziej) wpływową?

111 / 119

Page 130: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Co dalej?

I Wiemy, że niektóre obserwacje wpływają na wartościoszacowań parametrów modelu regresji.

I Usuwanie tych obserwacji może być dośćproblematyczne/czasochłonne, niewątpliwie powinniśmy każdyprzypadek rozważyć z osobna, bądź...

I ... zmienić metodę estymacji na odporną na występowanieobserwacji odstających (rlm(MASS))

112 / 119

Page 131: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zadanie programistyczne nr 18

I Dla zbioru danych zawierających obserwację oi uznaną zanajbardziej wpływową wyestymować regresję odporną metodąrlm

I Wygenerować 30 zbiorów testowych w oparciu o “prawdziwy”model y = 2x + 3 + ε, x ∼ N (1, 2), ε ∼ N (0, 1)

I Porównać dokładność modeli wyestymowanych metodami lm()i rlm(MASS) poprzez wzięcie średniej błęduśredniokwadratowego prognozy

113 / 119

Page 132: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

I Do tej pory operowaliśmy w 2-3 wymiarach, w ten sposóbpozbywamy się części informacji zawartej w pozostałychwymiarach naszego zbioru danych.

I Główna idea: sprowadzamy N (“duże”) do 2-3 wymiarów itam aplikujemy metody, które już poznaliśmy i umiemystosować.

I Rozważymy dwa algorytmy: metodę głównych składowych(Principal Component Analysis, rotacja/algorytm liniowy) iStochastyczną Metodę Porządkowania Sąsiadów w Oparciu oRozkład t (t-Distributed Stochastic Neighbour Embedding,t-SNE)

114 / 119

Page 133: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Metody oparte o redukcję wymiaru

115 / 119

Page 134: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Opis jakościowy metody t-SNE

I przekształca powinowactwo punktów danych wprawdopodobieństwa.

I powinowactw pierwotne reprezentowane przez gaussowskieprawdopodobieństwa łączne, powinowactwo włączane jestreprezentowane przez rozkłady t Studenta.

I Ujawnianie struktur w wielu skalach na jednej mapieI Ujawnianie danych leżących w wielu różnych rozgałęzieniach

lub grupachI Ograniczenie tendencji do skupiania punktów w środku

116 / 119

Page 135: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

t-SNE, przestrzeń pierwotnaNiech x1, ..., xN będzie zbiorem wielowymiarowym (przestrzeniąpierwotną)

I Wyjdźmy od miary powinowactwa opartej o rozkład normalny:

pj|i =e−‖xi−xj‖

2

2σ2i∑

k 6=i e− ‖xi−xk‖2

2σ2i

I powinowactwo punktu xj do punktu xi jest p-stwem warunkowympj|i tego, że xi “wybrałby” xj za swojego sąsiada, gdyby sąsiedzi bylilosowani z rozkładu Gaussa wycentrowanego w xi , stąd wyznaczamypij =

pj|i+pi|j2N , pii = 0

I parametrem metody jest σi - zależne od punktu “środkowego”,zależy w nietrywialny sposób od redukcji entropii, heurystycznie -mniejsze wartości σi są używane w bardziej gęstych podzbiorachzbioru danych

I Kernel wykorzystuje odległość euklidesową ‖ · ‖ więc jest podatny naklątwę wymiarowości

117 / 119

Page 136: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

t-SNE, przestrzeń docelowaI W przestrzeni docelowej z wymiarem zredukowanym w

stosunku do przestrzeni pierwotnej mamy punkty y1, ...yNodpowiadające x1, ..., xN .

I Algorytm oblicza podobieństwa:

qij =

11+‖yi−yj‖2∑

k 6=j1

1+‖yi−yj‖2

korzystając z rozkładu Cauchy’ego (t-studenta z 1 stopniemswobody)

I Mając daną propozycję y1, ..., yd algorytm minimalizujeodległość Kullbacka-Leiblera między rozkładami zadanymiprzez pij i qij :

KL(P,Q) =∑i 6=j

pij ln

(pijqij

)

118 / 119

Page 137: Metody identyfikacji obserwacji odstającychgkoloch/pliki/Podypl/outliers.pdf · 2019-02-07 · Słynne przypadki obserwacji odstających Ciąża Długość ciąży gatunku ludzkiego

Zadanie programistyczne nr 19

1. Wczytać dane z pliku housing.csv

2. Interesują nas zmienne: LotFrontage, LotArea, TotalBsmtSF,GrLiveArea, SalePrice,

3. Proszę przeanalizować w/w zmienne pod kątem występowaniaobserwacji odstających, korelacje między zmiennymi,kwantyle, zapisać indeksy obserwacji odstających w oparciu ometody jednowymiarowe

4. Proszę zastosować na zbiorze metody prcomp(stats) itsne(tsne), redukując do dwóch wymiarów, porównaćotrzymane wyniki

5. Proszę usunąć obserwacje odstające w zbiorze uzyskanymmetodą tsne(tsne) w dwóch wymiarach stosując wybranyprzez siebie algorytm, wyniki porównać z tymi uzyskanimi wkroku 3.

119 / 119