k-NN i jego rozszerzeniaszczuka/mme/wyklad9.pdf · •First •Prev •Next •Last •Go Back...

19
First Prev Next Last Go Back Full Screen Close Quit Konwersatorium – Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych Alorytmy klasyfikujące w oparciu o przyklady k -NN i jego rozszerzenia Wyklad 9 Marcin Szczuka http://www.mimuw.edu.pl/szczuka/mme/

Transcript of k-NN i jego rozszerzeniaszczuka/mme/wyklad9.pdf · •First •Prev •Next •Last •Go Back...

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Konwersatorium – Matematyczne Metody Ekonomiinarzędzia matematyczne w eksploracji danych

Alorytmy klasyfikującew oparciu o przykładyk-NN i jego rozszerzenia

Wykład 9Marcin Szczuka

http://www.mimuw.edu.pl/∼szczuka/mme/

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Dobry sąsiad to bezcenny skarb.

przysłowie chińskie

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Plan wykładu

• Klasyfikacja oparta na podobieństwie.• Algorytm k-NN.• Usprawnienia k-NN.• Aproksymacja funkcji z k-NN.

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Notacja

T zbiór etykietowanych przykładów treningowych.Delta Cronecker’a δ(a, b) = 1 iff a = b, 0 wpp.d(x, y) - odległość między obiektami.c(x) wartość decyzji dla x ze zbioru Vc.

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

k− Nearest Neighbors

Odległość euklidesowa jest najczęściej, choć nie za-wsze słusznie, stosowana. Dla przykładów x, y

d(x, y) =√√√√√√ n∑i=1(ai(x)− ai(y))2

Zakładamy (na razie), że decyzja jest dyskretna.

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Algorytm k-NN

k-NN(T, k, x∗)NN := {x1, . . . , xk} = argminkx∈T d(x, x∗);c(x∗) := argmaxv∈Vc

∑ki=1 δ(v, c(xi));

return c(x∗);

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Dyskusja nad prostym k-NN

• Gdy ustalimy sąsiadów przestajemy dbać o od-ległość, co jest potencjalnie groźne.

•Wszystkie atrybuty traktujemy jednakowo.• Rozmiar k sąsiedztwa musi być znany.

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Rozszerzenia k-NN

• k-NN z wagami odległościowymi.• Odległość z wagami.• k-NN w predykcji numerycznej.

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

k-NN z wagami odległościowymi

Przy poprzednich oznaczeniach:

c(x∗) := arg maxv∈Vc

k∑i=1wiδ(v, c(xi))

gdzie

wi =1

d(x∗, xi)2

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Odległość z wagami

d(x, y) =√√√√√√ n∑i=1ui(ai(x)− ai(y))2

Jeden ze sposobów ustalania wagi:

ui =1

(maxx∈T ai(x)−minx∈T ai(x))2

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

k-NN w aproksymacji funkcji

Załóżmy, że mamy zbiór T etykietowanych przykła-dów postaci 〈x, f (x)〉 dla pewnej nieznanej funk-cji f (.). Chcemy wyznaczyć (przybliżyć) wartośćf̂ (x∗) dla poprzednio nie obserwowanego argu-mentu x∗. W najprostszym przypadku:

f̂ (x∗) =∑ki=1 f (xi)k

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Aproksymacja funkcji z wykorzystaniemodległości

Przy poprzednich oznaczeniach:

f̂ (x∗) =∑ki=1wif (xi)∑ki=1wi

Zauważmy, że ta metoda łatwo uogólnia się do me-tody globalnej, jeśli przyjmiemy k = |T |.

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Podsumowanie k-NN

• Prosty pomysł i implementacja.• Dwa biegunowo różne typy wyników.• Najprostsza z lokalnych metod aproksymacji.•Wiele ogólniejszych metod używa podobnychpodejść np. lokalna ważona regresja liniowa.

• Dla dużych i skomplikowanych danych koniecznesą usprawnienia w implementacji.