Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

28
Mapy i inteligentna nawigacja w Mapy i inteligentna nawigacja w sieci WWW z wykorzystaniem sieci sieci WWW z wykorzystaniem sieci bayesowskich i systemów bayesowskich i systemów immunologicznych immunologicznych Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy: prof. dr hab. inż. Slawomir T. Wierzchon , mgr inż. Krzysztof Ciesielski mgr inż. Michal Draminski, Instytut Podstaw Informatyki PAN, Warszawa mgr Mariusz Kujawiak Instytut Informatyki Akademii Podlaskiej , Siedlce dr inż. Marcin Sydow Polsko-Japońska Wyższa Szkoła Technik Komputerowych, Warszawa Research partially supported by the KBN research project 4 T11C 026 25 "Maps and intelligent navigation in WWW using Bayesian networks and artificial immune systems" projekt KBN 4 T11C 026 25 (okres realizacji XI.2003- XI.2005

description

projekt KBN 4 T11C 026 25 (okres realizacji XI.2003- XI.2005. Mapy i inteligentna nawigacja w sieci WWW z wykorzystaniem sieci bayesowskich i systemów immunologicznych. Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy: prof. dr hab. inż. Slawomir T. Wierzchon , - PowerPoint PPT Presentation

Transcript of Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Page 1: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Mapy i inteligentna nawigacja w sieci WWW z Mapy i inteligentna nawigacja w sieci WWW z wykorzystaniem sieci bayesowskich i systemów wykorzystaniem sieci bayesowskich i systemów

immunologicznych immunologicznych Kierownik: dr hab. inż.Mieczyslaw A. KlopotekWykonawcy: prof. dr hab. inż. Slawomir T. Wierzchon ,mgr inż. Krzysztof Ciesielski mgr inż. Michal Draminski, Instytut Podstaw Informatyki PAN, Warszawamgr Mariusz KujawiakInstytut Informatyki Akademii Podlaskiej , Siedlce dr inż. Marcin SydowPolsko-Japońska Wyższa Szkoła Technik Komputerowych, Warszawa

Research partially supported by the KBN research project 4 T11C 026 25 "Maps and intelligent navigation in WWW using

Bayesian networks and artificial immune systems"

projekt KBN 4 T11C 026 25 (okres realizacji XI.2003- XI.2005

Page 2: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Agenda

Cel projektu Pojęcie mapy dokumentu Proces tworzenia mapy Architektura systemu Problematyka klasteryzacji w

mapach dokumentów Wyniki niektórych

eksperymentów Co przed nami ....

Page 3: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Cel projektu

Celem projektu jest stworzenie narzędzi do wspomagania zadania eksploracji pełnotekstowych baz dokumentów poprzez stworzenie nawigacyjnej mapy dokumentów, na której bliskość geometryczna na mapie odzwierciedlałaby bliskość koncepcyjną dokumentów, a trzeci wymiar byłby wykorzystywany do odzwierciedlenia gęstości dokumentów

Page 4: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Koncepcja mapy dokumentów

Wizualizacja zbioru dokumentów na płaszczyźnie Wiele podejść (inxight, internet cartographer,

WEbSOM i warianty) Idea WebSOM

– bliskość na mapie = bliskość w przestrzeni dokumentów

– Obszary mapy etykietowane informatywnie– Trzeci wymiar – odmienność w stosunku do

otoczenia Nasze podejście bazuje na idei WebSOM

– Trzeci wymiar – gęstość dokumentów

Page 6: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Trójwymiarowe wizualizacje map (BEATCA)

Page 7: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

W planach: hypergeometryczne reprezentacje (Fish-Eye Effect)

Page 8: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Proces tworzenia mapy(bez etykietowania)

Zbiór dokumentów

Punkty w przestrzeni dokumentów

Grupy w przestrzeni dokumentów

Mapa doklumentów

Page 9: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

WebSOM – model przestrzeni

dokumentów W tzw. Modelu

wektorowym dokument jest punktem w przestrzeni rozpiętej przez termy – o współrzędnych odpowiadających częstosci tych termów

dogfood

walk

My dog likes this food

When walking, I take some food

Page 10: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Przestrzeń dokumentów a zapytania w wyszukiwarce

Relewantność dokumentu do kwerendy mierzy się kosinusem kąta między kwerendą a dokumentem

dogfood

walk

Query: walk

Page 11: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

WebSOM – specyficzna klasteryzacja dokumentów

Document space 2D map

mxr

Mocna zmiana położenia (gruba

strzałka)

Important difference to general clustering: not only clusters with similar documents, but also neighboring clusters similar

Każda komórka mapy ma swój wektore ferencyjny

Page 12: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Wady WebSOM

Wysoka złożoność obliczeniowa Niestabilność (mapy różnią się dla tych

samych dokumentów)

Page 13: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Nasza modyfikacja Reprezentacja w postaci kompaktowych wektorów

referencyjnych Inicjalizacja ogólnymi tematami Łączona metoda szukania zwycięzcy Mapy wielopozuiomowe Wielofazowa klasteryzacja

– Początkowa klasteryzacja – identyfikacja głównych tematów

– Wstępne grupowanie dokumentów – WEBSOM dla grup dokumentów – Rozmyte grupowanie komórek WebSOM i

etykietowanie

Page 14: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Reprezentacja w postaci kompaktowych wektorów

referencyjnych Wektory referencyjne komórek mapy są rzadkie Podczas uczenia stają się jeszcze rzadsze Reprezenntowane przez zrównoważone drzewa

„red-black tree” Zadano próg tolerancji Termy (wymiary) poniżej progu są usuwane Zdecydowanie zmniejszono złozoność bez

pogorszenia jakości

Page 15: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Inicjalizacja tematyczna wektorów referencyjnych

Zamiast WebSOMowej losowej Identyfikacja K głównych tematów (i ich opisów)

– Użycie LSI, lub – Naiwnej sieci bayesowskiej lub– PLSA – niestety nie rekomendujemy

Wybór K punktów na mapie jako tyzw. „punktów fiksowych poszczególnych tematów

Inicjalizacja punktów fiksowych tematami głównymi Pozostałe komórki inicjalizujemy wektorami

„pośrednimi”

Page 16: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Klasteryzacja wstępna dokumentów

Metoda – gazu neuronowego lub – gazu neuronowego z funkcją użyteczności lub– sieci immunologicznej (przyszłe badania)– sieci bayesowskiej (przyszłe badania)

Page 17: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Łączone poszukiwanie zwycięzcy na mapie typu WebSOM

Globalne poszukiwanie – dokładne, lecz wolne Lokalne przeszukiwanie – szybsze, lecz może

być niedokładne dla szybkich zmian rozkładu Start – jedna faza poszukiwań globalnych Ruchy dokumentów coraz płynniejsze – lokalne

poszukiwanie wystarcza Nawrót globalnego przeszukiwania w wypadku

nagłych przemieszczeń (outliery, zmnmiejszenie promienia otoczenia)

Page 18: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Mapy hierarchiczne Bottom-up approach Feasible (with joint

winner search method)

Start with most detailed map

Compute weighted centroids of map areas

Use them as seeds for coarser map

Top-down approach is possible but requires fixpoints

21-28

Page 19: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Klasteryzacja grup dokumentów (komórek do obszarów)

Tradycyjne metody zawodne:– Skrajnie rozmyta struktura tematyczna SOM – Podobieństwo w oryginalnej przestrzeni i na mapie koniecznie

zachowane – Problemy outrlierów – Brak estymacji liczby grup apriori

Zastosowano Fuzzy C-MEANS na kracie komórek Połączenie rozmytego grupowania z podejściem grafowym

(MST gęstości i odległości) Sjklastrowane dokumenty etykietowane ważonymi

centroidami wektorów referencyjnych komórek skalowanymi entropią międzygrupową

Page 20: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

........

INTERNET

DBREGISTRY

HT-Base

HT-Base

VEC-BaseMAP-Base

DocGR-Base

Search Engine

Indexing +Optimizing

SpiderDownloading

MappingClustering

of docs

........

CellGR-Base

Clusteringof cells

........

........ ........ ........

Processing Flow Diagram - BEATCA

Architektura systemu

Page 21: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Eksperymenty ze zbieżnością map

Badano zbieżność do stabilnego stanu mapy w zależności od – Typu funkcji alpha (tempo redukcji promienia

poszukiwań) – Typu metody szukankia zwycięzcy

Page 22: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Zbieżność – funkcje alpha (liniowa kontra odwrotnie proporcjonalna)

Page 23: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Zbieżność – poszukiwanie zwycięzcy (łączne kontra lokalne)

Page 24: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Eksperymenty z czasem wykonania

Czynniki badane– Rozmiar mapy (całkowita liczba komórek) – Metoda optymalizacji słownika

• dictionary optimization

• reference vector representation

Page 25: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Execution time - map size

Page 26: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Execution time - optimizations

Page 27: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Dalsze badania

Implementacja kolejnych metod klasteryzacji

Implementacja koncepcji przyrostowego konstruowania map

Budowa efektywnego pająka Badania porównawcze szybkości i jakości

generowanych na różnych ścieżkach

Page 28: Kierownik:   dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Dziękuję.Czy są pytania?Dziękuję.Czy są pytania?