Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Post on 16-Jan-2016

41 views 0 download

description

projekt KBN 4 T11C 026 25 (okres realizacji XI.2003- XI.2005. Mapy i inteligentna nawigacja w sieci WWW z wykorzystaniem sieci bayesowskich i systemów immunologicznych. Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy: prof. dr hab. inż. Slawomir T. Wierzchon , - PowerPoint PPT Presentation

Transcript of Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Mapy i inteligentna nawigacja w sieci WWW z Mapy i inteligentna nawigacja w sieci WWW z wykorzystaniem sieci bayesowskich i systemów wykorzystaniem sieci bayesowskich i systemów

immunologicznych immunologicznych Kierownik: dr hab. inż.Mieczyslaw A. KlopotekWykonawcy: prof. dr hab. inż. Slawomir T. Wierzchon ,mgr inż. Krzysztof Ciesielski mgr inż. Michal Draminski, Instytut Podstaw Informatyki PAN, Warszawamgr Mariusz KujawiakInstytut Informatyki Akademii Podlaskiej , Siedlce dr inż. Marcin SydowPolsko-Japońska Wyższa Szkoła Technik Komputerowych, Warszawa

Research partially supported by the KBN research project 4 T11C 026 25 "Maps and intelligent navigation in WWW using

Bayesian networks and artificial immune systems"

projekt KBN 4 T11C 026 25 (okres realizacji XI.2003- XI.2005

Agenda

Cel projektu Pojęcie mapy dokumentu Proces tworzenia mapy Architektura systemu Problematyka klasteryzacji w

mapach dokumentów Wyniki niektórych

eksperymentów Co przed nami ....

Cel projektu

Celem projektu jest stworzenie narzędzi do wspomagania zadania eksploracji pełnotekstowych baz dokumentów poprzez stworzenie nawigacyjnej mapy dokumentów, na której bliskość geometryczna na mapie odzwierciedlałaby bliskość koncepcyjną dokumentów, a trzeci wymiar byłby wykorzystywany do odzwierciedlenia gęstości dokumentów

Koncepcja mapy dokumentów

Wizualizacja zbioru dokumentów na płaszczyźnie Wiele podejść (inxight, internet cartographer,

WEbSOM i warianty) Idea WebSOM

– bliskość na mapie = bliskość w przestrzeni dokumentów

– Obszary mapy etykietowane informatywnie– Trzeci wymiar – odmienność w stosunku do

otoczenia Nasze podejście bazuje na idei WebSOM

– Trzeci wymiar – gęstość dokumentów

Trójwymiarowe wizualizacje map (BEATCA)

W planach: hypergeometryczne reprezentacje (Fish-Eye Effect)

Proces tworzenia mapy(bez etykietowania)

Zbiór dokumentów

Punkty w przestrzeni dokumentów

Grupy w przestrzeni dokumentów

Mapa doklumentów

WebSOM – model przestrzeni

dokumentów W tzw. Modelu

wektorowym dokument jest punktem w przestrzeni rozpiętej przez termy – o współrzędnych odpowiadających częstosci tych termów

dogfood

walk

My dog likes this food

When walking, I take some food

Przestrzeń dokumentów a zapytania w wyszukiwarce

Relewantność dokumentu do kwerendy mierzy się kosinusem kąta między kwerendą a dokumentem

dogfood

walk

Query: walk

WebSOM – specyficzna klasteryzacja dokumentów

Document space 2D map

mxr

Mocna zmiana położenia (gruba

strzałka)

Important difference to general clustering: not only clusters with similar documents, but also neighboring clusters similar

Każda komórka mapy ma swój wektore ferencyjny

Wady WebSOM

Wysoka złożoność obliczeniowa Niestabilność (mapy różnią się dla tych

samych dokumentów)

Nasza modyfikacja Reprezentacja w postaci kompaktowych wektorów

referencyjnych Inicjalizacja ogólnymi tematami Łączona metoda szukania zwycięzcy Mapy wielopozuiomowe Wielofazowa klasteryzacja

– Początkowa klasteryzacja – identyfikacja głównych tematów

– Wstępne grupowanie dokumentów – WEBSOM dla grup dokumentów – Rozmyte grupowanie komórek WebSOM i

etykietowanie

Reprezentacja w postaci kompaktowych wektorów

referencyjnych Wektory referencyjne komórek mapy są rzadkie Podczas uczenia stają się jeszcze rzadsze Reprezenntowane przez zrównoważone drzewa

„red-black tree” Zadano próg tolerancji Termy (wymiary) poniżej progu są usuwane Zdecydowanie zmniejszono złozoność bez

pogorszenia jakości

Inicjalizacja tematyczna wektorów referencyjnych

Zamiast WebSOMowej losowej Identyfikacja K głównych tematów (i ich opisów)

– Użycie LSI, lub – Naiwnej sieci bayesowskiej lub– PLSA – niestety nie rekomendujemy

Wybór K punktów na mapie jako tyzw. „punktów fiksowych poszczególnych tematów

Inicjalizacja punktów fiksowych tematami głównymi Pozostałe komórki inicjalizujemy wektorami

„pośrednimi”

Klasteryzacja wstępna dokumentów

Metoda – gazu neuronowego lub – gazu neuronowego z funkcją użyteczności lub– sieci immunologicznej (przyszłe badania)– sieci bayesowskiej (przyszłe badania)

Łączone poszukiwanie zwycięzcy na mapie typu WebSOM

Globalne poszukiwanie – dokładne, lecz wolne Lokalne przeszukiwanie – szybsze, lecz może

być niedokładne dla szybkich zmian rozkładu Start – jedna faza poszukiwań globalnych Ruchy dokumentów coraz płynniejsze – lokalne

poszukiwanie wystarcza Nawrót globalnego przeszukiwania w wypadku

nagłych przemieszczeń (outliery, zmnmiejszenie promienia otoczenia)

Mapy hierarchiczne Bottom-up approach Feasible (with joint

winner search method)

Start with most detailed map

Compute weighted centroids of map areas

Use them as seeds for coarser map

Top-down approach is possible but requires fixpoints

21-28

Klasteryzacja grup dokumentów (komórek do obszarów)

Tradycyjne metody zawodne:– Skrajnie rozmyta struktura tematyczna SOM – Podobieństwo w oryginalnej przestrzeni i na mapie koniecznie

zachowane – Problemy outrlierów – Brak estymacji liczby grup apriori

Zastosowano Fuzzy C-MEANS na kracie komórek Połączenie rozmytego grupowania z podejściem grafowym

(MST gęstości i odległości) Sjklastrowane dokumenty etykietowane ważonymi

centroidami wektorów referencyjnych komórek skalowanymi entropią międzygrupową

........

INTERNET

DBREGISTRY

HT-Base

HT-Base

VEC-BaseMAP-Base

DocGR-Base

Search Engine

Indexing +Optimizing

SpiderDownloading

MappingClustering

of docs

........

CellGR-Base

Clusteringof cells

........

........ ........ ........

Processing Flow Diagram - BEATCA

Architektura systemu

Eksperymenty ze zbieżnością map

Badano zbieżność do stabilnego stanu mapy w zależności od – Typu funkcji alpha (tempo redukcji promienia

poszukiwań) – Typu metody szukankia zwycięzcy

Zbieżność – funkcje alpha (liniowa kontra odwrotnie proporcjonalna)

Zbieżność – poszukiwanie zwycięzcy (łączne kontra lokalne)

Eksperymenty z czasem wykonania

Czynniki badane– Rozmiar mapy (całkowita liczba komórek) – Metoda optymalizacji słownika

• dictionary optimization

• reference vector representation

Execution time - map size

Execution time - optimizations

Dalsze badania

Implementacja kolejnych metod klasteryzacji

Implementacja koncepcji przyrostowego konstruowania map

Budowa efektywnego pająka Badania porównawcze szybkości i jakości

generowanych na różnych ścieżkach

Dziękuję.Czy są pytania?Dziękuję.Czy są pytania?