Wprowadzenie do budowy usług informacyjnych

31
Wprowadzenie do budowy usług informacyjnych W. Bartkiewicz Wykład 8. Wyszukiwanie w Internecie

description

Uniwersytet Łódzki Katedra Informatyki. W. Bartkiewicz. Wprowadzenie do budowy usług informacyjnych. Wykład 8. Wyszukiwanie w Internecie. Katedra Informatyki. The Web. WWW i IR - wyzwania. Struktura WWW. Rozproszenie danych na milionach serwerów. - PowerPoint PPT Presentation

Transcript of Wprowadzenie do budowy usług informacyjnych

Page 1: Wprowadzenie do budowy usług informacyjnych

Wprowadzenie do budowy usług informacyjnych

W. Bartkiewicz

Wykład 8. Wyszukiwanie w Internecie

Page 2: Wprowadzenie do budowy usług informacyjnych

WWW i IR - wyzwania• Struktura WWW.

– Rozproszenie danych na milionach serwerów.– Brak koordynacji i uporządkowania struktury sieci.– Nieustanny wzrost – dynamiczny charakter:

„objętość podwaja się niemal co kilka miesięcy”.– Ulotny charakter danych – wiele dokumentów

zmienia się nagle lub znika (np. martwe linki).

• Olbrzymi rozmiar danych. – Miliardy różnych dokumentów.– Dokumenty powtarzają się (lub prawie powtarzają).

• Charakter danych.– Dane różnorodne. W większości niestrukturalne

(tekst, HTML), półstrukturalne (XML, opisane multimedia), strukturalne (bazy danych).

– Niejednorodność danych (tekst, multimedia, dokumenty PDF, DOC ..., różne języki, zbiory znaków.

The Web

Page 3: Wprowadzenie do budowy usług informacyjnych

WWW i IR - wyzwania

• Jakość danych.– Rozproszony charakter generowania zawartości, jej

łączenia, demokratyzacja publikacji.

– Brak kontroli edytorskiej, informacja prawdziwa i fałszywa, czasem sprzeczna.

– Możliwa słaba jakość języka, wyglądu, rysunków.

The Web

Page 4: Wprowadzenie do budowy usług informacyjnych

Struktura wyszukiwarki

W W W

Indeksy dodatkowe

Web Results 1 - 10 of about 7,310,000 for miele. (0.12 seconds)

Miele, Inc -- Anything else is a compromise At the heart of your home, Appliances by Miele. ... USA. to miele.com. Residential Appliances. Vacuum Cleaners. Dishwashers. Cooking Appliances. Steam Oven. Coffee System ... www.miele.com/ - 20k - Cached - Similar pages

Miele Welcome to Miele, the home of the very best appliances and kitchens in the world. www.miele.co.uk/ - 3k - Cached - Similar pages

Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten ... - [ Translate this page ] Das Portal zum Thema Essen & Geniessen online unter www.zu-tisch.de. Miele weltweit ...ein Leben lang. ... Wählen Sie die Miele Vertretung Ihres Landes. www.miele.de/ - 10k - Cached - Similar pages

Herzlich willkommen bei Miele Österreich - [ Translate this page ] Herzlich willkommen bei Miele Österreich Wenn Sie nicht automatisch weitergeleitet werden, klicken Sie bitte hier! HAUSHALTSGERÄTE ... www.miele.at/ - 3k - Cached - Similar pages

Sponsored Links

CG Appliance Express Discount Appliances (650) 756-3931 Same Day Certified Installation www.cgappliance.com San Francisco-Oakland-San Jose, CA Miele Vacuum Cleaners Miele Vacuums- Complete Selection Free Shipping! www.vacuums.com Miele Vacuum Cleaners Miele-Free Air shipping! All models. Helpful advice. www.best-vacuum.com

Pająk (crawler)

Indeksator

Indeksy

Search

Użytkownik

Page 5: Wprowadzenie do budowy usług informacyjnych

Pozycjonowanie stron i spam• Pozycjonowanie stron w wyszukiwarkach (Search Engine Optimization):

– „Dostrajanie” strony tak by dla wybranych słów kluczowych pojawiała się wysoko w rankingach wyszukiwania.

– Alternatywa do płatnego reklamowania się na popularnych stronach.

• Wykonywane zawodowo przez przedsiębiorstwa, webmasterów i konsultantów dla ich klientów.– Czasami doskonale uprawnione, czasami bardzo wątpliwe.

• Standardowe techniki: – Wielokrotne powtarzanie wybranych słów kluczowych w dokumencie.

Są one indeksowane przez crawlery, tak wiec strona uzyskuje wysoką wartość tf*idf dla danego słowa kluczowego.

– Dodawanie wielu słów kluczowych, nie związanych z treścią strony.Dzięki temu strona pojawia się w wynikach wielu zapytań.

• Słowa kluczowe dodawane są tak by nie były one widoczne dla przeglądającego go użytkownika (ukrywanie w metadanych, tekst w kolorze tła, sztuczki ze stylami, itp.).

Page 6: Wprowadzenie do budowy usług informacyjnych

Inne techniki spamowania• Inne techniki spamowania zawartości:

– Cloaking – podstawianie pająkowi wyszukiwarki fałszywej zawartości (innej niż użytkownikowi).

– Strony-drzwi – strony zoptymalizowane na określone słowo kluczowe, które przekierowują użytkownika do właściwej strony.

• Wyszukiwarki internetowe nie mogą polegać wyłącznie na słowach kluczowych.– Dla wyeliminowania spamu (między innymi) wyszukiwarki wykorzystują

również informacje o łączach prowadzących do danej strony i z niej wychodzących.

– Pozwala to na określenie tzw. prestiżu (reputacji) danej strony.

• Spamowanie łączy jest dużo trudniejsze niż spamowanie zawartości.– Tworzenie ukrytych łączy wychodzących do stron o dużym autorytecie (np.

poprzez skopiowanie części jednego z popularnych katalogów sieciowych).– Tworzenie grup (społeczności) ważnych stron z użyteczną dla użytkownika

informacją, zawierających łącza (często ukryte) do docelowych stron ze spamem.

Page 7: Wprowadzenie do budowy usług informacyjnych

Inne techniki spamowania

• Spamowanie łączy (c.d.):– Tworzenie grup (społeczności) stron z użyteczną dla użytkownika

informacją (np. glosariusze terminów z popularnych dziedzin, FAQ, strony z pomocą, itp.), zawierających łącza (zazwyczaj ukryte) do docelowych stron ze spamem. Ponieważ zawierają one istotne informacje, łącza do nich są często dodawane do stron użytkowników.

– Dodawanie łączy do stron ze spamem do katalogów webowych.

– Wysyłanie łączy do darmowych serwerów z treścią generowaną przez użytkowników (forów dyskusyjnych, blogów, itp.).

– Uczestnictwo w wymianie łączy. Spamerzy łączą się w grupy, tak by strony na ich serwerach wskazywały się wzajemnie.

– Tworzenie farm spamu. Jeśli spamer kontroluje większą liczbę serwerów, może utworzyć całą struktura łączy, zwiększającą prestiż spamowanych stron docelowych.

Page 8: Wprowadzenie do budowy usług informacyjnych

Inne techniki spamowania

• Spamowanie łączy (c.d.):– Tworzenie grup (społeczności) stron z użyteczną dla użytkownika

informacją (np. glosariusze terminów z popularnych dziedzin, FAQ, strony z pomocą, itp.), zawierających łącza (zazwyczaj ukryte) do docelowych stron ze spamem. Ponieważ zawierają one istotne informacje, łącza do nich są często dodawane do stron użytkowników.

– Dodawanie łączy do stron ze spamem do katalogów webowych.

– Wysyłanie łączy do darmowych serwerów z treścią generowaną przez użytkowników (forów dyskusyjnych, blogów, itp.).

– Uczestnictwo w wymianie łączy. Spamerzy łączą się w grupy, tak by strony na ich serwerach wskazywały się wzajemnie.

– Tworzenie farm spamu. Jeśli spamer kontroluje większą liczbę serwerów, może utworzyć całą struktura łączy, zwiększającą prestiż spamowanych stron docelowych.

Page 9: Wprowadzenie do budowy usług informacyjnych

Wykorzystanie tekstu łącza

Strona Ahiperłącze Strona BKotwica

• Założenia:– Łącze między stronami opisuje postrzegany przez autora związek

tematyczny między nimi.

– Tekst wykorzystany w zakotwiczeniu łącza opisuje stronę docelową.

• Podczas indeksowania dokumentu D, wykorzystujemy również teksty zakotwiczeń łączy prowadzących do dokumentu D w innych dokumentach.

Page 10: Wprowadzenie do budowy usług informacyjnych

Analiza łączy

Page 11: Wprowadzenie do budowy usług informacyjnych

Analiza sieci społecznej• WWW jest siecią społeczną, tzn. siecią podmiotów społecznych (osób i

organizacji), wykorzystujących ją do różnego rodzaju komunikacji i oddziaływania.– Poszczególne strony WWW reprezentują podmioty (aktorów społecznych),

zaś łącza między nimi reprezentują interakcje i związki między podmiotami.– Wiele koncepcji, pochodzących z dziedziny analizy sieci społecznych może

być zaadaptowanych i wykorzystanych w kontekście WWW.

• Podstawowymi pojęciami w sieci społecznej są popularność, autorytet i prestiż.– Miary popularności, autorytetu i prestiżu mogą być wykorzystane do

rankingowania stron WWW, znalezionych przez wyszukiwarkę.– Idea polega na przypisaniu każdej stronie rangi niezależnej od jej zawartości

(tj. słów kluczowych), i opartej wyłącznie na strukturze powiązań hipertekstowych.

– Ranga ta wykorzystana może być do uporządkowania stron wyszukanych w odpowiedzi na zapytanie oparte na słowach kluczowych.

– W praktyce zazwyczaj stosuje się kombinacje rankingu opartego na treści i łączach.

Page 12: Wprowadzenie do budowy usług informacyjnych

Analiza sieci społecznej

• Dwa najważniejsze algorytmy rankingowania stron webowych: PageRank i HITS, opierają się na pojęciu prestiżu w sieci społecznej.– Analiza i wyznaczanie miar prestiżu opiera się na bibliometrii, nauce

wykorzystywanej w bibliotekoznawstwie i systemach informacyjnych m.in. do określania wartości publikacji naukowych.

• Wpływ publikacji naukowej określany jest przez liczbę publikacji, które ja cytują oraz ich prestiż.– Ranga prestiżu strony WWW określana więc będzie przez liczbę łączy

wejściowych (prowadzących do) strony, oraz rekursywnie prestiż stron na których te łącza zostały umieszczone.

• Niech A będzie macierzą powiązań między dokumentami w grafie cytowania, tzn. element A(u, v) = 1 jeśli dokument u cytuje dokument v, oraz A(u, v) = 0 w przeciwnym przypadku.

Page 13: Wprowadzenie do budowy usług informacyjnych

Analiza sieci społecznej

a

bc

001

100

110

A

• Każdy węzeł u ma wartość prestiżu p(u), określoną jako sumę miar prestiżu węzłów, które cytują u, tj.:

p(u) = v A(v, u)p(v)

• Używając notacji macierzowej, miary prestiżu p(u) dla wszystkich dokumentów u, mogą być zapisane jako wektor kolumnowy P. Dla danego wstępnego wektora prestiżu P, nowy wektor prestiżu P' zapisać możemy jako:

P' = ATP

Page 14: Wprowadzenie do budowy usług informacyjnych

Analiza sieci społecznej

• Podstawienie P' do P i rekurencyjne powtarzanie wyznaczania wektora prestiżu prowadzi do wyznaczenia punktu stałego dla P, będącego rozwiązaniem układu równań:

P = ATP

• Rozwiązanie tego równania określane jest w algebrze macierzowej rozkładem własnym macierzy. Generalnie dla macierzy o wymiarach nn istnieje n takich wektorów, nazywanych wektorami własnymi macierzy. Z każdym z nich związana jest inna wartość stałe , nazywanej wartością własną.

• Spośród wszystkich wektorów własnych macierzy zainteresowani jesteśmy znalezieniem dominującego (lub podstawowego) wektora własnego, związanego z największą wartością własną.

Page 15: Wprowadzenie do budowy usług informacyjnych

Analiza sieci społecznej

a0,548

b0,414

c0,726

011

001

100

001

100

110TAA

• Dla naszego przykładu rozwiązaniem układu równań P = ATP, jest największa wartość własna = 1,325 i wektor własny P = (0,548, 0,414, 0,726)T.

• Rozwiązanie to dobrze ilustruje intuicje stojącą za rekursywną definicją prestiżu. – Dokument c otrzymał najwyższą wartość, ponieważ ma dwa cytowania. – Natomiast a i b mają niższe wartości, ponieważ cytowane są tylko raz. – Dokument a otrzymał wyższą wartość niż b, ponieważ jest cytowany przez

dokument c, o wyższym prestiżu.

726,0

414,0

548,0

011

001

100

726,0

414,0

548,0

325,1

Page 16: Wprowadzenie do budowy usług informacyjnych

Analiza sieci społecznej• Algorytmy obliczania wartości i wektorów własnych macierzy stanowią

standardowy element w zasadzie wszystkich poważnych pakietów numerycznych.

• Ponieważ jednak nie interesuje nas wyznaczenie wszystkich wektorów własnych, a jedynie podstawowego, w praktyce do jego obliczenia stosuje się prosty algorytm oparty na tzw. metodzie iteracji potęgowej:

P P0

powtarzajQ PP ATQP P / ||P|| (normalizacja P)

dopóki ||P – Q|| >

• Dla dowolnej wartości początkowej P0, algorytm zbieżny jest do wektora własnego związanego z największą wartością własną. Wektor własny jest znormalizowany (tj. ||P|| = 1) i wartość własna równa jest długości wektora = ||ATP||.

Page 17: Wprowadzenie do budowy usług informacyjnych

LP Eps 1 1 1 W. wł1 0,85675 0,408 0,408 0,816 1 1 2 2,4492 0,30796 0,667 0,333 0,667 0,816 0,408 0,816 1,2253 0,24437 0,485 0,485 0,728 0,667 0,667 1 1,3744 0,13542 0,557 0,371 0,743 0,728 0,485 0,97 1,3065 0,06436 0,566 0,424 0,707 0,743 0,557 0,928 1,3136 0,04946 0,527 0,422 0,738 0,707 0,566 0,99 1,3427 0,04318 0,562 0,402 0,723 0,738 0,527 0,949 1,3128 0,0283 0,544 0,423 0,725 0,723 0,562 0,964 1,339 0,01377 0,547 0,41 0,73 0,725 0,544 0,967 1,325

10 0,00786 0,552 0,414 0,724 0,73 0,547 0,958 1,32211 0,00722 0,546 0,416 0,728 0,724 0,552 0,966 1,32712 0,00545 0,55 0,412 0,726 0,728 0,546 0,961 1,32313 0,00301 0,548 0,415 0,726 0,726 0,55 0,962 1,32514 0,00143 0,548 0,414 0,727 0,726 0,548 0,963 1,32515 0,00114 0,549 0,414 0,726 0,727 0,548 0,962 1,32416 0,00098 0,548 0,414 0,727 0,726 0,549 0,963 1,32517 0,00063 0,549 0,414 0,727 0,727 0,548 0,962 1,32518 0,0003 0,548 0,414 0,726 0,727 0,549 0,962 1,32519 0,00018 0,548 0,414 0,727 0,726 0,548 0,963 1,32520 0,00017 0,548 0,414 0,726 0,727 0,548 0,962 1,325

Page 18: Wprowadzenie do budowy usług informacyjnych

PageRank• PageRank jest metodą generowania rankingu stron a wykorzystaniem

struktury ich połączeń hipertekstowych, stosowaną w wyszukiwarce Google.– W powiązaniu z opisanymi wyżej metodami analizy sieci społecznej

próbuje on określać prawdopodobne ścieżki, po których Użytkownicy Internetu poruszają się między stronami.

• PageRank korzysta z metafory „losowego surfera”, klikającego na hiperłącza w losowy sposób z jednostajnym rozkładem prawdopodobieństwa, wykonując w ten sposób błądzenie losowe po grafie WWW.– Obok informacji o łączach wejściowych (prowadzących do strony),

PageRank wykorzystuje również informację o łączach wyjściowych.– Załóżmy, że strona u zawiera łącza do Nu stron i jedną z nich jest strona v.– Jeśli więc surfer jest na stronie u, prawdopodobieństwo odwiedzenia strony

v wynosi więc 1/Nu.– Strona v powinna więc otrzymywać od u jedynie 1/Nu jej prestiżu.

Page 19: Wprowadzenie do budowy usług informacyjnych

Idea PageRank-u

.1

.09

.05

.05

.03

.03

.03

.08

.08

.03

Propagacja prestiżu strony w PageRank

Page 20: Wprowadzenie do budowy usług informacyjnych

Podstawowy algorytm PageRank

• Współczynnik PgeRank określający prestiż strony obliczany jest więc w następujący sposób:

gdzie A jest binarną macierzą połączeń między stronami w grafie webowym, zdefiniowaną identycznie jak poprzednio, Nv jest tzw. stopniem wyjściowym strony v, czyli liczbą łączy wychodzących z tej strony, tj. Nv = wA(v, w).

– Jak więc widzimy zasadniczo jest to ta sama zależność, która wykorzystywana była do obliczenia prestiżu w sieci społecznej.

• Abyśmy mogli korzystać z przedstawionego wcześniej algorytmu, niezbędne jest tylko redefinicja macierzy A. Zamiast wartości binarnych (0 i 1) musimy wprowadzić wagi połączeń między stronami równe 1/ Nu.

– Dzielimy każdy wyraz binarnej macierzy A przez sumę wyrazów wierszu.

v vN

vRuvuR

)(),()(

A

Page 21: Wprowadzenie do budowy usług informacyjnych

Podstawowy algorytm PageRank

a

bc

001

100

110

A

001

100

5,05,00

A

a0,4

b0,2

c0,4

• Równanie wyznaczające PageRank jest takie samo jak w przypadku prestiżu (tj. P = ATP) i jego rozwiązaniem jest wektor własny macierzy AT dla wartości własnej = 1.

4,0

2,0

4,0

015,0

005,0

100

4,0

2,0

4,0

Page 22: Wprowadzenie do budowy usług informacyjnych

Podstawowy algorytm PageRank

• Powyższe rozwiązanie wyznaczone zostało algorytmem iteracji potęgowej, dla normy L1 (||X||1 = x1+ x2+...+ xn). Rozwiązaniem uzyskanym z wykorzystaniem normy L2 (||X||2 = sqrt(x1

2+ x22+...+ xn

2)) jest wektor własny PT = (0,666 0,333 0,666), zaś rozwiązaniem dla wartości całkowitych jest PT = (2 1 2).

• Ponieważ rozwiązania te różnią się tylko co do przeskalowania o wartość stałą, każde z nich może być wykorzystane do rankingowania stron.

a0,4

b0,2

c0,4

a0,4

b0,2

c0,4

0,40,2

0,2

0,2

Page 23: Wprowadzenie do budowy usług informacyjnych

Pełny PageRank• Podstawowy algorytm PageRank w pewnych sytuacjach nie radzi sobie

poprawnie z cyklicznymi połączeniami między stronami webowymi.• Rozważmy dla przykładu sytuację dwu stron odsyłających wzajemnie do

siebie, ale nie zawierających łączy do innych stron.– Taki izolowany cykl określany jest jako ujście rangi.– Jeśli prowadzi do niego łącze z zewnątrz, będzie on akumulował rangę, ale

nigdy nie dystrybuował jej na zewnątrz.

• Jak wcześniej wspomniano, idea algorytmu PageRank polega na modelu błądzenia losowego przez graf webowy, ale losowy surfer może wpaść w pułapkę ujścia rangi.– Możemy modelować zachowanie rzeczywistego surfera, który znudził się

krążeniem w pętli między stronami, poprzez skok do dowolnej innej strony poza ujściem rangi.

• W tym celu definiujemy tzw. źródło rangi E – wektor dla wszystkich stron w rozważanym grafie, definiujący rozkład prawdopodobieństwa wyboru losowo wybranej strony webowej – Określmy również prawdopodobieństwo wyboru poruszania po łączach jako

d, natomiast prawdopodobieństwo skoku do innej strony jako 1-d.

Page 24: Wprowadzenie do budowy usług informacyjnych

Pełny PageRank

• Równanie pozwalające na wyznaczenie PageRanku-u może być rozwiązane przy pomocy podejścia opartego na wektorach własnych. Algorytm oparty na metodzie iteracji potęgowej wymaga jedynie małej modyfikacji sposobu normalizacji:

R R0 / npowtarzaj

Q RR ATQR dR + (1-d)E

dopóki ||R – Q||1 >

• Prawdopodobieństwo wyboru drogi po łączach d jest parametrem i zazwyczaj przyjmuje się wartość d = 0,85. Również zazwyczaj zakłada się, że rozkład wyboru nowej strony jest jednostajny, czyli E(u) = 1/n (gdzie n jest liczbą stron w analizowanym grafie webowym).

)()1(

)(),()( uEd

N

vRuvduR

v v

A

Page 25: Wprowadzenie do budowy usług informacyjnych

PageRank i HITS• PageRank określa wyłącznie autorytet stron, na podstawie ich łączy

wejściowych.– Łącza webowe niekoniecznie są równoważne odsyłaczom (mogą mieć np.

charakter nawigacyjny).– Fakt, że strona jest popularna i ma wysoki autorytet nie zawsze oznacza, że

jest ona relewantna dla konkretnego zapytania.

• W związku z tym PageRank stosowany musi być w połączenia z wyszukiwaniem opartym na słowach kluczowych.– PageRank może porządkować strony o takim samym podobieństwie do słów

kluczowych podanych przez użytkownika.– Ranking strony może być połączeniem rankingu tematycznego i PageRank-

u (z wykorzystaniem odpowiednich wag).

• Algorytmem bezpośrednio wykorzystującym strukturę łączy do określania podobieństwa tematycznego jest wprowadzony w 1998 roku przez Kleinberga algorym HITS.– HITS postrzega łącze między stronami, jako określenie nie tylko prestiżu,

ale również pewnego związku tematycznego między nimi.

Page 26: Wprowadzenie do budowy usług informacyjnych

HITS – Ogólna charakterystyka• HITS w przeciwieństwie do PageRank-u jest zależny od zapytania.

Zadaniem algorytmu jest analiza struktury połączeń między stronami wyszukanymi dla konkretnego standardowego zapytania tematycznego z wykorzystaniem słów kluczowych.

• HITS zakłada, że użytkownika najbardziej interesują, a więc powinny znaleźć się najwyżej w rankingu:– Strony będące dobrymi „autorytetami” w danym temacie, tzn. strony

zawierające znaczącą, godną zaufania i wartościową informację na dany temat.

– Strony będące dobrymi „hubami” w danym temacie, tzn. strony zawierające wiele użytecznych łączy do relewantnych stron z odpowiednią zawartością na dany temat (autorytetów tematycznych).

• Oczywiście nietrudno zauważyć, związek między autorytetami i hubami:– Strona jest tym lepszym hubem im więcej zawiera łączy wyjściowych

prowadzących do dobrych autorytetów z danego tematu.– Strona jest tym lepszym autorytetem tematycznym, im więcej wskazuje na

nią dobrych hubów z danego tematu.

Page 27: Wprowadzenie do budowy usług informacyjnych

Algorytm HITS• Dla danego zapytania Q znajdowany jest z wykorzystaniem standardowej

wyszukiwarki niewielki zbiór dokumentów relewantnych R:– np. 200 stron najwyżej w rankingu.

• Następnie R rozszerzany jest do tzw. podstawowego zbioru stron S. Zbiór podstawowy obok stron ze zbioru R zawiera strony:– do których prowadzą łącza stron ze zbioru R,

– które wskazują na strony z R, tzn. zawierają do nich łącza.

• Struktura hiperłączy zbioru podstawowego S analizowana jest następnie w celu wykrycia autorytetów i hubów dla tematu określonego przez zapytanie Q.

Page 28: Wprowadzenie do budowy usług informacyjnych

Algorytm HITS• Oznaczmy przez L macierz połączeń w grafie webowym zbioru

podstawowego S, tzn.– L(u, v) = 1 jeśli strona u zawiera łącze do strony v, oraz L(u, v) = 0 w

przeciwnym przypadku. – Bierzemy pod uwagę wyłącznie łącza między stronami u, v S.

• Oznaczmy przez a = (a1, ..., an) wektor autorytetów, h = (h1, ..., hn) wektor hubów, określone dla wszystkich stron należących do S. Mogą one zostać wyznaczone przy pomocy algorytmu iteracji potęgowej:

a (1, ..., 1), h (1, ..., 1), powtarzaj

au = L(v, u)=1hv, = vL(v, u)hv (tzn. a = LTh)

hu = L(u, v)=1av, = vL(u, v)av (tzn. h = La)

Znormalizuj a i h w sensie normy L1 lub L2.( a = a/||a||, h = h/||h||).dopóki nie koniec pętli.

• Wykorzystując obliczone wartości autorytetów i hubów dla danego zapytania tworzymy ich rankingi.

Page 29: Wprowadzenie do budowy usług informacyjnych

HITS - Właściwości• Zauważmy, że w każdym kroku algorytmu HITS obliczamy wartości

autorytetów oraz hubów jako a = LTh oraz h = La. – Tak więc podstawiając łatwo widzimy, że a = LTLa oraz h = LLTh.– Wektor autorytetów a jest podstawowym wektorem własnym macierzy LTL.– Wektor hubów h jest podstawowym wektorem własnym macierzy LLT.

• Rankingi stron autorytetów i hubów nie mogą być obliczone z góry (tak jak PageRank), tzn. muszą być wyznaczane podczas realizacji zapytania.– Wada: zwiększony czas przetwarzania zapytania.– Zaleta: rankingi obliczane są przy wykorzystaniu relewantnej części grafu

webowego, pozwalając na wyeliminowanie sytuacji, w której strony o niewielkiej relewantności otrzymują wysoki ranking tylko z tego powodu, że gromadzą wiele łączy wejściowych.

• Szeroko cytowany przykład: – Zapytanie „music program” (zgodnie z badaniami użytkowników) dotyczy

najczęściej dziedziny radia i koncertów filharmonicznych. – W przeglądarce Google zwraca ono przede wszystkim strony dotyczące

muzyki komputerowej i oprogramowania muzycznego, ponieważ term „program” współwystępuje często z „computer” i „software”, które gromadzą wiele łączy wejściowych ze stron informatycznych.

Page 30: Wprowadzenie do budowy usług informacyjnych

HITS - Właściwości• Algorytm HITS znajduje podstawowe wektory własne macierzy LTL i

LLT, reprezentujące najgęściej połączone strony autorytetów i hubów, w grafie webowym definiowanym przez zapytanie użytkownika.

• W pewnych sytuacjach możemy być także zainteresowani w znalezieniu w tym grafie kilku mniejszych pod-kolekcji gęsto powiązanych stron autorytetów i hubów, odpowiadających potencjalnie relewantnym tematycznie, ale rozdzielonym pod-grafom webowym.– Zapytanie może być niejednoznaczne i mieć kilka różnych znaczeń: np.

słowo „gwiazda” może oznaczać (miedzy innymi) obiekt astronomiczny lub gwiazdę filmu, estrady itp.

– Zapytanie może reprezentować temat wspólny dla wielu różnych środowisk, np. „klasyfikacja”.

– Zapytanie może odnosić się do kwestii wysoce spolaryzowanych, gromadzących grupy niechętnie łączące się ze sobą, np. „aborcja”.

• W powyższych przykładach relewantne strony mogą w naturalny gromadzić się w kilka grup, nazywanych społecznościami.– Mniejsze społeczności również reprezentowane przez dwupodziałowe grafy

autorytetów i hubów mogą być znalezione poprzez wyznaczenie wektorów własnych odpowiadających mniejszym wartościom własnym.

Page 31: Wprowadzenie do budowy usług informacyjnych

HITS - Właściwości• W przypadku pewnych rodzajów grafów webowych, HITS może mieć te

same problemy ze stabilnością co podstawowy algorytm PageRank. – W celu ich rozwiązania mogą jednak zostać zastosowane te same

modyfikacje z parametrem kontrolującym zachowanie losowego surfera co w pełnym algorytmie PageRank.

• HITS nie ma takich właściwości antyspamowych jak PageRank. Łatwo dodać do własnej strony wiele łączy wyjściowych, wskazujących na wiele dobrych autorytetów.

• Innym problemem HITS jest możliwość dryfu tematycznego. Rozszerzając wynik zapytania R, łatwo dodać do zbioru podstawowego wiele stron (włączając strony autorytetów i hubów), które nie mają nic wspólnego z tematem zapytania.– Użytkownicy dodają łącza między stronami z różnych powodów,

niekoniecznie dla wyrażenia związku tematycznego między nimi.– Istniejące rozwiązania polegają na uwzględnieniu w procesie rozszerzania

zbioru stron relewantnych R (obok informacji o samych połączeniach) również mierników podobieństwa zawartości dodawanych stron do tematu zapytania, podobieństwa tekstów zakotwiczeń łączy, itp.