WEDT Web Spam (SEO)

24
WEDT Web Spam (SEO) Wykład 11 Piotr Gawrysiak [email protected] 2007

description

WEDT Web Spam (SEO). Wykład 11 Piotr Gawrysiak [email protected]. 2007. PageRank cd. PageRank to nie jest „srebrna kula”  PR mierzy „ogólną” jakość strony a zatem nie nadaje się do oceny jakości w przypadku specyficznych tematów wyszukiwania PR jest stosunkowo łatwo oszukać - PowerPoint PPT Presentation

Transcript of WEDT Web Spam (SEO)

Page 1: WEDT Web Spam (SEO)

WEDT

Web Spam (SEO)

Wykład 11

Piotr [email protected]

2007

Page 2: WEDT Web Spam (SEO)

WUTTWG

2006PageRank cd.

PageRank to nie jest „srebrna kula”

• PR mierzy „ogólną” jakość strony a zatem nie nadaje się do oceny jakości w przypadku specyficznych tematów wyszukiwania

• PR jest stosunkowo łatwo oszukać

• Istnieją inne algorytmy analizujące strukturę grafu WWW• HITS• Hilltop• Topic Specific/Sensitive Page Rank (TSPR)• ...

największy problem

Page 3: WEDT Web Spam (SEO)

WUTTWG

2006Hilltop• http://www.cs.toronto.edu/~georgem/hilltop/• Bharat, Mihaila, 2001

• Pomysł: wyszukując informacje należy oprzeć się na wiedzy ekspertów – albo przynajmniej na stronach przygotowanych przez ekspertów

• Zbiór stron typu hub, traktowanych jako indeksy „eksperckie”:• Około (~ 5%) całego WWW• Duża liczba hiperpołączeń wychodzących (> wartości granicznej) do niepowiązanych ze sobą

stron• Strony niepowiązane to takie, których autorzy pochodzą z niepowiązanych ze sobą organizacji

• Dla zapytania• Obliczana jest wartość Expert score dla każdej strony „eksperckiej”

• W zależności od liczby hiperpołączeń na stronie pasujących do zapytania• Brane pod uwagę są także strony, mogące składać się z wielu sekcji

• Wybieranych jest N najlepszych stron „eksperckich”• Analizowane są strony, na które wskazują hiperpołączenia ze stron eksperckich i wybierane są z

nich najlepsze (najczęściej „cytowane”) strony wynikowe

Page 4: WEDT Web Spam (SEO)

WUTTWG

2006Hilltop

Page 5: WEDT Web Spam (SEO)

WUTTWG

2006Topic Specific Page Rank

• Zamiast mierzyć generyczną „jakość” strony, można próbować mierzyć jakość w odniesieniu do określonego tematu?• Np. zdrowie, technika, rozrywka

• Można zmienić random surfer model • Gdy random surfer się nudzi, wybiera przypadkową stronę• Może wybierać stronę jedynie ze zbioru stron S, związanych z

danym tematem• Zbiór S może zostać utworzony np. jako część katalogu

sieciowego takiego jak Open Directory• Obliczenia takie same jak dla PR, inny sposób inicjalizacji• Nie skaluje się w prosty sposób

Page 6: WEDT Web Spam (SEO)

WUTTWG

2006Topic Specific Page RankEksperymenty - Haveliwala, 2002 (WWW20002 conf. – www2002.org)

• 16 tematów• zbiory S wg. kategorii DMOZ• np.: arts, business, sports,…

• Testy na ochotnikach• 35 pytań testowych• Wyniki sortowane wg. Page Rank i TSPR najbardziej zbliżonej do zapytania kategorii• np.: dla zapytania „bicycling” zbiór S ustalany na „sports”• W większości wypadków TSPR okazywał się lepszy

Jak stosować?• Metoda naiwna – użytkownik wybiera kategorię z menu...

• lepiej – wykorzystać kontekst zapytania:• klasyfikator przypisujący zapytanie do zbioru kategorii• historia poprzednich zapytań• tematyka strony którą przeglądał użytkownik

• lub „kontekst użytkownika” – zakładki, historię poprzednich zapytań, itd.

• Powyższe jest przyczyną dla której wyszukiwarki starają się zbierać jak najwięcej informacji o naszych poczynaniach w sieci (Google Personalized Home, My Yahoo itd.)

Page 7: WEDT Web Spam (SEO)

WUTTWG

2006Search engine optimization• Wyszukiwarki internetowe są najważniejszym narzędziem

nawigacyjnym w WWW

• Strona, której nie można znaleźć w wyszukiwarkach w zasadzie nie istnieje z praktycznego punktu widzenia

• W wyszukiwarce warto być na początku listy wyników, dla dowolnego zapytania

• A nuż ktoś kliknie? Kliknięcia użytkowników mogą przynosić wymierne zyski:• reklama internetowa – często płatna „per view”• Strony e-commerce – a nuż jak kliknął to i coś kupi?• Strony „dystrybuujące” malware• Zwiększenie popularności strony / domeny – a nuż ktoś od nas ją odkupi...

Page 8: WEDT Web Spam (SEO)

WUTTWG

2006Search engine optimization

• Większość powyższych celów wymaga przyciągnięcia użytkownika na stronę, pomimo jej znikomej użyteczności dla użytkownika – podczas gdy wyszukiwarki optymalizują wyniki wyszukiwania według użyteczności

• A zatem konieczna jest sztuczna manipulacja wynikami wyszukiwania – „oszukanie” algorytmów budujących listę wyników

• Zreszta czy wyszukiwarkom komercyjnym można wierzyć? Stąd projekty takie jak Nutch…

Page 9: WEDT Web Spam (SEO)

WUTTWG

2006SEO = SPAM?

• Manipulowanie wynikami działania wyszukiwarek jest działalnością niepożądaną dla użytkowników WWW – podobnie jak rozsyłanie niechcianych wiadomości email

• A zatem można pokusić się o mówienie o Web Spam – stronach WWW, których jedynym powodem istnienia jest wpływanie na działanie algorytmów wyszukiwarek

• Oczywiście wiele osób może się tutaj nie zgodzić. Należy pamiętać, iż istnieje już cały przemysł SEO – Search Engine Optimization

• Udział stron typu spam w całej sieci WWW to obecnie około 10-15%

Page 10: WEDT Web Spam (SEO)

WUTTWG

2006Techniki „webspamowe”

Zwiększanie ważności stron (boosting)• Techniki mające na celu sztuczne zawyżanie istotności strony dla

danych wyszukiwarek.• Istotność zawyżona – niezgodna z subiektywną oceną

dokonywaną przez większość użytkowników WWW.• Teoretycznie można sobie zatem wyobrazić etyczne zastosowania

boostingu – do poprawienia błędów w algorytmach wyszukiwarek

Ukrywanie (hiding)• Techniki mające na celu zamaskowanie faktu wykorzystywania

boostingu• Ukrywanie przez ludźmi• Ukrywanie przed robotami sieciowymi

Gyongyi & Garcia-Molina, 2004

Page 11: WEDT Web Spam (SEO)

WUTTWG

2006Techniki „webspamowe” cd.

Boosting

• Term spammingGenerowanie treści strony WWW tak, aby znalazła się w wyniku

wyszukiwania dla wielu zapytańGenerowana treść jest zwykle sztuczna – tj. zawartość strony nie

ma wartości (informacyjnej) dla człowiekaWynikiem jest pojedyncza strona WWW (lub nawet kod HTML

wysyłany jedynie na żądanie robota sieciowego)

• Link spammingWykorzystanie algorytmów analizy struktury hiperpołączeń tak,

aby zwiększyć istotność danej stronyWymaga stworzenia struktury wielu stron, często na różnych

serwerach

Page 12: WEDT Web Spam (SEO)

WUTTWG

2006Term Spamming

Repetition• Powtarzanie jednego lub kilku słów kluczowych• Celem jest zaburzenie działania algorytmów skalowania

atrybutów takich jak TF/IDF• Np. „viagra viagra viagra viagra” -> 9120000 wyników

w Google (rok temu było 12800000, dwa lata temu 77300)

Dumping • Umieszczanie w treści strony bardzo dużej liczby

niepowiązanych semantycznie słów• Np. można kopiować całe słowniki, lub części słowników• Można też stosować metody generacji tekstu

Page 13: WEDT Web Spam (SEO)

WUTTWG

2006Term Spamming

WeavingKopiowanie treści innych stron WWW i wstawianie do środka słów

„spamowych”

Phrase StitchingSklejanie zdań i fragmentów tekstu z różnych źródeł (głównie innych

stron WWW, ale także wyników wyszukiwania np. z Google)

Generowane są być przede wszystkim te elementy strony, które są traktowane jako szczególnie cenne przy ustalaniu tematyki strony, a zatem:• tytuł (<TITLE></TITLE>)• Forma URL• Meta tags• Tekst odwołaniach hiperlinków• ...

Page 14: WEDT Web Spam (SEO)

WUTTWG

2006Link spammingDla spammera sieć WWW dzieli się na trzy części:

1. Strony niedostępne – nie ma możliwości zmiany ich zawartości

2. Strony dostępne – można częściowo wpływać na ich zawartość np.• komentarze w blogach, fora dyskusyjne, itp.• można umieszczać tam odnośniki do stron własnych

3. Strony własne – można całkowicie kontrolować ich zawartość• mogą znajdować się w kilku (nastu, dziesięciu) różnych domenach• to może być system współdzielony (np. linkor.pl itp.)

Page 15: WEDT Web Spam (SEO)

WUTTWG

2006Link FarmCelem spammera jest zwiększenie istotności strony s,

obliczanej zwykle algorytmem typu PageRankNależy zatem posiąść możliwie wiele stron i hiperpołączeń,

odwołujących się do strony s – tworzenie bezpośrednich połaczeń jest jednak żmudne i nieefektywne

Przyspieszenie – Link Farm

Internet (strony niedostępne)

Strony dostępne

Strona s

Strony własne

Page 16: WEDT Web Spam (SEO)

WUTTWG

2006

Czy to może dać jakiś efekt?Niech:

x – przyrost PageRank od stron dostępnychy – PageRank strony s

Link Farm cd.

G)p,q( )q(reedegout

)q(R)1(n/)p(R

PageRank każdej strony z LinkFarm = ε/n+(1- ε)(y/M)

y = ε/n + x + (1- ε)(M*(ε/n+(1- ε)(y/M)))y = x *(1/ ε(2- ε)) + (M/n)((ε-1)/(ε-2))

ε zwykle około 0.2 zatem otrzymujemyy≈2.78*x+0.45 (M/n)

to oczywiście znaczne uproszczenie

Page 17: WEDT Web Spam (SEO)

WUTTWG

2006

y≈2.78*x+0.45 (M/n)

Osiągamy• Zwielokrotnienie wartości PageRank „wpływającego” ze

stron dostępnych• Zwiększając liczbę stron własnych możemy dowolnie

zwiększać wartość PageRank strony s – (z tym że stron tych musi być rzeczywiście dużo)

Link Farm cd.

Internet (strony niedostępne)

Strony dostępne

Strona s

Strony własne

Page 18: WEDT Web Spam (SEO)

WUTTWG

2006Ukrywanie• Techniki Web Spamming są aktywnie zwalczane przez firmy obsługujące

największe wyszukiwarki• Nie są to także techniki zbyt dobre z punktu widzenia public relations • Niezbędne jest zatem ukrycie mechanizmów spamowych:

• Content hiding• Ukrywanie treści przed człowiekiem• Najczęściej wykorzystywana technika – użycie tych samych kolorów tła i

tekstu• Cloaking

• Rozpoznawanie rodzaju dostępu do strony (robot / człowiek)• Inna treść przesyłana jest do przeglądarek WWW a inna do robotów

sieciowych• Przekierowania

• Alternatywna metoda typu „cloaking”• Przekierowania są zwykle obsługiwane przez przeglądarki a nie przez roboty

sieciowe

Page 19: WEDT Web Spam (SEO)

WUTTWG

2006Wykrywanie webspamu

• Term spamming• Jest to zadanie b. podobne do wykrywania

klasycznego (tj. pocztowego) spamu, mogą tu mieć zatem zastosowanie podobne techniki np.

• Analiza tekstu przy wykorzystaniu algorytmów klasyfikacji

• Heurystyki wykrywające „dziwne” wykorzystanie tagów HTML

• Wykrywanie stron podobnych do siebie (near duplicates)• ...

• Link spamming• Tu jest trudniej, jak na razie nie wymyślono

rzeczywiście skutecznych metod• Wpływa bezpośrednio na działanie rankingu

wyszukiwarek – a zatem potencjalnie• Przykład metody – Trust Rank

Page 20: WEDT Web Spam (SEO)

WUTTWG

2006TrustRank

Pomysł: wyizolować ze wszystkich stron WWW tylko strony „dobre”• Zwykle strony „dobre” nie posiadają połączeń do stron „złych” – czyli

stron webspamu

1. Wybierana jest (mała) próbka stron WWW2. Strony są ręcznie (dlatego próbka musi być mała) klasyfikowane

– spam / nie spam

Te które nie są stronami webspam tworzą zbiór stron wiarygodnych (trusted pages)

Każda strona wiarygodna otrzymuje wartość wiarygodności (trust) równą 1

3. Wiarygodności propagowane są przez sieć hiperlinków (każda strona będzie mieć wartość trust pomiędzy 0 a 1)

4. Strony o wiarygodności niższej niż pewna wartość graniczna uznawane są za webspam

Page 21: WEDT Web Spam (SEO)

WUTTWG

2006Propagacja wiarygodności

• Wygasanie wiarygodności• Wiarygodność przekazywana od danej strony zmniejsza się wraz z

odległością od tej strony

• Podział wiarygodności• Im większa liczba hiperpołączeń wychodzących ze strony, tym

większe prawdopodobieństwo iż „zakradnie się” pomiędzy nie połączenie do strony złej

• Wartość wiarygodności jest zatem dzielona pomiędzy wszystkie strony wychodzące

• Np. • załóżmy iż każda ze stron wychodzących od strony p, o wiarygodności

t(p), otrzyma wartość wiarygodności t(p)/outdegree(p), 0<<1• załóżmy także, iż wiarygodność jest addytywna

• Główny problem – wybór odpowiedniego zbioru początkowego „wiarygodnych” stron

Page 22: WEDT Web Spam (SEO)

WUTTWG

2006

Wybór zbioru wiarygodnych stron

• Każda z wybieranych stron musi być oceniona przez eksperta – a zatem lepiej by zbiór początkowy był jak najmniejszy

• Każda istniejąca „dobra” strona powinna otrzymać odpowiednio wysoką wartość wiarygodności, a zatem ścieżka hiperpołączeń prowadząca do niej ze stron w zbiorze początkowym powinna być jak najkrótsza

• Powyższe dwa założenia są cokolwiek sprzeczne...

Page 23: WEDT Web Spam (SEO)

WUTTWG

2006

• Typowe rozwiązania:

• PageRank• Wybieramy k stron o najwyższej wartości PageRank (mamy

nadzieję, iż będzie wśród nich najwięcej wartościowych stron)

• Inverse PageRank• Wybieramy strony o największej liczbie wychodzących

hiperpołączeń• ...Oraz takie które mają hiperpołączenia wychodzące do stron z

dużą liczbą hiperpołączeń wychodzących (rekurencja)• To można obliczyć w podobny sposób jak PageRank, zmieniając

jedynie kierunek każdej krawędzi w grafie WWW• Wybieramy k stron o najwyższej wartości Inverse Page Rank

Wybór zbioru wiarygodnych stron

Page 24: WEDT Web Spam (SEO)

WUTTWG

2006

Najważniejsza konferencja dot. WWW

WorldWideWeb Conference

• www2002.org• www2003.org• www2004.org• itd.

Do poczytania