WEDT Web Spam (SEO)

WEDT

Web Spam (SEO)

Wykład 11

Piotr [email protected]

2007

WUTTWG

2006PageRank cd.

PageRank to nie jest „srebrna kula”

• PR mierzy „ogólną” jakość strony a zatem nie nadaje się do oceny jakości w przypadku specyficznych tematów wyszukiwania

• PR jest stosunkowo łatwo oszukać

• Istnieją inne algorytmy analizujące strukturę grafu WWW• HITS• Hilltop• Topic Specific/Sensitive Page Rank (TSPR)• ...

największy problem

WUTTWG

2006Hilltop• http://www.cs.toronto.edu/~georgem/hilltop/• Bharat, Mihaila, 2001

• Pomysł: wyszukując informacje należy oprzeć się na wiedzy ekspertów – albo przynajmniej na stronach przygotowanych przez ekspertów

• Zbiór stron typu hub, traktowanych jako indeksy „eksperckie”:• Około (~ 5%) całego WWW• Duża liczba hiperpołączeń wychodzących (> wartości granicznej) do niepowiązanych ze sobą

stron• Strony niepowiązane to takie, których autorzy pochodzą z niepowiązanych ze sobą organizacji

• Dla zapytania• Obliczana jest wartość Expert score dla każdej strony „eksperckiej”

• W zależności od liczby hiperpołączeń na stronie pasujących do zapytania• Brane pod uwagę są także strony, mogące składać się z wielu sekcji

• Wybieranych jest N najlepszych stron „eksperckich”• Analizowane są strony, na które wskazują hiperpołączenia ze stron eksperckich i wybierane są z

nich najlepsze (najczęściej „cytowane”) strony wynikowe

WUTTWG

2006Hilltop

WUTTWG

2006Topic Specific Page Rank

• Zamiast mierzyć generyczną „jakość” strony, można próbować mierzyć jakość w odniesieniu do określonego tematu?• Np. zdrowie, technika, rozrywka

• Można zmienić random surfer model • Gdy random surfer się nudzi, wybiera przypadkową stronę• Może wybierać stronę jedynie ze zbioru stron S, związanych z

danym tematem• Zbiór S może zostać utworzony np. jako część katalogu

sieciowego takiego jak Open Directory• Obliczenia takie same jak dla PR, inny sposób inicjalizacji• Nie skaluje się w prosty sposób

WUTTWG

2006Topic Specific Page RankEksperymenty - Haveliwala, 2002 (WWW20002 conf. – www2002.org)

• 16 tematów• zbiory S wg. kategorii DMOZ• np.: arts, business, sports,…

• Testy na ochotnikach• 35 pytań testowych• Wyniki sortowane wg. Page Rank i TSPR najbardziej zbliżonej do zapytania kategorii• np.: dla zapytania „bicycling” zbiór S ustalany na „sports”• W większości wypadków TSPR okazywał się lepszy

Jak stosować?• Metoda naiwna – użytkownik wybiera kategorię z menu...

• lepiej – wykorzystać kontekst zapytania:• klasyfikator przypisujący zapytanie do zbioru kategorii• historia poprzednich zapytań• tematyka strony którą przeglądał użytkownik

• lub „kontekst użytkownika” – zakładki, historię poprzednich zapytań, itd.

• Powyższe jest przyczyną dla której wyszukiwarki starają się zbierać jak najwięcej informacji o naszych poczynaniach w sieci (Google Personalized Home, My Yahoo itd.)

WUTTWG

2006Search engine optimization• Wyszukiwarki internetowe są najważniejszym narzędziem

nawigacyjnym w WWW

• Strona, której nie można znaleźć w wyszukiwarkach w zasadzie nie istnieje z praktycznego punktu widzenia

• W wyszukiwarce warto być na początku listy wyników, dla dowolnego zapytania

• A nuż ktoś kliknie? Kliknięcia użytkowników mogą przynosić wymierne zyski:• reklama internetowa – często płatna „per view”• Strony e-commerce – a nuż jak kliknął to i coś kupi?• Strony „dystrybuujące” malware• Zwiększenie popularności strony / domeny – a nuż ktoś od nas ją odkupi...

WUTTWG

2006Search engine optimization

• Większość powyższych celów wymaga przyciągnięcia użytkownika na stronę, pomimo jej znikomej użyteczności dla użytkownika – podczas gdy wyszukiwarki optymalizują wyniki wyszukiwania według użyteczności

• A zatem konieczna jest sztuczna manipulacja wynikami wyszukiwania – „oszukanie” algorytmów budujących listę wyników

• Zreszta czy wyszukiwarkom komercyjnym można wierzyć? Stąd projekty takie jak Nutch…

WUTTWG

2006SEO = SPAM?

• Manipulowanie wynikami działania wyszukiwarek jest działalnością niepożądaną dla użytkowników WWW – podobnie jak rozsyłanie niechcianych wiadomości email

• A zatem można pokusić się o mówienie o Web Spam – stronach WWW, których jedynym powodem istnienia jest wpływanie na działanie algorytmów wyszukiwarek

• Oczywiście wiele osób może się tutaj nie zgodzić. Należy pamiętać, iż istnieje już cały przemysł SEO – Search Engine Optimization

• Udział stron typu spam w całej sieci WWW to obecnie około 10-15%

WUTTWG

2006Techniki „webspamowe”

Zwiększanie ważności stron (boosting)• Techniki mające na celu sztuczne zawyżanie istotności strony dla

danych wyszukiwarek.• Istotność zawyżona – niezgodna z subiektywną oceną

dokonywaną przez większość użytkowników WWW.• Teoretycznie można sobie zatem wyobrazić etyczne zastosowania

boostingu – do poprawienia błędów w algorytmach wyszukiwarek

Ukrywanie (hiding)• Techniki mające na celu zamaskowanie faktu wykorzystywania

boostingu• Ukrywanie przez ludźmi• Ukrywanie przed robotami sieciowymi

Gyongyi & Garcia-Molina, 2004

WUTTWG

2006Techniki „webspamowe” cd.

Boosting

• Term spammingGenerowanie treści strony WWW tak, aby znalazła się w wyniku

wyszukiwania dla wielu zapytańGenerowana treść jest zwykle sztuczna – tj. zawartość strony nie

ma wartości (informacyjnej) dla człowiekaWynikiem jest pojedyncza strona WWW (lub nawet kod HTML

wysyłany jedynie na żądanie robota sieciowego)

• Link spammingWykorzystanie algorytmów analizy struktury hiperpołączeń tak,

aby zwiększyć istotność danej stronyWymaga stworzenia struktury wielu stron, często na różnych

serwerach

WUTTWG

2006Term Spamming

Repetition• Powtarzanie jednego lub kilku słów kluczowych• Celem jest zaburzenie działania algorytmów skalowania

atrybutów takich jak TF/IDF• Np. „viagra viagra viagra viagra” -> 9120000 wyników

w Google (rok temu było 12800000, dwa lata temu 77300)

Dumping • Umieszczanie w treści strony bardzo dużej liczby

niepowiązanych semantycznie słów• Np. można kopiować całe słowniki, lub części słowników• Można też stosować metody generacji tekstu

WUTTWG

2006Term Spamming

WeavingKopiowanie treści innych stron WWW i wstawianie do środka słów

„spamowych”

Phrase StitchingSklejanie zdań i fragmentów tekstu z różnych źródeł (głównie innych

stron WWW, ale także wyników wyszukiwania np. z Google)

Generowane są być przede wszystkim te elementy strony, które są traktowane jako szczególnie cenne przy ustalaniu tematyki strony, a zatem:• tytuł (<TITLE></TITLE>)• Forma URL• Meta tags• Tekst odwołaniach hiperlinków• ...

WUTTWG

2006Link spammingDla spammera sieć WWW dzieli się na trzy części:

1. Strony niedostępne – nie ma możliwości zmiany ich zawartości

2. Strony dostępne – można częściowo wpływać na ich zawartość np.• komentarze w blogach, fora dyskusyjne, itp.• można umieszczać tam odnośniki do stron własnych

3. Strony własne – można całkowicie kontrolować ich zawartość• mogą znajdować się w kilku (nastu, dziesięciu) różnych domenach• to może być system współdzielony (np. linkor.pl itp.)

WUTTWG

2006Link FarmCelem spammera jest zwiększenie istotności strony s,

obliczanej zwykle algorytmem typu PageRankNależy zatem posiąść możliwie wiele stron i hiperpołączeń,

odwołujących się do strony s – tworzenie bezpośrednich połaczeń jest jednak żmudne i nieefektywne

Przyspieszenie – Link Farm

Internet (strony niedostępne)

Strony dostępne

Strona s

Strony własne

WUTTWG

2006

Czy to może dać jakiś efekt?Niech:

x – przyrost PageRank od stron dostępnychy – PageRank strony s

Link Farm cd.

G)p,q( )q(reedegout

)q(R)1(n/)p(R

PageRank każdej strony z LinkFarm = ε/n+(1- ε)(y/M)

y = ε/n + x + (1- ε)(M*(ε/n+(1- ε)(y/M)))y = x *(1/ ε(2- ε)) + (M/n)((ε-1)/(ε-2))

ε zwykle około 0.2 zatem otrzymujemyy≈2.78*x+0.45 (M/n)

to oczywiście znaczne uproszczenie

WUTTWG

2006

y≈2.78*x+0.45 (M/n)

Osiągamy• Zwielokrotnienie wartości PageRank „wpływającego” ze

stron dostępnych• Zwiększając liczbę stron własnych możemy dowolnie

zwiększać wartość PageRank strony s – (z tym że stron tych musi być rzeczywiście dużo)

Link Farm cd.

Internet (strony niedostępne)

Strony dostępne

Strona s

Strony własne

WUTTWG

2006Ukrywanie• Techniki Web Spamming są aktywnie zwalczane przez firmy obsługujące

największe wyszukiwarki• Nie są to także techniki zbyt dobre z punktu widzenia public relations • Niezbędne jest zatem ukrycie mechanizmów spamowych:

• Content hiding• Ukrywanie treści przed człowiekiem• Najczęściej wykorzystywana technika – użycie tych samych kolorów tła i

tekstu• Cloaking

• Rozpoznawanie rodzaju dostępu do strony (robot / człowiek)• Inna treść przesyłana jest do przeglądarek WWW a inna do robotów

sieciowych• Przekierowania

• Alternatywna metoda typu „cloaking”• Przekierowania są zwykle obsługiwane przez przeglądarki a nie przez roboty

sieciowe

WUTTWG

2006Wykrywanie webspamu

• Term spamming• Jest to zadanie b. podobne do wykrywania

klasycznego (tj. pocztowego) spamu, mogą tu mieć zatem zastosowanie podobne techniki np.

• Analiza tekstu przy wykorzystaniu algorytmów klasyfikacji

• Heurystyki wykrywające „dziwne” wykorzystanie tagów HTML

• Wykrywanie stron podobnych do siebie (near duplicates)• ...

• Link spamming• Tu jest trudniej, jak na razie nie wymyślono

rzeczywiście skutecznych metod• Wpływa bezpośrednio na działanie rankingu

wyszukiwarek – a zatem potencjalnie• Przykład metody – Trust Rank

WUTTWG

2006TrustRank

Pomysł: wyizolować ze wszystkich stron WWW tylko strony „dobre”• Zwykle strony „dobre” nie posiadają połączeń do stron „złych” – czyli

stron webspamu

1. Wybierana jest (mała) próbka stron WWW2. Strony są ręcznie (dlatego próbka musi być mała) klasyfikowane

– spam / nie spam

Te które nie są stronami webspam tworzą zbiór stron wiarygodnych (trusted pages)

Każda strona wiarygodna otrzymuje wartość wiarygodności (trust) równą 1

3. Wiarygodności propagowane są przez sieć hiperlinków (każda strona będzie mieć wartość trust pomiędzy 0 a 1)

4. Strony o wiarygodności niższej niż pewna wartość graniczna uznawane są za webspam

WUTTWG

2006Propagacja wiarygodności

• Wygasanie wiarygodności• Wiarygodność przekazywana od danej strony zmniejsza się wraz z

odległością od tej strony

• Podział wiarygodności• Im większa liczba hiperpołączeń wychodzących ze strony, tym

większe prawdopodobieństwo iż „zakradnie się” pomiędzy nie połączenie do strony złej

• Wartość wiarygodności jest zatem dzielona pomiędzy wszystkie strony wychodzące

• Np. • załóżmy iż każda ze stron wychodzących od strony p, o wiarygodności

t(p), otrzyma wartość wiarygodności t(p)/outdegree(p), 0<<1• załóżmy także, iż wiarygodność jest addytywna

• Główny problem – wybór odpowiedniego zbioru początkowego „wiarygodnych” stron

WUTTWG

2006

Wybór zbioru wiarygodnych stron

• Każda z wybieranych stron musi być oceniona przez eksperta – a zatem lepiej by zbiór początkowy był jak najmniejszy

• Każda istniejąca „dobra” strona powinna otrzymać odpowiednio wysoką wartość wiarygodności, a zatem ścieżka hiperpołączeń prowadząca do niej ze stron w zbiorze początkowym powinna być jak najkrótsza

• Powyższe dwa założenia są cokolwiek sprzeczne...

WUTTWG

2006

• Typowe rozwiązania:

• PageRank• Wybieramy k stron o najwyższej wartości PageRank (mamy

nadzieję, iż będzie wśród nich najwięcej wartościowych stron)

• Inverse PageRank• Wybieramy strony o największej liczbie wychodzących

hiperpołączeń• ...Oraz takie które mają hiperpołączenia wychodzące do stron z

dużą liczbą hiperpołączeń wychodzących (rekurencja)• To można obliczyć w podobny sposób jak PageRank, zmieniając

jedynie kierunek każdej krawędzi w grafie WWW• Wybieramy k stron o najwyższej wartości Inverse Page Rank

Wybór zbioru wiarygodnych stron

WUTTWG

2006

Najważniejsza konferencja dot. WWW

WorldWideWeb Conference

• www2002.org• www2003.org• www2004.org• itd.

Do poczytania

WEDT Web Spam (SEO)

Documents

Transcript of WEDT Web Spam (SEO)