KRYTERIA OCE Y RELEWA T OŚCI WY IKÓW W … · odwiedzin wyniosła około 8 tys. a liczba...
Transcript of KRYTERIA OCE Y RELEWA T OŚCI WY IKÓW W … · odwiedzin wyniosła około 8 tys. a liczba...
Ewa Białek*
KRYTERIA OCE�Y RELEWA�T�OŚCI WY�IKÓW W WYSZUKIWARKACH I�TER�ETOWYCH I ICH
WYKORZYSTA�IE DO PROMOCJI WITRY� REGIO�AL�YCH
Streszczenie
W pracy przedstawiono kryteria, którymi kieruje się Google przy ocenie
relewantności wyników wyszukiwania dla zapytań zadawanych do wyszukiwarki
przez internautów. Dokonano podziału tych kryteriów na statyczne oraz
dynamiczne - wewnętrzne i zewnętrzne. Stwierdzono, że jeśli wymienione
kryteria zostaną uwzględnione przy tworzeniu i promocji witryny WWW w sieci
internet, to witryna osiągnie wysokie pozycje w rankingach wyszukiwarki
Google. Osiągniecie tych wysokich pozycji zapewni dobrą widoczność witryny,
co spowoduje wysoką jej oglądalność.
1. Wprowadzenie Jeszcze do niedawna świat biznesu traktował internet jako ciekawostkę.
Dziś pytaniem nie jest „czy” ale „jak” najefektywniej wykorzystać nowe
możliwości internetu jako medium masowej komunikacji, masowego przekazu i
promocji [1]. Do najważniejszych działań promocyjnych w sieci zalicza się:
sieciowe public relations, szeroko pojętą reklamę, komunikację prowadzoną za
pośrednictwem poczty elektronicznej oraz promocję w katalogach i
wyszukiwarkach internetowych [2]. Podstawę tych działań stanowi firmowa
strona WWW.
2. Sformułowanie problemu Wyszukiwarki internetowe wykonują w sieci trzy podstawowe
zadania: roboty wyszukiwarek znajdują i przeszukują strony WWW, budując
listę słów i wyrażeń znalezionych na każdej z nich; wyszukiwarki przechowują
spis słów i wyrażeń znalezionych na każdej stronie WWW, którą były w stanie
przeszukać; użytkownicy wyszukiwarek mogą następnie przeszukać utworzone
spisy pod kątem określonych słów i wyrażeń kluczowych [3]. Wyszukiwarki
starają się dopasować informacje wprowadzone przez użytkownika jako
zapytanie, do stron, które informacje te mogą zawierać. Wyszukany dokument
* mgr inż., Wyższa Hanzeatycka Szkoła Zarządzania, Katedra Informatyki,
ul. Kozietulskiego 6, 76-200 Słupsk, [email protected]
Ewa Białek
2
spełniający oczekiwania użytkownika nazywany jest relewantnym. Relewantny
to pozostający w logicznym związku z, odnoszący się do, stosujący się do;
dostarczający dowodu słuszności albo niesłuszności sprawy; istotny dla [4].
Relewantne dla danego zapytania strony WWW wyświetlane są w postaci listy
nazywanej rankingiem wyszukiwarki.
W systemach wyszukiwania informacji do oceny efektywności
wyszukiwania stosowane są dwie miary: kompletność (ang. recall) i dokładność
(ang. precision). Kompletność określa jak skuteczny jest dany algorytm w
znajdowaniu jak największej liczby relewantnych elementów. Dokładność - jak
skuteczny jest dany algorytm w zwracaniu wyłącznie relewantnych elementów.
Ze względu na dynamiczny wzrost liczby dokumentów gromadzonych w
internetowych systemach wyszukiwania informacji nie jest możliwe określenie
statycznego zbioru wszystkich dokumentów dotyczących danego zapytania.
Istnieje również problem z określeniem liczby wszystkich dokumentów
relewantnych dla danego zapytania. Przyjęte jest więc określanie efektywności
wyszukiwania dla pierwszych 10, 20 lub 30 pozycji rankingu wyszukiwarek [5].
Uzasadnione jest to również zachowaniem użytkowników wyszukiwarek
internetowych - 62% z nich wybiera linki znajdujące się na pierwszej stronie
wyników wyszukiwania, 90% podczas szukania nie wychodzi poza 3 stronę
wyników wyszukiwania [6].
Internauta subiektywnie ocenia wyniki wyszukiwania i dlatego do oceny
wyszukiwarek pod kątem relewantności zwracanych wyników stosuje się często
metody eksperymentalne. Na stronie WebmasterBrain.com użytkownikom
internetu umożliwiono zadanie zapytania jednocześnie do trzech największych
systemów wyszukiwawczych [7]. W ocenie użytkowników relewantne
dokumenty najczęściej znajdowane były na listach rankingowych wyszukiwarki
Google (rys. 1).
Rysunek 1 Wyniki eksperymentu WebmasterBrain.com
Kryteria oceny relewantności wyników w wyszukiwarkach internetowych
3
Również w naszym kraju serwis wyszukiwawczy Google cieszy się
dużym zaufaniem, a poziom jego wykorzystania wciąż wzrasta. Zgodnie z
wynikami badania gemiusTraffic, na początku bieżącego roku udział Google
w liczbie wizyt z wyszukiwarek dokonywanych przez internautów z Polski na
polskich witrynach równy był 82% - zaś w ostatnim tygodniu sięgnął 86% [8].
Przy tworzeniu list rankingowych wyszukiwarki uwzględniają wiele
kryteriów oceny relewantności trafiających na nie stron WWW. Z opinii
internautów wynika, że Google dobiera te kryteria najtrafniej. Pojawia się więc
pytanie: Jakie kryteria oceny relewantności stosuje Google przy tworzeniu
własnych list rankingowych dla zapytań kierowanych do wyszukiwarki przez
internautów?
3. Opis obszaru badań Za obszar badań wybrano, niekomercyjną witrynę WWW, znajdującą
się w sieci internet pod adresem www.ewa.bicom.pl. Swoim charakterem
przypomina ona multimedialną czytelnię. Część stron witryny ma charakter regionalny – prezentowane są na nich informacje o Słupsku. Witryna ta
powstała na początku 2003r. i od tej pory nieprzerwanie wykorzystywana jest w
celach dydaktyczno – naukowych. Na początku 2007r. 2650 stron tej witryny
było zindeksowanych przez Google. W okresie tym średnia dzienna ilość
odwiedzin wyniosła około 8 tys. a liczba przeglądanych stron to 35-40 tys.. W
wyniku własnych badań przeprowadzonych przy użyciu narzędzi Google dla webmasterów [9] stwierdzono, że do wejścia na tą witrynę internauci użyli w
ciągu tygodnia 946 niepowtarzalnych zapytań. Pozycja witryny dla 689 zapytań
z tej listy plasowała się na miejscach 1-10, czyli na pierwszej stronie wyników
wyszukiwania Google. Dla 84 fraz były to miejsca w drugiej dziesiątce, dla
kolejnych 34 fraz w trzeciej.
Z powyższych danych wynika, że strony witryny www.ewa.bicom.pl zajęły wysokie pozycje w rankingach Google dla znacznej ilości zapytań
kierowanych do wyszukiwarki przez internautów. Uznano to za wystarczające
do przeprowadzenia badań.
4. Kryteria oceny relewantności wyników Jak wspomniano wcześniej cechą wyszukiwarek internetowych jest
zdolność do wyszukiwania dokumentów relewantnych. Algorytm szereguje
strony znajdujące się w indeksie wyszukiwarki według oceny będącej
połączeniem wielu czynników. Dokładna specyfikacja algorytmów
rankingujących nie jest jawna. Nie oznacza to jednak, że nie podejmuje się prób
Ewa Białek
4
znalezienia najistotniejszych czynników warunkujących wysokie pozycje w
rankingach wyszukiwarek [10].
Przyjęto, że kryteria, którymi kieruje się Google przy ocenie
relewantności wyników wyszukiwania można podzielić na dwie grupy:
statyczne i dynamiczne [11].
4.1. Kryteria statyczne
Kryteria statyczne nie są bezpośrednio powiązane z zapytaniami
zadawanymi do wyszukiwarki przez użytkownika. Odzwierciedlają one
natomiast ważność, autorytet (ang. authority) strony WWW. Google
wykorzystuje do oceny strony pod tym kątem algorytm PageRank (PR), który
jest rozwinięciem znanej od dawna heurystyki, wedle której jakość tekstu jest
proporcjonalna do liczby tekstów powołujących się na niego [12].
Rysunek 2 W sieci internet do strony www.ewa.bicom.pl
prowadzi 4779 odnośników a na witrynę - 37920 [13]
Ulepszenie zaproponowane przez autorów Google polega na ważeniu
jakości odnośników wskazujących na rozpatrywaną stronę WWW ich własną
wartością PR. Innymi słowy: jeśli na daną stronę powołuje się artykuł lub inna
strona mająca wysoką ocenę, ma to większe znaczenie, niż gdy na tą samą stronę
powołuje się inna mniej popularna strona. Dodatkowo wartość PR rośnie, jeśli
na rozpatrywaną stronę powołują się strony relewantne tematycznie.
Rysunek 3 Strony powiązane tematycznie (ang. related)
z witryną www.ewa.bicom.pl
Kryteria oceny relewantności wyników w wyszukiwarkach internetowych
5
Wartość PR nie jest ustalana dla całej witryny a indywidualnie dla
każdej ze stron wchodzących w jej skład [14]. Wysokość noty Google PR
można ustalić za pomocą Google Toolbar (rys.4), lub narzędzi on-line
dostępnych w sieci internet [15, 16].
Rysunek 4 Google Toolbar PR=4 dla strony www.ewa.bicom.pl
Zakres PR wskazywany przez te narzędzia wynosi od 0 do 10
i odwzorowuje rzeczywistą wartość PR danej strony WWW [17]:
PR w Google Toolbar
Rzeczywisty PR
0
1
2
3
4
0-10
10-100
100-1 000
1 000-10 000
10 000-100 000 itd.
Jak widać z powyższego zwiększenie wartości PR strony od 1 do 2 jest
zdecydowanie prostsze niż od 3 do 4. Dla popularnych polskich portali (Interia,
WP) Google ustaliło wartość PR=6.
Witryna WWW posiadająca wysoki PR i zajmująca pierwsze miejsce w
wynikach wyszukiwania Google wyróżniana jest dodatkowo poprzez
wyświetlanie odnośników do innych sekcji serwisu (tzw. sitelinks), jeżeli
zostaną one uznane przez algorytm wyszukiwarki za wartościowe i użyteczne
(rys.5, p.4).
4.2. Kryteria dynamiczne
W odróżnieniu od statycznych, kryteria dynamiczne powiązane są z
zapytaniami (słowami kluczowymi) kierowanymi do wyszukiwarki Google.
Wśród nich wydzielić można kryteria wewnętrzne i zewnętrzne.
Ewa Białek
6
4.2.1. Kryteria dynamiczne wewnętrzne
Kryteria wewnętrzne służą do oceny strony WWW, pod kątem
występowania na niej słów kluczowych relewantnych zapytaniom kierowanym
przez użytkowników wyszukiwarek.
Rysunek 5 Strona www.ewa.bicom.pl w rankingu wyszukiwarki Google
dla zapytania „ewa białek”
Aby strona zajęła wysokie pozycje w rankingach Google słowa
kluczowe powinny znaleźć się między innymi:
- w tytule strony (rys.5, p.1). Tekst widoczny jako tytuł umieszcza się
w kodzie strony pomiędzy tagiem <tittle> a </tittle>. Jest
on znaczący dla wszystkich wyszukiwarek, co oznacza, że jest on
indeksowany i przypisywana jest mu duża waga. Powinien on
informować odbiorców, że mają do czynienia z witryną lub stroną,
na której znajdą informacje związane ze słowami szukanymi przez
nich w przeglądarce [3].
- w opisie strony (rys.5, p.2). Jako opis strony w wynikach
wyszukiwania Google wykorzystuje zawartość metatagu
description znajdującego się pomiędzy tagiem <head> a
</head>. Ze względu na wagę, jaką przywiązują użytkownicy
wyszukiwarek do tego opisu powinien być on trafny,
przekonywujący i zachęcać do odwiedzenia strony.
- w tekście na stronie. Nasycenie tekstu strony słowami kluczowymi.
nie powinno przekraczać 3%-7% (rys.6). Ważne jest także miejsce
występowania tych słów. Powinny znajdować się one na początku
strony (rys.7) [18,19].
Kryteria oceny relewantności wyników w wyszukiwarkach internetowych
7
Rysunek 6 �asycenie strony www.ewa.bicom.pl słowami kluczowymi
- w wyróżnionym tekście na stronie (rys.7). Tekst na stronie dzieli
się na spójne tematycznie części i dodaje do nich nagłówki
wyróżniane za pomocą tagów <h1> ... <h6>. Fragmenty tekstu
wyróżnia się dodatkowo używając tagów <strong>, <em>,
<b>, <i>.
Rysunek 7 Słowa kluczowe „ewa białek” wyróżnione na stronie www.ewa.bicom.pl
za pomocą tagu <b>
- w opisie alternatywnym (rys.8). Opis tekstowy umieszczany w
kodzie strony wewnątrz tagów img (atrybut alt) wyświetlany jest
Ewa Białek
8
w miejscu elementów graficznych, które nie zostały załadowane lub
nie mogą być wyświetlone.
Rysunek 8 Opis alternatywny elementu graficznego na stronie www.ewa.bicom.pl
- w adresie URL (rys.5, p.3).
4.2.2. Kryteria dynamiczne zewnętrzne
Kryteria dynamiczne zewnętrzne służą do oceny strony WWW, pod
kątem relewantności zsyłających się na nią dokumentów. W algorytmie Google
przyjęto, że jeśli w odnośniku (ang. link) do strony zawarty jest jakiś tekst, to
istnieje prawdopodobieństwo, że strona ta zawiera informacje związana z tym
tekstem.
Rysunek 9 �ajczęściej pojawiające się słowa w odnośnikach
do strony www.ewa.bicom.pl [13]
Kryteria oceny relewantności wyników w wyszukiwarkach internetowych
9
Prawdopodobieństwo to wrasta, gdy zwiększa się ilość podobnych
odnośników. Rośnie ono zdecydowanie szybciej, gdy odnośniki te znajdują się
na stronach z wysokim PR.
Aby zapewnić stronie WWW uzyskanie wartościowych odnośników
należy:
- stworzyć unikalną zawartość, która zachęci użytkowników
internetu do umieszczania odnośników na własnych stronach WWW
(rys. 10).
Rysunek 10 Odnośnik do strony www.ewa.bicom.pl na jednym z blogów
- umieszczać informacje o stronie w popularnych katalogach
związanych z treścią strony (rys.11).
Rysunek 11 Wpis w katalogu WP dla www.ewa.bicom.pl
Ewa Białek
10
- publikować artykuły na stronach o tematyce związanej z
promowaną stroną. Umieszczać w nich łącza tekstowe zawierające
słowa kluczowe relewantne zapytaniom, dla których strona ma
osiągnąć wysokie pozycje w rankingach wyszukiwarki. Łącze
tekstowe to słowo lub wyrażenie umieszczone pomiędzy tagiem
<a> i </a> oraz adres URL występujący wewnątrz tagu <a>
[3] (rys.12).
Rysunek 12 Wpis na forum miłośników poezji z łączem tekstowym
do strony www.ewa.bicom.pl
- zamieszczać łącza tekstowe oraz banery reklamowe w innych
serwisach, tematycznie powiązanych z zawartością promowanej
strony (rys.13).
Rysunek 13 Baner do strony www.ewa.bicom.pl
na stronie www.zosia.piasta.pl
5. Wnioski Przeprowadzone badania potwierdzają, że po to, by strona WWW
uznana została za relewantną do zapytania zadanego wyszukiwarce internetowej
i tym samym znalazła się na wysokiej pozycji w jej rankingu niezbędne jest
osiągnięcie odpowiedniego udziału trzech komponentów [3]:
- popularności – ocenianego przy pomocy kryteriów statycznych,
Kryteria oceny relewantności wyników w wyszukiwarkach internetowych
11
- tekstowego – ocenianego przy pomocy kryteriów dynamicznych wewnętrznych,
- łączy – ocenianego przy pomocy kryteriów dynamicznych zewnętrznych.
Witryna www.ewa.bicom.pl charakteryzująca się obecnością tych
trzech komponentów o połączonym działaniu osiągnęła wysokie pozycje w
rankingach Google dla wielu zapytań kierowanych do wyszukiwarki przez
internautów. Dzięki temu dotarła do milionów użytkowników internetu na całym
świecie, na trwałe znalazła miejsce w ich świadomości, co powoduje, że jej
oglądalność jest stale bardzo wysoka.
Literatura [1] Leśniewska A., Reklama Internetowa, Wyd. HELION, Gliwice 2006.
[2] Maciejowski T., Firma w internecie, budowanie przewagi konkurencyjnej,
Wyd. Oficyna Ekonomiczna, Kraków 2004.
[3] Thurow S., Pozycjonowanie w wyszukiwarkach internetowych, Wyd. HELION,
Gliwice 2004. [4] Kopaliński W., Słownik wyrazów obcych i zwrotów obcojęzycznych, Wyd. WP,
Warszawa 1983.
[5] Indyka – Piasecka A. , Model użytkownika w internetowych systemach wyszukiwania
informacji, Praca doktorska, Wrocław 2006.
[6] http://www.websearchworkshop.com.au/research5.php
[7] http://www.webmasterbrain.com/
[8] Biuletyn ranking.pl z dnia 28.06.2007. [9] https://www.google.com/webmasters/tools/
[10] Frontczak T., Marketing internetowy w wyszukiwarkach, Wyd. HELION,
Gliwice 2006.
[11] Сергей Людкевич, Евгений Есипов, "Промо.Текарт", 14.11.2003.
[12] http://www.google.com/technology/
[13] https://www.google.com/webmasters/tools/
[14] http://pr.efactory.de/e-pagerank-algorithm.shtml
[15] http://www.prchecker.info/check_page_rank.php
[16] http://www.pagerank.net/pagerank-checker/
[17] http://www.iprcom.com/papers/pagerank/
[18] http://www.keywordcount.com/
[19] http://www.live-keyword-analysis.com/