Post on 12-Jul-2020
Eksploracja danych a serwisy internetowe
Przemysław KAZIENKOWydział Informatyki i Zarządzania
Politechnika Wrocławskakazienko@pwr.wroc.pl
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 2
Dlaczego eksploracja danych w serwisach internetowych?
Kanały internetowe (serwisy, witryny) dla wielu firm są głównym a dla bardzo wielu ważnym obszarem działalności
Ocena serwisu (a co za tym idzie zmiany na lepsze) bez zastosowania specjalistycznych narzędzi jest trudna ze względu na:
dużą liczbę informacji (serwisy składają się z wielu stron)dużą liczbę informacji o odwiedzinach użytkownikówocena powinna być dokonywana przez użytkowników a nie twórców
Serwisy internetowe są ważnymi elementami kontaktów z klientem –powinny być uwzględniane w systemach zarządzania relacjami z klientem (CRM)
Dostosowywanie serwisu do użytkownika jest ważnym elementem budowania zadowolenia i utrzymania klienta
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 3
Typy eksploracji danych w InternecieAnaliza treści serwisu – web content mining:
wydzielenie tematów (przestrzenie tematyczne)analiza tekstów (text mining)crawlery
Analiza sposobów korzystania z serwisu przez użytkowników – web usage mining:
analiza logów (dzienników) serwerów i systemówwykrywanie sesji w serwisach bez identyfikacjiwykrywanie ścieżek nawigacyjnychwykrywanie „wzorcowych sposobów korzystania”struktura obciążenia systemu
Analiza struktury serwisu – web structure mining:analiza korzystania z odsyłaczy na podstawie logów: wykrywanie nieużywanych odsyłaczy, błędne odesłania, ścieżki „na około”, zły układ serwisu, strony, w których nastąpiła rezygnacja z serwisu, miejsca powrotówanaliza (statyczna) odsyłaczy poprzez analizę treści stron
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 4
Proces eksploracji
Gromadzenie (pozyskiwanie) danych: zapamiętywanie przebiegu sesji użytkownika, formularze wypełniane przez użytkownika.
Eksploracja danych (a także inne formy analizy):
analiza zachowań użytkowników
analiza treści serwisu
analiza struktury (układu) serwisu
analiza interfejsu (układ, wygląd, sposoby interakcji)
Wykorzystanie wyników analizy
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 5
Wykorzystanie wyników analizyPoprawa serwisu (struktury, układu treści, wyglądu), statycznaAutomatyczna personalizacja serwisu – podpowiadanie stron i produktów, personalizacja wygląduWprowadzenie nowych elementów do serwisu, np. dostępu przez WAP, nowe formy płatności, nowe usług dodatkowe (np. konta pocztowe)Wydzielenie grupy klientów atrakcyjnychZmiany w strategii cenowej, np. wprowadzenie opłat dla wybranych grup użytkownikówIntegracja z innymi kanałami i systemami firmyRozliczenia reklamowe (np. banery)Sprzedaż danych i analiz innym firmomZmiany w infrastrukturze technicznej (komputery, połączenia sieciowe, oprogramowanie serwerów)
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 6
Eksploracja - korzyści
Analiza (eksploracja) może przynieść korzyści:
klientowi – serwis lepiej odpowiada na jego potrzeby, częściej i chętniej korzysta z serwisu, wykorzystuje nowe funkcji
organizacji – dostarczenie danych użytecznych w procesach podejmowania decyzji, klient lepiej ocenia serwis a więc i firmę
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 7
Analiza – metody i technikiRaporty, zestawienia, wykresy, OLAPEksploracja danych (data mining):
Grupowanie – sesji użytkowników, stron serwisów, stron produktowych, identyfikacja użytkowników z grupami, podpowiadanie odsyłaczy, zmiany w strukturze serwisuSekwencje czasowe, regresja liniowa, sieci neuronowe –przewidywanie zachowań użytkowników, predykcja obciążeniaDrzewa decyzyjne, np. kiedy i dlaczego użytkownicy rezygnują, klasyfikacja użytkownikówReguły związków – wykrywanie sesji w serwisach bez identyfikacji, podpowiadanie następnego kroku (odsyłacze)Wzorce sekwencji – wykrywanie ścieżek nawigacyjnych, reorganizacja struktury serwisu
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 8
WebHound – SAS Solution
Przeznaczony do analizy logów serwera WWW
Wydziela dane z logów (extract), wypełnia nimi zbiory SAS-owe (load), tworzy raporty (HTML+skrypty Javy) i hurtownie danych (kostki)
Daje wiedzę o użytkownikach serwisu:Skąd pochodzą (kraje, organizacje)Skąd do nas przyszli (odesłania w innych serwisach)Kiedy pracująJak korzystają z serwisu (ścieżki nawigacyjne)Co używają: platformy systemowe i przeglądarki
Daje wiedzę o serwisiePrzewidywane przyszłe obciążenia, Najczęściej wykorzystywane ścieżki nawigacyjne
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 9
Godzinowy raport obciążenia
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 10
Najczęściej oglądane strony
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 11
Kraje użytkowników
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 12
Organizacje użytkowników
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 13
Najpopularniejsze ścieżki nawigacyjne
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 14
Platformy użytkowników
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 15
Ścieżki nawigacyjne
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 16
Strony poprzedzające rezygnację z serwisu w danym miejscu
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 17
Konfiguracja a personalizacja (1)
Serwisy mogą być konfigurowane (customization) czyli dopasowywane przez użytkownika, najczęściej ręcznie. Przykład: my.yahoo.com - zmiana zawartości (prawy ekran), kolorów, układu; wszystko z ograniczonej listy.
Choose content. What’s on your page
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 18
Konfiguracja a personalizacja (2)
Serwisy mogą być personalizowane(personalization) czyli automatyczniedopasowywane przez system do użytkownika na podstawie jego profilu.
Osoby które kupowały "XML na poważnie" często kupowały też:
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 19
Profile użytkownikówProfil użytkownika może uwzględniać:
aktualne działania użytkownika (np. jakie strony właśnie odwiedził)dotychczasową historię działań użytkownika w serwisie (sposób poruszania się po serwisie, zakupy)wiedzę wynikającą z informacji przekazanych przez użytkownika (np. w procesie rejestracji) lub pochodzącą z innych systemów
Do personalizacji można także wykorzystać:profile innych, „podobnych” użytkownikówdane o serwisie (zawartość, struktura)informacje firmowe (związane z promocjami, strategią firmy – np. wydawnictwo nastawia się przede wszystkim na książki tłumaczone)
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 20
Koncepcja podpowiadania odsyłaczy
Web usage miningWeb content mining IntegracjaONLINE
OFFLINE
Utworzeniewektorów terminów,Grupowanie
Najbliższa tematyka Najbliższa grupa sesji
Integracja wektorówRanking stron
Utworzeniewektorów sesji.Grupowanie
wektor centroidu
Przeglądarka
Serwer WWW.Wektor aktual.sesji
wektor centroiduwektor sesji Podpowiedzi (URL-e)
Odp. HTTPŻądanie HTTP
Wydzielenie terminów zestron serwisu
Przestrzenie tematyczne- centroidy tematów
Identyfikacja sesji(logi)
Wzorce użycia - grupy,centroidy grup sesji
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 21
Problemy (1)Wybór właściwych deskryptorów (terminów dobrze opisujących treść)
- liczba dokumentów, w których występuje termin ti, kt1, kt
2, kt
3 - stałe, tf qi – częstość występowania terminu ti we
wszystkich pytaniach do wyszukiwarki, tfqmax – max. wartość
tf qi.
Wartość wag współrzędnych wektora, uwzględniające częstość i miejsce występowania terminu, wielkość strony, liczbę dokumentów, w których termin występuje
( ) ( )q
qi
tt
tt
t
tt
icu tftf
knkn
nkntf
i
i
i
i4
21 2exp* +
+
−−
−=
itn
max3
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 22
Problemy (2)Postać wektora aktualnej sesji, współrzędne:
waj =
λ — stała z przedziału [0,1], wyznaczona eksperymentalnie, przyjęto λ=0,95; na
j — kolejny nr dokumentu dj w aktualnej sesji w odwrotnym porządku.
Sposób dokonania integracji wektorów i rankingu dokumentów
ogladanybylnieddokumentdysesjiaktywnejwogladanybylddokumentgdy
j
jna
j
g,0,)(λ
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 23
Koncepcja podpowiadania odsyłaczy i banerów reklamowych - agenty
OFFLINE
ONLINE
Server WWWŻądanie HTTPOdpowiedź HTTP
sesjaużytkownika
najbliższeużycie
najbliższatematyka
Przeglądarka
Content Manager(wektory terminów i dokumentów)
Crawler
Content Miner(tematy, content mining)
User Assistent(generowanie stron HTML)
Banner Manager(URL-e banerów)
Banner Miner(wektory banerów)
Banner Recommender(najlepsze banery)
User Session Monitor(wektor aktualnej sesji)
Usage Miner(wzorce użycia, usage mining)
Hyperlink Recommender(łączenie centroidów, ranking)
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 24
Podpowiadanie odsyłaczy
Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 25
Dziękuję za uwagę!