Systemy Wyszukiwawcze
-
Upload
stanislaw-skorka -
Category
Technology
-
view
3.484 -
download
6
description
Transcript of Systemy Wyszukiwawcze
Systemy wyszukiwawcze
Dr Stanisław Skórka
Systemy wyszukiwania informacji. Wykład 3
System wyszukiwania informacji• S. wyszukiwawczy, s. informacyjno-
wyszukiwawczy• System przetwarzający informację,
który z informacji wejściowych (dokumentów, stron WWW) tworzy zbiór wyszukiwawczy poprzez odpowiednie transformacje, dokonując w nim przeszukiwania na podstawie określonej dla danego systemu relacji relewancji technicznej (dopasowania instrukcji wyszukiwawczej do elementów zbioru wyszukiwawczego)
Wyszukiwarka
• Usługa sieciowa umożliwiająca odnajdywanie w Internecie dowolnych informacji określonych za pomocą słów kluczowych i operatorów (instrukcji wyszukiwawczych, zapytań)
• baza danych tworzona automatycznie
• ang. search engine
Wyszukiwanie: pojęcia
• wyrażenie – ciąg znaków w postaci słowa lub skrótu,
• słowo kluczowe – wyrażenie odzwierciedlające potrzebę informacyjną zawartą w zadaniu wyszukiwawczym, np. kufi,
• zapytanie – jedno lub więcej wyrażeń skierowanych do wyszukiwarki, mogące zawierać m.in. operatory logiczne lub modyfikatory,
• strona wynikowa – strona WWW zawierająca adresy do dokumentów wzbogacone streszczeniem ich zawartości odpowiadającej wysłanemu zapytaniu (trafienia).
Wyszukiwanie według użytkownika
ZapytanieInstrukcja wyszukiwawcza
ZapytanieInstrukcja wyszukiwawcza
Czarna magia
(przetwarzanie)
WynikInformacja wyjściowa
WynikInformacja wyjściowa
S.w. wczoraj
1996 r.
2007 r.2007 r.
1994 - powstaje WebCrawler prekursor dzisiejszych wyszukiwarek
Posługiwanie się wyszukiwarką do odnajdywania informacji uznaje się
za tradycyjną metodę poszukiwania, gdyż stosowana jest od wielu lat w bazach danych oraz
zintegrowanych systemach bibliotecznych…
…jednak jej skuteczność nie jest tak wysoka. Powodem jest brak jednolitej
struktury dokumentów hipertekstowych, w przeciwieństwie
do baz danych, zbudowanych z rekordów, pól i podpól oraz
przechowywanie w swojej strukturze wielu form przekazu (tekst, grafika
i dźwięk).
Anatomia s.w.
Morville, Rosenfeld, s. 163
Elementy budowy wyszukiwarki
• robot (pajączek), który jest programem przeszukującym strony internetowe i umieszczającym je w bazie danych wyszukiwarki
• baza danych (indeks), przechowuje strony znalezione przez pajączka
• moduł wyszukujący, przegląda bazę danych w poszukiwaniu stron odpowiadających zapytaniu użytkownika
Działanie wyszukiwarki Indeksowanie
Architektura informacji a wyszukiwanie
1. Interfejs2. Strefy wyszukiwania3. Metody przeszukiwania4. Prezentacja wyników5. Efektywność wyszukiwania
1. Interfejs
Interfejsy proste
Interfejsy zaawansowane
2. Strefy wyszukiwania
• podzbiory serwisu indeksowane oddzielnie
• możliwość zwiększenia precyzji wyszukiwania
• zaczerpnięte z baz danych (pola indexowane)
Kryteria wyboru
• typ zawartości• audytorium• rola / funkcja• geografia• chronologia• autor• dział / jednostka organizacyjna
Strefy wyszukiwania
3. Metody przeszukiwania
Modele klasyczne
• boolowskiboolowski: oparty na algebrze Boole’a, dokumenty i zapytania reprezentowane są przez terminy indeksowe (dokumenty relewantne i nierelewantne)
• zalety: jasno sformułowane kryteria przeszukiwnia
• wady: zbyt dokładne dopasowywanie, przejawiające się zbyt małą lub zbyt dużą liczbą trafień
Modele klasyczne
wektorowy: dokumenty i zapytania uważane są za wektory w wielowymiarowej przestrzeni (stosuje tzw. dopasowanie częściowe)
• zalety: stosuje schemat tzw. ważenia terminów, częściowe dopasowanie pozwala odszukać dokumenty przybliżone tematyką do zapytania, jest elastyczny w stosowaniu strategii rankingowej
• popularny wśród projektujących
Modele
probabilistyczny: oparty na teorii prawdopodbieństwa,
• zaleta: porządkuje wyniki według prawdopodobnej relewancji
• wady: konieczność rozpoznawania dokumentów relewantnych od nierelewantnych, nie analizuje frekwencyjności terminów w treści,
4. Prezentacja wyników
Metody porządkowania trafień
• Sortowanie
wg kryteriów formalnych: chronologicznie, alfabetyczne
• Ranking
oparty na ocenie zgodności z zapytaniem
Elementy składowe trafienia
• nagłówek (link)• opis (2-3 wiersze)• adres URL
Prezentacja wyników
Prezentacja wyników (2)
5. Skuteczność wyszukiwania
5. Skuteczność wyszukiwania
odpowiedź = liczba wyszukanych relewantnych dokumentów / liczba wszystkich relewantnych dokumentów
precyzja = liczba wyszukanych relewantnych dokumentów / liczba wszystkich wyszukanych dokumentów
Opcje, ułatwienia
Wskazówki
• Użytkownicy oczekują od wyszukiwarek:– pola do wpisania instrukcji
wyszukiwawczej– przycisku z etykietą Szukaj– listy najlepszych wyników, ułożonych
liniowo i ws sposób priorytetowy na nowej stronie
Wskazówki (2)
• Pole wyszukiwania (hasłowe) powinno mieć szerokość 27 znaków, co zapewni 90% uzytkownikom wpisanie całej instrukcji wyszukiwawczej
• niewielu użytkowników używa opcji wyszukiwania zaawansowanego – unikaj jej na pierwszej stronie
• Stosuj opcję Czy chodziło ci o…• Użytkownicy najczęściej stosują zapytania
złożone – uwzgledniaj to w sekcji opisie strony
• Zasada „Najlepszego strzału” (nazwa produktu, nazwisko dyrektora, nazwa kategorii)
• Specjalista od SEO (Search Engine Optimization)
• Sztuczki oszustów (cloacking, spam wyszukujący, fałszywe komentarze, farmy odnośników)
Wskazówki (3)
Literatura
1. J. Nielsen, H. Loranger, Optymalizacja funkcjonalności serwsów internetowych. Gliwice 2007.
2. R. Baeza-Yates, B.Ribeiro-Neto, Modern Information Retrieval. Addison Wesley 1999.
3. L. Rosenfeld, P. Morville, Architektura informacji…, s. 159-206.
• Wykład prof. R. Tadeusiewicza: http://www.ap.krakow.pl/iinib/spai/wyklady/