SYSTEMY WYSZUKIWANIA INFORMACJIzsi.tech.us.edu.pl/~nowak/swi/SWI_w2.pdf ·...

Post on 08-Jul-2020

1 views 0 download

Transcript of SYSTEMY WYSZUKIWANIA INFORMACJIzsi.tech.us.edu.pl/~nowak/swi/SWI_w2.pdf ·...

SYSTEMY WYSZUKIWANIA INFORMACJI

Agnieszka Nowak - Brzezińska

17 października 2019

Wykład 2

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Prosty język deskryptorowy

Języki informacyjno-wyszukiwawcze (JIW) – język sztuczny owyspecjalizowanych funkcjach odtwarzania treści i formydokumentów oraz treści zapytań użytkowników a takżewyszukiwania dokumentów w zbiorze informacyjnym wodpowiedzi na zapytanie użytkownika.Rodzaje JIW: Języki deskryptorowe, Języki słów kluczowych,Języki haseł przedmiotowych, i inne.Do opisu obiektów oraz do zadawania pytań i generowaniaodpowiedzi w systemie wyszukiwania informacji S zdefiniowanyzostał język informacyjny LS . Jest on prostym językiemdeskryptorowym określonym jako para (alfabet, gramatyka).

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Alfabet języka LS

Alfabet języka LS składa, się z następujących symboli:1 0,1 - stałe,2 A - zbiór nazw atrybutów,

V - zbiór nazw wartości atrybutów. (W dalszym ciągu zbiórnazw atrybutów i zbiór nazw wartości atrybutów będzienazywany: zbiorem atrybutów, zbiorem wartości atrybutów).

3 + ,·,v - symbole operacji logicznych ”lub”, ”i”, ”nie”,4 (,)- nawiasy.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Gramatyka języka LS

Gramatyka języka LS zadana jest przez określenie zbiorudopuszczalnych słów (termów) języka i ich znaczenia (wartości).Zbiór termów TS języka LS określony jest w następujący sposób:

1 stale 0,1są termami w LS ,2 każdy deskryptor (a, v), gdzie a ∈ A, v ∈ Va- jest termem

w LS ,3 jeżeli t, t

′są termami t, t

′ ∈ TS to:v t- jest termem w LS ,t + t

′- jest termem w LS ,

t · t ′ - jest termem w LS .Przykładem termu języka LS jest:

t = (Wydawnictwo,PWN),t = (Wydawnictwo,PWN) · (Rok wydania, 2003),t = (Wydawnictwo,PWN)+(Dziedzina, Informatyka)itp.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Znaczenie termów

Znaczenie termów określa funkcja σ odwzorowująca zbiór termówTS systemu S w zbiór obiektów X :

σ : TS → P(X ) (P(X )− rodzina podzbiorów zbioru X ).

Funkcja σ jest określona w następujący sposób:1 σ(0) = ∅ σ(1) = X ,2 σ(a, v) = { x ∈ X : ρx(a) = v },3 σ(v t) = X\σ(t),σ(t + t

′) = σ(t) ∪ σ(t ′),

σ(t · t ′) = σ(t) ∩ σ(t ′).

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Znaczenie termów c.d.

Znaczeniem termu będącego stałą 0 jest zbiór pusty, a termubędącego stałą 1 - pełny zbiór obiektów.Znaczeniem (wartością) deskryptora jest zbiór obiektów,w których opisie dany deskryptor występuje.Znaczeniem negacji termu jest dopełnienie zbioru obiektówopisanych tym termem do zbioru pełnego.Wartością (znaczeniem) sumy (iloczynu) termów jest suma(iloczyn) zbiorów obiektów będących wartościami tych termów.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Term elementarny

Term t będziemy nazywać elementarnym, jeżeli tma postać:

t = (a1, v1) · (a2, v2), . . . , (am, vm) , gdzie ai ∈ A, vi ∈ Vai .

Zbiór termów elementarnych oznaczać będziemy TE . Przykłademtermu elementarnego dla systemu o trzech atrybutach:Wydawnictwo, Rok wydania i Dziedzina, będzie term postaci:

t = (Wydawnictwo, PWN) · (Rok wydania, 2003) · (Dziedzina,informatyka).

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Jeżeli atrybutami w pewnym systemie są np.: wiek, wzrost, koloroczu, płeć, a wartościami tych atrybutów są przykładowo: 33 lata,182 cm. niebieski, kobieta, wówczas odpowiedni term elementarnymożna zapisać jako:

t = (wiek, 33) · (wzrost, 182) · (kolor oczu, niebieski) · (płeć,kobieta).

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Własności termów elementarnych

Jeżeli przez dj oznaczymy deskryptor (aj , vj) , to term elementarnymożna zapisać jako iloczyn deskryptorów z każdego atrybutu:

t = d1 · d2 · . . . · dm

.Termy elementarne mają następujące własności:

1∧

t,t′∈TE ,t 6=t′ (σ(t) ∩ σ(t′) = ∅),

2⋃

t∈TEσ(t) = X

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Normalizacja termów

Normalizacja tekstu – proces przetwarzania tekstów, nadającymu spójną formę, ułatwiającą dalszą interpretację. Częstostosowana jako etap wstępny do późniejszego parsowania.Założeniem normalizacji jest zmiana formy przetwarzanegotekstu z formy pisanej na mówioną. W takim ujęciuzagadnienie to przypomina tłumaczenie automatyczne, gdzietłumaczony jest tekst pisany na tekst mówiony.Normalizacja termów - proces przetwarzania termów, nadającyim formę sumy termów elementarnych, co pozwala na szybkiewyszukiwanie odpowiedzi na pytania w postaci termówelementarnych (m.in. w metodzie składowych atomowych).

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Term normalny i term składowy

Term t nazywać będziemy normalnym jeśli jest on sumą termówelementarnych: t = t1 + t2 + . . .+ tm, ti ∈ TE (i = 1, . . . ,m).Term t będący iloczynem wartości różnych atrybutów języka LS opostaci t = d1 · d2 · . . . · dk , k ≤ m nazywać będziemy termemskładowym. Zatem term składowy nie musi zawierać wszystkichatrybutów systemu S . Term elementarny stanowi szczególnyprzypadek termu składowego. Na przykład dla systemu o 4atrybutach: wiek, wzrost, kolor oczu, płeć, term składowy możemieć postać:

ts = (wiek, 33) · (kolor oczu, niebieski),lub

t′s = (wzrost, 170) · (płeć, kobieta) · (kolor oczu, niebieski).

Odpowiedzią na podany term ts będzie zbiór osób posiadającychwyżej wymienione cechy, tzn. w wieku 33 lat i o kolorze oczuniebieskim, a na term t

′s odpowiedzią będzie zbiór kobiet o wzroście

170 i niebieskich oczach.Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Równość i zawieranie termów w systemie S

Powiemy, że termy t i t′są równe w systemie S - (symbolicznie

t = t′) wtedy i tylko wtedy, gdy wartości termów są równe:

t = t′ ⇔ σ(t) = σ(t

′)

Term t jest zawarty w t′(t ≤ t

′) wtedy i tylko wtedy, gdy zbiór

obiektów odpowiadający wartości termu t′jest zawarty w zbiorze

obiektów odpowiadających wartości termu t :

t ≤ t′ ⇔ σ(t

′) ⊆ σ(t)

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Równość i zawieranie termów w systemie S - przykład

Weźmy pod uwagę dwa termy:

ts = (wiek, 33) · (kolor oczu, niebieski),

t = (wzrost, 170) · (płeć, kobieta) · (wiek, 33) · (kolor oczu,niebieski).

Odpowiedzią na pytanie t będą zatem te osoby, które sąodpowiedzią na pytanie ts i spełniają dodatkowe warunki ((wzrost,170) i (płeć, kobieta)). Łatwo zauważyć, że ts ≤ t, gdyżσ(t) ⊆ σ(ts).

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Znaczenie termów - przykłady:

Niech alfabetem dla systemu S będą: Stałe: 0 i 1 Symbole: +,*,∼, →, ↔ Atrybuty: {a, b, c} i ich wartości:{v1, v2,w1,w2, u1, u2, u3}

Termy:

(a, v1) + ((b,w2) ∗ (c , u2))

∼ [(a, v2) ∗ (a, v1)] ∗ (c, u3)(b,w1) + (c , u1)

(b,w1)→ (c , u1)

(a, v2)↔ (b,w2)

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Znaczenie termów - przykłady:

Wtedy znaczeniem termu:

(a, v1) + ((b,w2) ∗ (c , u2))

będzie:σS((a, v1) + ((b,w2) ∗ (c , u2)) =

{x1, x3, x4, x6} ∪ ({x3, x4, x5} ∩ {x1}) = {x1, x3, x4, x6}

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Znaczenie termów - przykłady:

Wtedy znaczeniem termu:

∼ [(a, v2) ∗ (a, v1)] ∗ (c, u3)

będzie:

σS(∼ [(a, v2) ∗ (a, v1)] ∗ (c , u3)) =∼ ∅ ∪ {x2, x5, x6} = X

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Przykład systemu informacyjnego

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Zastosowanie modelu funkcyjnego do opisu metodwyszukiwania informacji

Stosując założenia systemu funkcyjnego, zdefiniowane pojęcia orazprosty język deskryptorowy przedstawimy opis znanych metodwyszukiwania informacji, zwracając szczególną uwagę na samproces wyszukiwania.Omawiając metody wyszukiwania informacji z punktu widzeniasystemu wyszukiwania informacji przeanalizujemy następująceparametry tych metod, istotne przy wyborze metody wyszukiwaniaw realizowanym systemie:

1 Strukturę (organizację) bazy danych2 Redundancję i zajętość pamięci3 Aktualizację bazy danych4 Czas wyszukiwania informacji5 Język wyszukiwania6 Tryb pracy systemu.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Ad 1. Problem struktury bazy danych będzie rozpatrywanyjedynie z punktu widzenia organizacji kartoteki wyszukiwawczejdla danej metody wyszukiwania - nie będziemy tu wchodzićw szeroki problem struktur danych i baz danych.Ad 2. Redundancję będziemy rozpatrywać jako redundancjęobiektową (powielenie się opisu obiektów w bazie danych) lubadresową (powielenie się adresów). Zajętość pamięci będziemyrozpatrywać głównie jako zajętość pamięci związanąz wprowadzaną kartoteką wyszukiwawczą.Ad 3. W procesie aktualizacji będziemy uwzględniaćaktualizację związaną ze zmianą liczby obiektów w baziedanych (dodanie obiektu, usunięcie obiektu), aktualizacjęzwiązaną ze zmianą opisu deskryptorowego obiektu.Ad 4. Czas wyszukiwania będzie to czas potrzebny naznalezienie odpowiedzi na pytanie skierowane do systemu.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Przegląd metod wyszukiwania informacji

MLPMLIMLŁSaltonMSA

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Metoda list prostych

W metodzie list prostych, zwanej również metodą przegląduzupełnego, kolejność pamiętania informacji w bazie danych systemujest dowolna (np. zgodna z kolejnością napływania informacji).Informacje mogą być pamiętane w postaci dokumentów źródłowychlub w postaci dokumentów wtórnych. Do systemu zadawane jestpytanie dotyczące obiektu o wskazanym opisie. Pytanie toporównywane jest z opisem każdego obiektu w bazie danych i jakoodpowiedź wybiera się te obiekty, których opis jest zgodnyz pytaniem.Znalezienie odpowiedzi na pytanie zadane do systemu wymagaw tej metodzie dokonania przeglądu wszystkich opisów obiektóww bazie danych (przegląd zupełny).

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Metoda list inwersyjnych

Opisy obiektów w tej metodzie są określone przez podanie wartościcech, za pomocą których opisujemy obiekty w systemie -deskryptorów. Dla każdego deskryptora w systemie tworzona jestlista obiektów zawierających w swoim opisie ten deskryptor (listainwersyjna). Listy inwersyjne pozwalają szybko znaleźć odpowiedźna pytanie zadane do systemu. Jeżeli pytamy o obiekty mające wswoim opisie określony deskryptor, to dla znalezienia odpowiedziwystarczy znaleźć właściwą listę inwersyjną. Jeżeli pytanie dotyczyobiektów opisanych kilkoma deskryptorami, to aby otrzymaćodpowiedź, należy znaleźć listy inwersyjne dla wszystkichdeskryptorów występujących w pytaniu. Obiekty występującerównocześnie we wszystkich znalezionych listach stanowiąodpowiedź na pytanie. Zatem dla znalezienia odpowiedzi na pytanieskierowane do systemu wystarczy wykonać pewne operacje nalistach inwersyjnych. Jest ona stosowana bardzo częstow rozwiązaniach projektowych, choć zwykle w postaci pewnychmodyfikacji.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Metoda list łańcuchowych

Obiekty opisane są za pomocą deskryptorów, tak jak w metodzielist inwersyjnych. Opisy obiektów pamiętane są w bazie danychw dowolnej kolejności (tak jak w metodzie list prostych). Przykażdym deskryptorze w opisie obiektu umieszczone są odsyłaczewskazujące kolejny obiekt, w którego opisie dany deskryptorwystępuje. W ten sposób w bazie danych łatwo znaleźć tzw.”łańcuch” będący zbiorem obiektów, których opisy zawierają danydeskryptor. Jeżeli pytanie do systemu dotyczy obiektówzawierających w swoim opisie równocześnie kilka deskryptorów, tonależy znaleźć ”łańcuchy” obiektów dla każdego deskryptorawystępującego w pytaniu, a następnie obiekty występującerównocześnie we wszystkich tych łańcuchach. Wyszukane w tensposób obiekty będą stanowić odpowiedź na pytanie. Metoda dajeszybką odpowiedź szczególnie na pytanie jednodeskryptorowe.Metoda list łańcuchowych stosowana jest często w rozwiązaniachprogramowych systemów, niejednokrotnie w wersjach niecozmodyfikowanych.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Metoda Saltona

W metodzie Saltona następuje podział wszystkich obiektów nagrupy o podobnym opisie. Każda grupa jest poprzedzonaokreślonym wektorem pojęć charakterystycznych dla danej grupy(wektor centroidalny, profil).Wyszukiwanie odpowiedzi polega na porównaniu pytaniaz wektorami pojęć charakteryzujących poszczególne grupyobiektów, a następnie wybraniu grup o wektorze najbardziejzbliżonym do pytania. Obiekty występujące w tych grupachstanowią tzw. odpowiedź przybliżoną na pytanie. Następniedokonuje się przeglądu zupełnego wybranych obiektów dlaznalezienia odpowiedzi dokładnej, tzn. obiektów, których opisydokładnie odpowiadają pytaniu.Proces grupowania i porównywania pytania z pniami czy wektoramipojęć odbywa się poprzez znajdowanie współczynnikówpodobieństwa pomiędzy pojęciami występującymi w opisachobiektów a pojęciami występującymi w pytaniu lub pojęciamiwystępującymi w wektorze pojęć danej grupy.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Metoda składowych atomowych

Wszystkie obiekty w bazie danych dzielimy na tzw. ”składoweatomowe”, tzn. podzbiory obiektów o identycznym opisie. W baziedanych pamiętane są adresy składowych atomowychi odpowiadające im zbiory obiektów.Dla zadanego pytania łatwo znaleźć adres odpowiedniej składowejatomowej a przez to odpowiedź na zadane pytanie.Wyszukiwanie odpowiedzi na pytanie odbywa się szybko.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Bibliografia

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Bibliografia

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Bibliografia

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Bibliografia

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Bibliografia

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Bibliografia podstawowa:

Pawlak Z.: Systemy informacyjne. Podstawy teoretyczne,Warszawa, WNT, 1983.

Salton G.: SMART automatyczny system wyszukiwaniainformacji, Warszawa, WNT, 1975.

Wakulicz-Deja A., Boryczka U., Nowak - Brzezińska A.:Podstawy Systemów Wyszukiwania Informacji. Analiza metod,EXIT, Warszawa, 2014.

Grzelak K., Kochańska J.: System wyszukiwania informacjimetodą składowych atomowych MSAWYSZ, Warszawa :Instytut Podstaw Informatyki Polskiej Akademii Nauk, 1983.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI

Bibliografia dodatkowa:

Dąbrowski M., Laus-Mączyńska K.: Metody wyszukiwania iklasyfikacji informacji, Warszawa, WNT, 1978.

Van Rijsbergen C.J.: Information Retrieval,Butterworth-Heinemann, ISBN 0408709294, 2009.

Wakulicz-Deja A.: Metody wyszukiwania informacji.Zagadnienie implementacji, (skrypt U. Śl.) Katowice, 1985.

Kłopotek M.A.: Inteligentne wyszukiwarki internetowe.Akademicka Oficyna Wydawnicza Exit, Warszawa 2001, ISBN83-87674-31-1.

Wakulicz-Deja A.: Podstawy systemów wyszukiwaniainformacji. Analiza metod., Akademicka Oficyna Wydawnicza,Warszawa, 1995.

Agnieszka Nowak - Brzezińska SYSTEMY WYSZUKIWANIA INFORMACJI