Rzutowanie S owosieci na pojecia ontologii SUMO i inne...

33
Rzutowanie Slowosieci na pojęcia ontologii SUMO i inne zasoby semantyczne Pawel Kędzia, Maciej Piasecki, Michal Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej Politechnika Wroclawska ———— CLARIN-PL 27 IV 2016

Transcript of Rzutowanie S owosieci na pojecia ontologii SUMO i inne...

Page 1: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Rzutowanie Słowosieci na pojęcia ontologii SUMOi inne zasoby semantyczne

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, MarekMaziarz, Jan Wieczorek, Marcin Oleksy

Grupa Naukowa G4.19Katedra Inteligencji ObliczeniowejPolitechnika Wrocławska

————CLARIN-PL

27 IV 2016

Page 2: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Plan

Słowosieć a ontologia

Słowosieć a baza wiedzy

System zasobów wiedzy

Ontologia SUMO i związki z wordnetami

Rzutowanie na SUMO

Powiązania pomiędzy Słowosiecią a NELexicon 2.0

Odniesienia do Wikipedii

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 2 / 33

Page 3: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Słowosieć a ontologia

Słowosieć, ani żaden wordnet nie są ontologiami

ontologia: wymóg rozłącznych kategoriisieć: nakładanie się znaczeń jednostek o wspólnym hiperonimie

ontologia: precyzja definiowaniasieć: język potoczny a język naukowy, np. lew jako synonimlwa afrykańskiego

ontologia: kompletność opisusieć: struktura zależna od leksykalizacji

ontologia: hiperonimia jako drzewosieć: luki na poziomie pojęć ogólnych

ontologia: intencjonalny opis rzeczywistościsieć: warunkowana użyciem języka

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 3 / 33

Page 4: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Słowosieć a baza wiedzy

Słowosieć opisuje znaczenia leksykalne

Nie zawiera opisu bytów, faktów, ogólnej wiedzy o świecieNazwy własne z zasady nie były objęte opisem w ramachSłowosieci

nazwy stanowią otwartą klasę i mocno zależną od kontekstu

Wyjątkinazwy będące podstawą słowotwórczą do lematów, które sączęste w korpusiePolska –charakteryzowanie– polskiPolska Agencja Prasowa, PAP –synonimiamiędzyparadygmatyczna dla relacyjnych– papowski

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 4 / 33

Page 5: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Słowosieć jako interfejs pomiędzy tekstem a zasobamiwiedzy

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 5 / 33

Page 6: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

SUMO – Suggested Upper Merged Ontology

Darmowa, otwarta, rozszerzenia na licencji GNU GPL

Formalna: ≈ 25 000 termów, ≈ 80 000 aksjomatów

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 6 / 33

Page 7: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

SUMO – Suggested Upper Merged Ontology

Strona domowa: http://www.adampease.org/OP/

Cała zrzutowana na Princeton WordNet

Otwarte biomedyczne ontologie (OBO) częściowo zrzutowanena SUMO (http://www.adampease.org/OP/OBO.html)

FarsNet (WN języka perskiego) posiada rzutowanie na SUMO

Powiązana w MCR z WordNet Domains, Base Concepts, TopOntology oraz AdimenSUMO

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 7 / 33

Page 8: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Rzutowanie na SUMO

Co nam daje rzutowanie Słowosieci na SUMO?1 Przejście na poziom pojęć ontologicznych2 Ogólniejszy opis słów z tekstu – m.in. cechy klasyfikatora (role

semantyczne – selekcja cech)3 Powiązanie z innymi zasobami połączonymi z SUMO

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 8 / 33

Page 9: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Cechy stanowiące podstawę reguł przenoszenia relacji

Cel: przeniesienie relacji z PWN–SUMO na Słowosieć–SUMO

Relacje międzyjęzykowe (rzutowania) pomiędzy Słowosiecią iWordNetem:i-synonymy, i-hyponymy, i-part-of-meronymy, . . .

Relacje rzutowania pomiędzy WordNetem i SUMO:equivalent, instance of and subsumed,

Dziedziny synsetów Słowosieci i WordNetu:body, grp, food, loc, . . .

Wielka litera w pierwszym lemacie synsetu Słowosieci

Odwołałanie do konkretnych pojęć SUMO:Currency, GroupOfPeople, FieldOfStudy, Human, . . .

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 9 / 33

Page 10: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Proces rzutowania

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 10 / 33

Page 11: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Relacje rzutowania: PWN-SUMO oraz plWN-SUMO

1 equivalent (ekwiwalencja) – synset odpowiada pojęciu SUMOze względu na znaczenie synsetu, ze szczególnym wagąprzykładaną do denotacji synsetu,np. plant 2 –equivalent– Plant.

2 instance of (instancja) – denotacja synsetu jest instancjąpojęcia SUMO,np. Aristotle 1 –instance of– Man,lub jest elementem kolekcji denotowanej przez pojęcie SUMO,np. {Eden 2} –instance of– Region

3 subsumed (podklasa) – denotacja synsetu zawiera się wdenotacji pojęcia SUMOnp. {town 1} –subsumed– City.

4 R – inna relacja (tylko w rzutowaniu plWN–SUMO)

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 11 / 33

Page 12: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Reguły rzutowania (1)Typy

1 Proste – przenoszące relacjęoparte na relacji i-synonymy synonimii międzyjęzykowej,relacja: synset WordNetu – pojęcie SUMO jest kopiowana narelację synset Słowosieci – pojęcie SUMO.

2 Złożone – przenoszące bądź zmieniające relacjęna podstawie szeregu cech jest rozpoznawany typ relacjipomiędzy Słowosiecią i SUMOrelacja wynikowa może się różnić od analogicznej relacjipomiędzy WordNetem i SUMO

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 12 / 33

Page 13: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Reguły rzutowania (2)Reguła prosta zapisana w pseudokodzie

Algorithm 1 Przykłady prostych reguł rzutowania.

1: if R(PLWN PWN) = I-synonymy and R(PWN SUMO) = equ-ivalent then

2: R(PLWN SUMO) = equivalent3: end if4: if R(PLWN PWN) = I-synonymy and R(PWN SUMO) = in-stance of then

5: R(PLWN SUMO) = instance of6: end if7: if R(PLWN PWN) = I-synonymy and R(PWN SUMO) = sub-sumed then

8: R(PLWN SUMO) = subsumed9: end if

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 13 / 33

Page 14: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Przykłady prostych regułEfekt zastosowania prostych reguł z Algorytmu 1

Relacja subsumed:1 {kark 1 (body)} – subsumed – BodyPart → {kark 1 (body)} jesti-synonym {nape 1 (body)}

2 {mieczyk 1 (plant)} – subsumed – FloweringPlant →{mieczyk 1 (plant)} jest i-synonym {genus Gladiolus 1 (plant)}

Relacja instance of:1 {geometria rzutowa 1 (cogn)} – instance of – FieldOfStudy →

{geometria rzutowa 1 (cogn)} jest i-synonym dla {projective geometry 1 (cogn)}2 {Ateny 1 (loc)} – instance of – City → {Ateny 1 (cogn)} jesti-synonym {Athens 1 (cogn)}

Relacja equivalent:1 {czekolada 1 (food)} – equivalent – Chocolate →

{czekolada 1 (food)} jest i-synonym {chocolate 2 (food)}2 {wał rozrządu 1 (arte)} – equivalent – Camshaft →

{wał rozrządu 1 (arte)} jest i-synonym {camshaft 1 (arte)}

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 14 / 33

Page 15: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Reguły rzutowania (3)Reguła złożona zapisana w pseudokodzie

Algorithm 2 Przykłady reguł rzutowania, które odwołują się do dziedzinsynsetów Słowosieci i WordNetu

1: if R(PLWN PWN) = I-part-of-meronymy and R(PWN SUMO)= equivalent then

2: if PLWN SYNSET zaczyna się wielką literą then3: if D(PLWN) ∈ {loc} and D(PWN) ∈ {natobj} then4: R(PLWN SUMO) = instance of5: end if6: if D(PLWN) ∈ {rel} and D(PWN) ∈ {loc} then7: R(PLWN SUMO) = instance of8: end if9: end if10: end if

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 15 / 33

Page 16: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Przykłady reguł rzutowaniaZłożone reguły

Efekty zastosowania złożonych reguł z Algorytmu 2:1 {Europa Wschodnia 1 (loc)} – instance of – Europe →

{Europa Wschodnia 1 (loc)} – I-part-of-meronymy – {Europe 1 (natobj)} –instance of – Europe

2 {Europa Zachodnia 1 (loc)} – instance of – Europe →{Europa Zachodnia 1 (loc)} – I-part-of-meronymy – {Europe 1 (natobj)} –instance of – Europe

3 {Europa Południowo-Wschodnia 1 (loc)} – instance of –Europe → {Europa Południowo-Wschodnia 1 (loc)} – I-part-of-meronymy –{Europe 1 (natobj)} – instance of – Europe

4 {Amazonia 1 (loc)} – instance of – SouthAmerica →{Amazonia 1 (loc)} – I-part-of-meronymy – {South America 1 (natobj)} –instance of – SouthAmerica

5 {Hetmańszczyzna 1 (rel)} – instance of – Ukraine →{Hetmańszczyzna 1 (rel)} – I-part-of-meronymy – {Ukraine 1 (natobj)} –instance of – Ukraine

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 16 / 33

Page 17: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Reguły rzutowania (4)Reguła złożona zapisana w pseudokodzie

Algorithm 3 Przykłady reguł wykorzystujących dziedziny synsetów Sło-wosieci i WordNetu oraz pojęcia SUMO

1: if R(PLWN PWN) = I-part-of-holonymy and R(PWN SUMO)= subsumed then

2: if D(PLWN) ∈ {natphen} and D(PWN) ∈ {st} then3: if SUMO CONCEPT=DiseaseOrSyndrome then4: R(PLWN SUMO) = subsumed5: end if6: end if7: end if

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 17 / 33

Page 18: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Przykłady reguł rzutowaniaZłożone reguły

Efekty zastosowania złożonych reguł z Algorytmu 2:1 {dysplazja śmiertelna 1 (natphen)} – subsumed –DiseaseOrSyndrome → {dysplazja śmiertelna 1 (natphen)} –I-part-of-holonymy – {birth defect 1 (st)} – subsumed – DiseaseOrSyndrome

2 {zespół delecji 13q 1 (natphen)} – subsumed –DiseaseOrSyndrome → {zespół delecji 13q 1 (natphen)} –I-part-of-holonymy – {birth defect 1 (st)} – subsumed – DiseaseOrSyndrome

3 {fetopatia cukrzycowa 1 (natphen)} – subsumed –DiseaseOrSyndrome → {fetopatia cukrzycowa 1 (natphen)} –I-part-of-holonymy – {birth defect 1 (st)} – subsumed – DiseaseOrSyndrome

4 {ślepota z Rodrigue 1 (natphen)} – subsumed –DiseaseOrSyndrome → {ślepota z Rodrigue 1 (natphen)} –I-part-of-holonymy – {birth defect 1 (st)} – subsumed – DiseaseOrSyndrome

5 {pentalogia Cantrella 1 (natphen)} – subsumed –DiseaseOrSyndrome → {pentalogia Cantrella 1 (natphen)} –I-part-of-holonymy – {birth defect 1 (st)} – subsumed – DiseaseOrSyndrome

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 18 / 33

Page 19: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Reguły rzutowania (5)Przykłady przypadków kiedy typ relacji nie może być rozstrzygnięty automatycznie

Algorithm 4 Przykład przypadku kiedy typ relacji nie może być rozstrzy-gnięty automatycznie

1: if R(PLWN PWN) = I-part-of-meronymy and R(PWN SUMO)= subsumed then

2: if D(PLWN) ∈ {loc, body , arte, grp, . . . , class} then3: R(PLWN SUMO) = manually4: end if5: end if

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 19 / 33

Page 20: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Przykłady reguł rzutowaniaZłożone reguły

Efekty zastosowania złożonych reguł z Algorytmu 4:1 {okno 7 (arte)} – manually – Region → {okno 7 (arte)} –I-part-of-meronymy – {hotbed 2 (arte)} – subsumed – Region

2 {skrzydło 9 (arte)} – manually – Door → {skrzydło 9 (arte)} –I-part-of-meronymy – {door 1 (arte)} – subsumed – Door

3 {strzelnica 2 (loc)} – manually – Corporation →{strzelnica 2 (loc)} – I-part-of-meronymy – {amusement park 1 (loc)} –subsumed – Corporation

4 {biblioteka szkolna 1 (loc)} – manually – School →{biblioteka szkolna 1 (loc)} – I-part-of-meronymy – {school 2 (arte)} –subsumed – School

5 {oliwka 5 (body)} – manually – BodyPart → {oliwka 5 (body)} –I-part-of-meronymy – {medulla oblongata 1 (arte)} – subsumed – BodyPart

6 {węzina 1 (body)} – manually – ThyroidGland →{węzina 1 (body)} – I-part-of-meronymy – {thyroid gland 1 (arte)} – subsumed– ThyroidGland

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 20 / 33

Page 21: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Uaktualnianie rzutowania - Krok 1Redukcja relacji niedookreślonych R

RReduktor – redukuje niedookreślone relacje wynikające z wielurzutowań plWN-PWNPrzykład:abnegat.1(os) – hiper pa – slob.1 – Human – Rabnegat.1(os) – hipo pa – person.1 – Human – subsumed

agnegat.1(os) - subsumed - Human

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 21 / 33

Page 22: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Uaktualnianie rzutowania - Krok 2Poprawa typu relacji rzutującej

Bulbulator – propaguje wynik prostych reguł na pozostałerzutowania dla danej pary {znaczenie, pojęcie SUMO}Przykład:krzesło.1(wytw) – syn pa – chair.1(wytw) – Chair – equivalentkrzesło.1(wytw) – hipo pa – fighting chair.1(wytw) – Chair – subsumedkrzesło.1(wytw) – hiper pa – Eames chair.1(wytw) – Chair – subsumedkrzesło.1(wytw) – hiper pa – ladder-back.1(wytw) – Chair – subsumedkrzesło.1(wytw) – hiper pa – straight chair.1(wytw) – Chair – subsumedkrzesło.1(wytw) – hiper pa – tablet-armed chair.1(wytw) – Chair –subsumed

krzesło.1(wytw) - equivalent - Chair

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 22 / 33

Page 23: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Uaktualnianie rzutowania - Krok 3Poprawa typu relacji rzutującej

Oknak – dla danej pary {znaczenie, pojęcie SUMO} wyszukujeróżne kombinacje wystąpień relacji m.językowych i ustala typrelacji rzutującej.

mero:el pa oraz hipo pa→ subsumedmero:cz pa oraz hipo pa→ subsumedmero:cz pa oraz hiper pa→ subsumedsynmr pa oraz syncz pa→ subsumedsynmr pa oraz hipo pa→ subsumedsyn pa oraz hiper pa→ equivalenthipo pa oraz hiper pa→ instance of

lasek.1 – hipo pa – forest.1 – Forest – subsumedlasek.1 – synmr pa – forest.2 – Forest – equivalent

lasek.1 - subsumed - Forest

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 23 / 33

Page 24: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Uaktualnianie rzutowania - Krok 4Redukcja nadmiarowych rzutowań

Corec – Redukuje niepotrzebne rzutowania na podstawieszczegółowości pojęć

Znaczenie z1 posiada rzutowania na pojęcia A,B,C ,D

Znamy strukturę SUMO – wiemy, które pojęcie z którym jestpołączone

Jeżeli pomiędzy A,B,C ,D zachodzi relacja isA: wybieramypojęcie najbardziej szczegółowe

Relacje zachowujemy takie, jakie były przy konkretnychrzutowaniach

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 24 / 33

Page 25: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Uaktualnianie rzutowania - Krok 5Redukcja nadmiarowych rzutowań

Serdel – Dla zadanego znaczenia usuwa rzutowania naSubjectiveAssessmentAttribute – przy założeniu, że istnieją innedla niegoPrzykład:matnia.1(st) – subsumed – TrapOrCagematnia.1(st) – subsumed – SubjectiveAssessmentAttribute

matnia.1(st) -- subsumed -- TrapOrCage

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 25 / 33

Page 26: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Uaktualnianie rzutowania - Krok 6Generowanie nowych rzutowań

Rubin – Wykorzystując relacje międzyjęzykowe oraz strukturęhiperonimiczną WordNetów generuje nowe rzutowania

Rysunek: Rzutowanie plWN - PWN - SUMO

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 26 / 33

Page 27: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Ocena wyników algorytmu

Krok 1: Automatyczna ocena wyników algorytmu rzutowania:

Różne relacje wygenerowane dla tej samej pary {synsetSłowosieci, pojęcie SUMO}Zaobserwowany błąd: 0,06%

Krok 2: Ocena ręczna przez lingwistów:

Próbka 160 rezultatów rzutowania

Schemat oceny: 2+1

Trzy klasy: poprawne, niepoprawne, podłączony do hiperonimu

Zgodność pomiędzy anotatorami: 81%

Zmierzona dokładność rzutowania: 0,831 %

Co zrobić z synsetami zrzutowanymi za pomocą relacji R?

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 27 / 33

Page 28: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Statystyki rzutowania (1)Ogólne statystyki zrzutowanych i niezrzutowanych synsetów

Liczba rzutowań Kwiecień 2014: 87 550Liczba rzutowań Maj 2014: 92 810Liczba rzutowań Luty 2016: 175 635

Liczba zrzutowanych synsetów: 175 635, tj. 89.2% wszystkich

Tablica: Liczba synsetów Słowosieci zrzutowanych na SUMO ipozostawionych do decyzji (ręcznie)

POSRęcznie Zrzutowane Ręcznie [%]Maj2014

Luty2016

Maj2014

Luty2016

Maj2014

Luty2016

Rzeczownik 4 316 5 810 84 607 147 783 4,8 3,8Czasownik 1 25 17 498 5,5 5,0Przymiotnik 356 955 3 691 20 564 8,8 4,4

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 28 / 33

Page 29: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Statystyki rzutowania (5)Pięć najczęstszych pojęć SUMO w rezultatach rzutowania dla każdej relacji.

Relacja Znaczenie Liczba synsetów

Equivalent

Human 405SocialRole 274Position 270Bird 198Female 76

Instance of

City 1 689FieldOfStudy 1 262Human 1 164SocialRole 421Position 339

Subsumed

SubjectiveAssessmentAttribute 7 779Human 7 740Position 4 871FloweringPlant 4 442SocialRole 4 281

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 29 / 33

Page 30: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Powiązania pomiędzy Słowosiecią a NELexicon 2.0

Hierarchia kategorii nazw w NELexicon 2.0 (2,4 mln nazwwłasnych): 102 kategoria, 3 poziomyRęczne rzutowanie kategorii najniższego poziomu na wybranesynsety

np. nam liv plant → roślina 1w niektórych przypadkach więcej niż jeden synsetnp. nam eve human aniversary→rocznica 2, rocznica 1

Ręczne rzutowanie na pojęcia SUMO80 ze 102 kategorii zrzutowanychnp. nam pro model car → SelfPoweredRoadVehicle

Automatyczne rzutowanie nazww oparciu o miarę powiązania znaczeniowego wydobytą zkorpusu, pary wydobyte przez wzorce z tekstu oraz strukturyWikipediiza pomocą WordnetWeaver

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 30 / 33

Page 31: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Odniesienia do Wikipedii

Ręcznie dodane powiązania do haseł Wikipediisynset ←→ hasło Wikipediinp. Polska 1{##L http://pl.wikipedia.org/wiki/Polska}

Dodawane tylko wtedy, gdy jednostka leksykalna ze Słowosiecioznacza ten sam byt (np. zwierzę/roślinę etc.), które opisanejest w haśle Wikipedii,Wszystkie elementy synsetu mają te samo powiązaniejeżeli Wikipedia omawia jakiś takson, który określony jestliczbą mnogą (np. kręgowce), to nie można takiego hasłałączyć z jednostką, która jest wyrażona w liczbie pojedynczej(np. kręgowiec)Synsety połączone bliskoznacznością opatrujemy tym samympowiązaniemŁączna liczba powiązań: około 54 tys.

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 31 / 33

Page 32: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Podsumowanie

Reguły wykorzystujące wyniki ręcznego rzutowania WordNetna SUMO oraz ręcznego rzutownania międzyjęzykowegopozwoliły na zbudowania efektywnych reguł rzutowania naSUMO

Słowosieć stała się interfejsem pomiędzy zasobami wiedzy ajęzykiem

Powiązania pomiędzy NELexicon a Słowosiecią wymagająpogłębienia z poziomu kategorii do indywidualnych nazw

System zasobów jest dalej rozszerzony przez powiązania dostruktur walencyjnych (Walenty) oraz słownikawielowyrazowych jednostek leksykalnych

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 32 / 33

Page 33: Rzutowanie S owosieci na pojecia ontologii SUMO i inne ...clarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-premier... · Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk,

Paweł Kędzia, Maciej Piasecki, Michał Marcińczuk, Marek Maziarz, Jan Wieczorek, Marcin Oleksy (II,PWr)27 IV 2016 33 / 33