CLARINclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-infrast... · Np. pomoc, wsparcie...

26
CLARIN-PL CLARIN – infrastruktura naukowa technologii językowych Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 [email protected] 2016-04-25

Transcript of CLARINclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-infrast... · Np. pomoc, wsparcie...

CLARIN-PL

CLARIN – infrastruktura naukowa technologii językowych

Maciej Piasecki Politechnika Wrocławska

Katedra Inteligencji Obliczeniowej

Grupa Naukowa G4.19

[email protected] 2016-04-25

Przykład: analiza pojęcia

Problem:

znalezienie w tekstach odwołań do pojęcia książka

analiza przypisywanych cech i powiązań z innymi pojęciami

Przykłady z sieci:

W książce rękopiśmiennej najczęściej występowało

ukształtowanie jedno- lub dwukolumnowe. (Wikipedia)

W ciągu dziesięciu lat powstały cztery książki, nie jest to więc

oszałamiający dorobek. (http://ksiazkioli.blogspot.com/)

Jak napisać fascynującą książkę z intrygującą fabułą i odnieść

sukces? (sites.google.com/site/pisarstwo/)

Za książką kryje się autor. Jego pisanie jest więc zawsze listem

do czytelnika. Piszemy zazwyczaj listy do przyjaciół. Książka

jest listem autora do przyjaciela. [Jarosław Iwaszkiewicz]

(za: http://www.sp21.lublin.pl/biblioteka/cytaty.htm)

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

Przykład: Mapa Literacka

Literaturoznawstwo – badania geokrytyczne

przestrzeni kreowanej w tekstach literackich

analiza przestrzeni kulturowych związanych ze środowiskiem elity intelektualnej w okresie powstania utworu

Selekcja dzieł literackich oraz tekstów (pamiętników, reportaży, listów) związanych z postacią wybranego twórcy

Odtwarzanie mapy mentalnej

miejsca, które mają znaczenie dla danego twórcy

miejsca, obiekty ważne w ówczesnej epoce literackiej lub na ówczesnej mapie politycznej

Wizualizacja

miejsc obecnych w powieści, np. ilustracja ścieżek pisarzy

tworzenie mapy miejsc fikcyjnych

Wsparcie: analizy prowadzone na dużym korpusie tekstów

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

Przykład: droga do realizacji

Wizualizacja miejsc obecnych w powieści

przetwarzanie wstępne:

analiza morfologiczna i morfo-syntaktyczna

Słowa, lematy, klasy gramatyczne

rozpoznanie i klasyfikacja jednostek pozasłownikowych, np. nazw własnych

powiązanie wyrażeń językowych z obiektami mapy

Np. miejsca nie są często nazwane w tekście nazwą a opisane wyrażeniem złożonym: nazwy, wyrażenia przestrzenne, relacje semantyczne, deskrypcje określone

funkcje geolokalizacji mapy

skonfigurowanie systemu: instalacja narzędzi, dopasowanie formatów, problemy wydajnościowe, wizualizacja wyników, …

Wnioski:

problemy użytkownika z użyciem istniejącej technologii językowej, konieczność rozszerzenia tej technologii

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

Przykład: droga do realizacji

Mapy wyobrażeniowe

brak oparcia na istniejącej mapie i geolokalizacji

konieczność głębokiej i szczegółowej analizy informacji zawartej w tekście

rozpoznawanie niedospecyfikowania i sprzeczności

budowa bazy wiedzy o świecie z tekstu zawierającej model mapy

wizualizacja mapy na podstawie bazy wiedzy

Wnioski:

poważne i ciekawe wyzwania

należałoby bardzo poprawić pokrycie i dokładność głębokiej analizy składniowo-semantycznej

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

Bariery w zastosowaniu

technologii językowej

Fizyczna

narzędzia i zasoby nie są dostępne w sieci

Informacyjna

brak opisu narzędzi i zasobów

brak katalogów i możliwości łatwego odnalezienia

Technologiczna

brak standardów, możliwości łączenia elementów technologii

brak wspólnej platformy – różnorodność rozwiązań technologicznych

brak sprzętu o określonych parametrach

Wiedzy

wymagane umiejętności programistyczne

wymagana wiedza z zakresu inżynierii języka naturalnego

Prawna

licencje ograniczające dostęp i wykorzystanie

szczególnie w odniesieniu do korpusów

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

Bariery w zastosowaniu

technologii językowej

Fizyczna

dostępność: www.clarin-pl.eu, www.clarin.eu

Informacyjna

opis: metadane, dokumentacja

katalog: Virtual Language Observatory

Technologiczna

standardy: CMDI, unifikacja standardów dla narzędzi

platforma – WebLicht, platforma polska w ramach CTJ CLARIN-PL

sprzęt: Centrum Technologii Językowych CLARIN-PL

Wiedzy

aplikacje badawcze rozwijane wspólnie z użytkownikami

CTJ działające jako centrum typu K (szerzenia wiedzy)

Prawna

otwartość! (ang. Open source, open access) otwarte rozwiązania!

trudne w odniesieniu do korpusów, ale model otwartości wyników przetwarzania

Finansowa: otwartość kosztuje, a kto płaci? MNiSW?

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

CLARIN

CLARIN ERIC (Common Language Resources and

Technology Infrastructure European Research

Infrastructure Consortium)

Wspólne zasoby językowe i infrastruktura technologiczna

część europejskiej (ESFRI) i polskiej mapy drogowej

infrastruktury naukowej

Czym jest

rozproszona infrastruktura badawcza technologii językowych

dla nauk humanistycznych i społecznych

kilkadziesiąt centrów technologicznych w 15 krajach

działających jako jeden wspólny system

jednolity dostęp do zasobów językowych oraz narzędzi i

aplikacji badawczych do analizy tekstu i mowy w wielu

językach europejskich

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

CLARIN ERIC – Centres

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

CLARIN – Członkowie

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

15 członków:

Austria

Bułgaria

Czechy

Dania

Dutch Language Union

Estonia

Grecja

Holandia

Litwa

Niemcy

Norwegia

Polska

Portugalia

Słowenia

Szwecja

Włochy

Obserwatorzy:

Wielka Brytania

Podstawowe pojęcia

Zasoby językowe

zbiory danych i bazy danych opisujące język naturalny oraz jego

użycie

sformalizowany opis wybranych aspektów języka naturalnego

Narzędzia językowe

programy komputerowe do przetwarzania tekstu i mowy na różnych

poziomach analizy języka naturalnego

automatyczna analiza struktur językowych, np. analiza składniowa

zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw

własnych

Technologia językowa = zasoby + narzędzia + infrastruktura

Infrastruktura językowa

wspólna baza technologiczna zapewniająca połączenie

zróżnicowanych narzędzi i zasobów językowych

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

Podstawowe funkcje CLARIN

Ułatwienie dostępu do zasobów językowych

federacja repozytoriów – Virtual Language Observatory

federacyjne przeszukiwanie korpusów – Federated Content

Search

Wsparcie dla automatycznej analizy tekstu i mowy

paleta gotowych do użycia narzędzi językowych

usługi sieciowe (Web Services) i aplikacje narzędziowe

dostęp poprzez repozytoria

typowe zestawy, możliwość tworzenia własnych zestawów

Aplikacje badawcze

budowane pod konkretne potrzeby, często we współpracy z

użytkownikami

oparte na technologii językowej, ale nie `narzucające’ jej

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

Podstawowe funkcje CLARIN

Infrastruktura Szerzenia Wiedzy (Knowledge Sharing Infrastructure)

centra CLARIN typu K – oferujące dostęp do wiedzy eksperckiej i wsparcie, fizyczne i wirtualne

poradniki i punkty informacyjne, warsztaty, itd.

Wymogi dla centrum typu K (wybrane)

strona WWW z jasno określonym zakresem usług

Np. pomoc, wsparcie techniczne lub technologiczne, kursy, …

Zapewniają reaktywne usługi, np. odpowiedzi na zapytania użytkowników w ciągu 2 dni roboczych

Dysponują odpowiednią kadrą

Przykłady centrów typu K CLARIN Knowledge Centre for Treebanking (Univ. Bergen i LINDAT, Prague)

Phonogrammarchiv – Institute for audio-visual Research and Documentation (Austrian Academy of Science), Viena

CLARIN Knowledge Centre for Speech Analysis (CLARIN-SPEECH), Stockholm

Planowane centrum typu K w ramach Centrum Technologii Językowych CLARIN-PL

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

CLARIN ERIC: usługi centralne

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

Wyszukiwanie zasobów po meta-

danych w formacie CMDI

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

Wyszukiwanie zasobów po meta-

danych w formacie CMDI

Fasetowe wyszukiwanie

Atrybuty i ich zakresy wartości są odczytywane z meta-danych

Wspólny standard: CMDI (Componet Metadata Infrastructure)

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

Centralne przeszukiwanie treści

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

Konsorcjum CLARIN-PL

Członkowie konsorcjum Politechnika Wrocławska, Katedra Inteligencji Obliczeniowej

Instytut Podstaw Informatyki Polskiej Akademii Nauk, Zespół Inżynierii

Lingwistycznej

Instytut Slawistyki Polskiej Akademii Nauk

Polsko-Japońska Akademia Technik Komputerowych

Uniwersytet Łódzki

Uniwersytet Wrocławski

Pierwsza część fazy konstrukcji: VII 2013 – IV 2016

Cele

Budowa polskiej części infrastruktury badawczej CLARIN

ERIC

Rozwój otwartej technologii językowej dla języka polskiego

umożliwiającej różnorodnej zastosowania na praktycznym

poziomie

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

CLARIN-PL w pigułce

Centrum Technologii Językowych CLARIN-PL

http://clarin-pl.eu/pl/strona-glowna/

certyfikat centrum CLARIN typu B

międzynarodowy certyfikat Data Seal of Approval w zakresie

przechowywania i zarządzania danymi naukowymi

Narzędzia i zasoby dla języka polskiego

rozszerzone lub zbudowane od podstaw

dostępne w CLARIN ERIC, w większości jako usługi sieciowe

Unikatowy dwutorowy model budowy CLARIN-PL

łączenie i uzupełnianie elementów infrastruktury technologii

językowych

proces budowy ukierunkowany na wymagania użytkowników

Współpraca z użytkownikami: aplikacje oraz warsztaty

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

Technologia przed CLARIN-PL

1. Analiza morfologiczna: formy podstawowe, cechy morfologiczne

2. Ujednoznacznienie opisów gramatycznych słów

3. Płytka analiza składniowa, np. frazy i zależności

4. Wydobywanie z tekstu słowników:

terminów (w tym wielowyrazowych)

nazw własnych

tezaurusów

5. Ujednoznacznienie znaczeń słów w tekście

6. Rozpoznawanie odniesień do obiektów (bytów nazwanych)

7. Ocena nastawienia emocjonalnego i rozpoznanie opinii

8. Rozpoznawanie relacji semantycznych

9. Rozpoznawanie sytuacji

10. Rozpoznawanie relacji czasowych

11. Rozpoznanie relacji między fragmentami tekstu

12. Analiza struktury dyskursu

13. Pełna interpretacja znaczenia tekstu

Architektura technologii językowych – połączenie modułów

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

Technologia po CLARIN-PL

1. Analiza morfologiczna: formy podstawowe, cechy morfologiczne

2. Ujednoznacznienie opisów gramatycznych słów

3. Płytka analiza składniowa, np. frazy i zależności

4. Wydobywanie z tekstu słowników:

terminów (w tym wielowyrazowych)

nazw własnych

tezaurusów

5. Ujednoznacznienie znaczeń słów w tekście

6. Rozpoznawanie odniesień do obiektów (bytów nazwanych)

7. Ocena nastawienia emocjonalnego i rozpoznanie opinii

8. Rozpoznawanie relacji semantycznych

9. Rozpoznawanie sytuacji

10. Rozpoznawanie relacji czasowych

11. Analiza struktury dyskursu

12. Rozpoznanie relacji między fragmentami tekstu

13. Pełna interpretacja znaczenia tekstu

Architektura technologii językowych – połączenie modułów

Podstawowy potok przetwarzania

1. Zbudowanie korpusu

1. Np. CorpoGrabber i Inforex

2. Segmentacja (Toki i Maca)

3. Analiza morfologiczna (Morfeusz)

4. Ujednoznacznianie opisów gramatycznych wyrazów

(tagowanie) (WCRFT)

5. Rozpoznawanie nazw własnych (Liner2)

6. Uproszczony podział na główne elementy (tzw. chunker

Iobber lub Spejd)

7. Ujednoznacznienie znaczenia słów (WoSeDoN)

Dalsza analiza: składniowa (Malt), semantyczna

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

Przetwarzanie wstępne

Zdeponowanie korpusu w systemie DSpace

Uruchomienie wyzwalacza

Konwersja dowolnego formatu do postaci tekstowej

Analiza morfosyntaktyczna

Rozpoznawanie jednostek identyfikacyjnych

Rozpoznawanie wyrażeń temporalnych

Generowanie lematów dla anotacji

Zapis rezultatu w postaci plików CCL

Kompresja rezultatu i udostępnienie dla innych narzędzi

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

Przyszłość CLARIN-PL

Rozszerzenie wybranych narzędzi językowych pod względem pokrycia i dokładności działania

Np. ujednoznacznianie znaczeń leksykalnych, parsery składniowo-semantyczne, narzędzia do wydobywania informacji o zdarzeniach

Rozbudowa Centrum Technologii Językowych w zakresie obsługi wielkich wolumenów danych i równoległego przetwarzania

Rozwinięcie prototypowej platformy do łączenia narzędzi językowych w aplikację badawczą

Połączenie WebSty i narzędzi prototypowych w elastyczną aplikację badawczą do analizy stylometrycznej i statystycznej analizy semantycznej tekstów

Rozbudowa i budowa dalszych aplikacji do tekstu i mowy

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

Korzyści z udziału w CLARIN

CLARIN ERIC jest dynamicznie rozwijającą się infrastrukturą badawczą

rosnąca liczba członków i czołowych ośrodków naukowych

szereg stabilnych centralnych usług oraz narzędzi naukowych

wyznacza standardy i budzi zainteresowanie w świecie nauki

Transferu wiedzy i metod badawczych zarówno w dziedzinie technologii językowych, jak i NHiS

Łatwiejszy dostęp do zasobów naukowych i narzędzi badawczych

Szerzenia wiedzy o nowych cyfrowych metodach badawczych w NHiS

Promocja polskiej nauki, kultury, zwiększenie możliwości prowadzenie badań nad materiałami w języku polskim

Rozwój otwartej technologii dla języka polskiego

Infrastruktura

badawcza

Wrocław

2016-04-25

CLARIN-PL

CLARIN-PL

Dziękuję bardzo za uwagę

www.clarin-pl.eu