CLARINclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-infrast... · Np. pomoc, wsparcie...
Transcript of CLARINclarin-pl.eu/wp-content/uploads/2016/04/konferencja/clarin-infrast... · Np. pomoc, wsparcie...
CLARIN-PL
CLARIN – infrastruktura naukowa technologii językowych
Maciej Piasecki Politechnika Wrocławska
Katedra Inteligencji Obliczeniowej
Grupa Naukowa G4.19
[email protected] 2016-04-25
Przykład: analiza pojęcia
Problem:
znalezienie w tekstach odwołań do pojęcia książka
analiza przypisywanych cech i powiązań z innymi pojęciami
Przykłady z sieci:
W książce rękopiśmiennej najczęściej występowało
ukształtowanie jedno- lub dwukolumnowe. (Wikipedia)
W ciągu dziesięciu lat powstały cztery książki, nie jest to więc
oszałamiający dorobek. (http://ksiazkioli.blogspot.com/)
Jak napisać fascynującą książkę z intrygującą fabułą i odnieść
sukces? (sites.google.com/site/pisarstwo/)
Za książką kryje się autor. Jego pisanie jest więc zawsze listem
do czytelnika. Piszemy zazwyczaj listy do przyjaciół. Książka
jest listem autora do przyjaciela. [Jarosław Iwaszkiewicz]
(za: http://www.sp21.lublin.pl/biblioteka/cytaty.htm)
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Przykład: Mapa Literacka
Literaturoznawstwo – badania geokrytyczne
przestrzeni kreowanej w tekstach literackich
analiza przestrzeni kulturowych związanych ze środowiskiem elity intelektualnej w okresie powstania utworu
Selekcja dzieł literackich oraz tekstów (pamiętników, reportaży, listów) związanych z postacią wybranego twórcy
Odtwarzanie mapy mentalnej
miejsca, które mają znaczenie dla danego twórcy
miejsca, obiekty ważne w ówczesnej epoce literackiej lub na ówczesnej mapie politycznej
Wizualizacja
miejsc obecnych w powieści, np. ilustracja ścieżek pisarzy
tworzenie mapy miejsc fikcyjnych
Wsparcie: analizy prowadzone na dużym korpusie tekstów
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Przykład: droga do realizacji
Wizualizacja miejsc obecnych w powieści
przetwarzanie wstępne:
analiza morfologiczna i morfo-syntaktyczna
Słowa, lematy, klasy gramatyczne
rozpoznanie i klasyfikacja jednostek pozasłownikowych, np. nazw własnych
powiązanie wyrażeń językowych z obiektami mapy
Np. miejsca nie są często nazwane w tekście nazwą a opisane wyrażeniem złożonym: nazwy, wyrażenia przestrzenne, relacje semantyczne, deskrypcje określone
funkcje geolokalizacji mapy
skonfigurowanie systemu: instalacja narzędzi, dopasowanie formatów, problemy wydajnościowe, wizualizacja wyników, …
Wnioski:
problemy użytkownika z użyciem istniejącej technologii językowej, konieczność rozszerzenia tej technologii
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Przykład: droga do realizacji
Mapy wyobrażeniowe
brak oparcia na istniejącej mapie i geolokalizacji
konieczność głębokiej i szczegółowej analizy informacji zawartej w tekście
rozpoznawanie niedospecyfikowania i sprzeczności
budowa bazy wiedzy o świecie z tekstu zawierającej model mapy
wizualizacja mapy na podstawie bazy wiedzy
Wnioski:
poważne i ciekawe wyzwania
należałoby bardzo poprawić pokrycie i dokładność głębokiej analizy składniowo-semantycznej
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Bariery w zastosowaniu
technologii językowej
Fizyczna
narzędzia i zasoby nie są dostępne w sieci
Informacyjna
brak opisu narzędzi i zasobów
brak katalogów i możliwości łatwego odnalezienia
Technologiczna
brak standardów, możliwości łączenia elementów technologii
brak wspólnej platformy – różnorodność rozwiązań technologicznych
brak sprzętu o określonych parametrach
Wiedzy
wymagane umiejętności programistyczne
wymagana wiedza z zakresu inżynierii języka naturalnego
Prawna
licencje ograniczające dostęp i wykorzystanie
szczególnie w odniesieniu do korpusów
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Bariery w zastosowaniu
technologii językowej
Fizyczna
dostępność: www.clarin-pl.eu, www.clarin.eu
Informacyjna
opis: metadane, dokumentacja
katalog: Virtual Language Observatory
Technologiczna
standardy: CMDI, unifikacja standardów dla narzędzi
platforma – WebLicht, platforma polska w ramach CTJ CLARIN-PL
sprzęt: Centrum Technologii Językowych CLARIN-PL
Wiedzy
aplikacje badawcze rozwijane wspólnie z użytkownikami
CTJ działające jako centrum typu K (szerzenia wiedzy)
Prawna
otwartość! (ang. Open source, open access) otwarte rozwiązania!
trudne w odniesieniu do korpusów, ale model otwartości wyników przetwarzania
Finansowa: otwartość kosztuje, a kto płaci? MNiSW?
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
CLARIN
CLARIN ERIC (Common Language Resources and
Technology Infrastructure European Research
Infrastructure Consortium)
Wspólne zasoby językowe i infrastruktura technologiczna
część europejskiej (ESFRI) i polskiej mapy drogowej
infrastruktury naukowej
Czym jest
rozproszona infrastruktura badawcza technologii językowych
dla nauk humanistycznych i społecznych
kilkadziesiąt centrów technologicznych w 15 krajach
działających jako jeden wspólny system
jednolity dostęp do zasobów językowych oraz narzędzi i
aplikacji badawczych do analizy tekstu i mowy w wielu
językach europejskich
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
CLARIN – Członkowie
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
15 członków:
Austria
Bułgaria
Czechy
Dania
Dutch Language Union
Estonia
Grecja
Holandia
Litwa
Niemcy
Norwegia
Polska
Portugalia
Słowenia
Szwecja
Włochy
Obserwatorzy:
Wielka Brytania
Podstawowe pojęcia
Zasoby językowe
zbiory danych i bazy danych opisujące język naturalny oraz jego
użycie
sformalizowany opis wybranych aspektów języka naturalnego
Narzędzia językowe
programy komputerowe do przetwarzania tekstu i mowy na różnych
poziomach analizy języka naturalnego
automatyczna analiza struktur językowych, np. analiza składniowa
zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw
własnych
Technologia językowa = zasoby + narzędzia + infrastruktura
Infrastruktura językowa
wspólna baza technologiczna zapewniająca połączenie
zróżnicowanych narzędzi i zasobów językowych
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Podstawowe funkcje CLARIN
Ułatwienie dostępu do zasobów językowych
federacja repozytoriów – Virtual Language Observatory
federacyjne przeszukiwanie korpusów – Federated Content
Search
Wsparcie dla automatycznej analizy tekstu i mowy
paleta gotowych do użycia narzędzi językowych
usługi sieciowe (Web Services) i aplikacje narzędziowe
dostęp poprzez repozytoria
typowe zestawy, możliwość tworzenia własnych zestawów
Aplikacje badawcze
budowane pod konkretne potrzeby, często we współpracy z
użytkownikami
oparte na technologii językowej, ale nie `narzucające’ jej
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Podstawowe funkcje CLARIN
Infrastruktura Szerzenia Wiedzy (Knowledge Sharing Infrastructure)
centra CLARIN typu K – oferujące dostęp do wiedzy eksperckiej i wsparcie, fizyczne i wirtualne
poradniki i punkty informacyjne, warsztaty, itd.
Wymogi dla centrum typu K (wybrane)
strona WWW z jasno określonym zakresem usług
Np. pomoc, wsparcie techniczne lub technologiczne, kursy, …
Zapewniają reaktywne usługi, np. odpowiedzi na zapytania użytkowników w ciągu 2 dni roboczych
Dysponują odpowiednią kadrą
Przykłady centrów typu K CLARIN Knowledge Centre for Treebanking (Univ. Bergen i LINDAT, Prague)
Phonogrammarchiv – Institute for audio-visual Research and Documentation (Austrian Academy of Science), Viena
CLARIN Knowledge Centre for Speech Analysis (CLARIN-SPEECH), Stockholm
Planowane centrum typu K w ramach Centrum Technologii Językowych CLARIN-PL
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Wyszukiwanie zasobów po meta-
danych w formacie CMDI
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Wyszukiwanie zasobów po meta-
danych w formacie CMDI
Fasetowe wyszukiwanie
Atrybuty i ich zakresy wartości są odczytywane z meta-danych
Wspólny standard: CMDI (Componet Metadata Infrastructure)
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Konsorcjum CLARIN-PL
Członkowie konsorcjum Politechnika Wrocławska, Katedra Inteligencji Obliczeniowej
Instytut Podstaw Informatyki Polskiej Akademii Nauk, Zespół Inżynierii
Lingwistycznej
Instytut Slawistyki Polskiej Akademii Nauk
Polsko-Japońska Akademia Technik Komputerowych
Uniwersytet Łódzki
Uniwersytet Wrocławski
Pierwsza część fazy konstrukcji: VII 2013 – IV 2016
Cele
Budowa polskiej części infrastruktury badawczej CLARIN
ERIC
Rozwój otwartej technologii językowej dla języka polskiego
umożliwiającej różnorodnej zastosowania na praktycznym
poziomie
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
CLARIN-PL w pigułce
Centrum Technologii Językowych CLARIN-PL
http://clarin-pl.eu/pl/strona-glowna/
certyfikat centrum CLARIN typu B
międzynarodowy certyfikat Data Seal of Approval w zakresie
przechowywania i zarządzania danymi naukowymi
Narzędzia i zasoby dla języka polskiego
rozszerzone lub zbudowane od podstaw
dostępne w CLARIN ERIC, w większości jako usługi sieciowe
Unikatowy dwutorowy model budowy CLARIN-PL
łączenie i uzupełnianie elementów infrastruktury technologii
językowych
proces budowy ukierunkowany na wymagania użytkowników
Współpraca z użytkownikami: aplikacje oraz warsztaty
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Technologia przed CLARIN-PL
1. Analiza morfologiczna: formy podstawowe, cechy morfologiczne
2. Ujednoznacznienie opisów gramatycznych słów
3. Płytka analiza składniowa, np. frazy i zależności
4. Wydobywanie z tekstu słowników:
terminów (w tym wielowyrazowych)
nazw własnych
tezaurusów
5. Ujednoznacznienie znaczeń słów w tekście
6. Rozpoznawanie odniesień do obiektów (bytów nazwanych)
7. Ocena nastawienia emocjonalnego i rozpoznanie opinii
8. Rozpoznawanie relacji semantycznych
9. Rozpoznawanie sytuacji
10. Rozpoznawanie relacji czasowych
11. Rozpoznanie relacji między fragmentami tekstu
12. Analiza struktury dyskursu
13. Pełna interpretacja znaczenia tekstu
Architektura technologii językowych – połączenie modułów
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Technologia po CLARIN-PL
1. Analiza morfologiczna: formy podstawowe, cechy morfologiczne
2. Ujednoznacznienie opisów gramatycznych słów
3. Płytka analiza składniowa, np. frazy i zależności
4. Wydobywanie z tekstu słowników:
terminów (w tym wielowyrazowych)
nazw własnych
tezaurusów
5. Ujednoznacznienie znaczeń słów w tekście
6. Rozpoznawanie odniesień do obiektów (bytów nazwanych)
7. Ocena nastawienia emocjonalnego i rozpoznanie opinii
8. Rozpoznawanie relacji semantycznych
9. Rozpoznawanie sytuacji
10. Rozpoznawanie relacji czasowych
11. Analiza struktury dyskursu
12. Rozpoznanie relacji między fragmentami tekstu
13. Pełna interpretacja znaczenia tekstu
Architektura technologii językowych – połączenie modułów
Podstawowy potok przetwarzania
1. Zbudowanie korpusu
1. Np. CorpoGrabber i Inforex
2. Segmentacja (Toki i Maca)
3. Analiza morfologiczna (Morfeusz)
4. Ujednoznacznianie opisów gramatycznych wyrazów
(tagowanie) (WCRFT)
5. Rozpoznawanie nazw własnych (Liner2)
6. Uproszczony podział na główne elementy (tzw. chunker
Iobber lub Spejd)
7. Ujednoznacznienie znaczenia słów (WoSeDoN)
Dalsza analiza: składniowa (Malt), semantyczna
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Przetwarzanie wstępne
Zdeponowanie korpusu w systemie DSpace
Uruchomienie wyzwalacza
Konwersja dowolnego formatu do postaci tekstowej
Analiza morfosyntaktyczna
Rozpoznawanie jednostek identyfikacyjnych
Rozpoznawanie wyrażeń temporalnych
Generowanie lematów dla anotacji
Zapis rezultatu w postaci plików CCL
Kompresja rezultatu i udostępnienie dla innych narzędzi
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Przyszłość CLARIN-PL
Rozszerzenie wybranych narzędzi językowych pod względem pokrycia i dokładności działania
Np. ujednoznacznianie znaczeń leksykalnych, parsery składniowo-semantyczne, narzędzia do wydobywania informacji o zdarzeniach
Rozbudowa Centrum Technologii Językowych w zakresie obsługi wielkich wolumenów danych i równoległego przetwarzania
Rozwinięcie prototypowej platformy do łączenia narzędzi językowych w aplikację badawczą
Połączenie WebSty i narzędzi prototypowych w elastyczną aplikację badawczą do analizy stylometrycznej i statystycznej analizy semantycznej tekstów
Rozbudowa i budowa dalszych aplikacji do tekstu i mowy
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Korzyści z udziału w CLARIN
CLARIN ERIC jest dynamicznie rozwijającą się infrastrukturą badawczą
rosnąca liczba członków i czołowych ośrodków naukowych
szereg stabilnych centralnych usług oraz narzędzi naukowych
wyznacza standardy i budzi zainteresowanie w świecie nauki
Transferu wiedzy i metod badawczych zarówno w dziedzinie technologii językowych, jak i NHiS
Łatwiejszy dostęp do zasobów naukowych i narzędzi badawczych
Szerzenia wiedzy o nowych cyfrowych metodach badawczych w NHiS
Promocja polskiej nauki, kultury, zwiększenie możliwości prowadzenie badań nad materiałami w języku polskim
Rozwój otwartej technologii dla języka polskiego
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL