Repozytorium Centrum Technologii Językowych: deponowanie i...

35
CLARIN-PL Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych Marcin Pol, Tomasz Walkowiak, Marcin Oleksy Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Katedra Informatyki Technicznej 2017-02-3

Transcript of Repozytorium Centrum Technologii Językowych: deponowanie i...

Page 1: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

CLARIN-PL

Repozytorium Centrum TechnologiiJęzykowych:deponowanie i upowszechnianie zasobów inarzędzijęzykowych, gromadzenie korpusówtekstowych

Marcin Pol, Tomasz Walkowiak, Marcin OleksyPolitechnika Wroc� awska

Katedra Inteligencji ObliczeniowejGrupa Naukowa G4.19

Katedra Informatyki Technicznej

2017-02-3

Page 2: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Funkcje CTJ CLARIN-PL

Rozproszona identyfikacja i autoryzacja użytkowników oparta na federacjach narodowych zasada jednego konta i jednego logowania

Odpowiedni system składowania (repozytoryjny) - dSpace trwałość danych (system archiwizacji) jednoznaczny opis danych za pomocą

trwałych identyfikatorów (Persistent Identifiers) metadane o złożonej strukturze (CMDI) zarządzanie metadanymi zgodnie z przyjętymi standardami, np.

CCR (CLARIN Concept Registry) Integracja zasobów i usług

w oparciu o usługi sieciowe (Web Services, REST) dostęp poprzez aplikacje webowe brak konieczności ściągania i instalowania

2

Page 3: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Infrastruktura

Chmura prywatna Cisco UCS B-Series Blade Servers IBM Storwize V7000 Xen Server

3

Page 4: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Repozytorium DSpace

Otwarty system dSpace zapisuje, przechowuje,

opisuje, indeksuje i udostępnia materiały cyfrowe

Platforma udostępnia otwarte zasoby naukowe oraz integruje narzędzia Clarin-PL z Clarin ERIC

Wsparcie dla systemu CNRI Handle System [handle.net] pozwala na swobodną zmianę adresów/serwerów http://hdl.handle.net/11321/246

Zasoby są widoczne Virtual Language Observatory, który łączy repozytoria z różnych centrów w Europiehttps://catalog.clarin.eu/vlo/search?1&fq=collection:CLARIN-PL

http://clarin-pl.eu/dspace/

CMDI4

Page 5: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Repozytorium DSpace

Clarin-PL DSpace posiada liczne rozszerzenia udostępnianie zasobów instytucjom będącym w konfederacji

tożsamości - eduGain

Federacyjne zarządzanie tożsamością logowanie za pomocą jednego loginu i hasła

autoryzuje jednostka macierzysta

5

Page 6: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Polska federacja uwierzytelniania

6

Page 7: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Federacja uwierzytelniania

Federacja PIONIER.Id - adresowana do polskiego środowiska naukowo-akademickiego

Pokrewne usłudze: eduroam dostawca usługi, dostawca tożsamości

Warunki rejestracji technicznie: serwer SAML2 organizacyjne: podpisanie Deklaracji Członkowskiej i przesłanie jej do

Operatora Federacji

Konfederacja EduGAIN konfederacją o ogólnoświatowym zasięgu, zrzeszającą akademickie i

naukowe federacje zarządzania tożsamością, 35 krajowych federacji w 2016, w tym InCommon (ponad 500 uczelni i

organizacji komercyjnych)

7

Page 8: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Usługi sieciowe

Narzędzia językowe aplikacje zbudowane w różnorodnych technologiach złożony proces instalacji różnorodne interfejsy trudność w tworzeniu potoków przetwarzania

„Wszystko jest usługą sieciową” Komponent oprogramowanie o ustandaryzowanym interfejsie,

dostępny poprzez protokół internetowy

UI – przeglądarka internetowa Aplikacje dostępowe oparte o przeglądarki

internetowe Łączenie usług w potoki Wizualizacja

8

Page 9: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Problemy techniczne

Narzędzia NLP/ML dostępne są w różnych językachprogramowania C++, Java, Python, R (Linux, Windows) Perl, Haskell, Julia, pliki wykonywalne

Różnorodność formatów txt, doc, docx, ccl (xml), csv, gęste/rzadkie macierze

Rozmiar danych 10 B – 10 MB

1-1,000,000 tekstów w korpusie

Korpusy po przetworzeniu osiągają duże rozmiary (3 GB dla 100 książek)

Złożone tory przetwarzaniaDocument (doc)

Any2txt WCRFT2 Liner2

Document (docx)

Any2txt WCRFT2 Liner2

Document (pdf)

Any2txt WCRFT2 Liner2

FeatFilt

...

Fextorbis

Fextorbis

Fextorbis Cluto

Page 10: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Usługi sieciowe - architektura

10

Wydajność przetwarzanie równoległe chmura prywatne, skalowanie Identyfikatory plików

na wej./wyj. narzędzi

RabbitMQNLPREST2REST

Samba

Worker 1(Any2txt)

Worker 2(fextor)

Worker 3(WCRFT2)

Worker n(featfilt)

Data base

LPMN engine

urlzip(http://ws.clarin-pl.eu/ksiazki.zip)|any2txt|wcrft2|fextor({"features":"base"})|dir|featfilt({"similarity":"jaccard”)|cluto({"no_clusters":3})

Page 11: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Usługi sieciowe: ws.clarin-pl.eu

Zaimplementowane usługi (NLP): Konwersja: any2txt,

konwersja formatów: ccl, tei, conll, gz, conll2svg

Narzędzia NLP dla języka polskiego maca, wcrft2, chunker, serel, liner2, WSD, Spejd,spatial, dependpar, spejd http://ws.clarin-pl.eu/tager.shtml

Narzędzia NLP dla języka angielskiego i niemieckiego spacy, nltk http://ws.clarin-pl.eu/tagerEn.shtml

Wydobywanie informacji z tekstu summarizer, tfidf, inkluz, termopl http://ws.clarin-pl.eu/summarize.shtml

11

Page 12: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Usługi sieciowe: ws.clarin-pl.eu

Zaimplementowane usługi (ML): wyznaczanie, zliczanie cech: fextor, converter filtrowanie, ważenie, wyznaczanie podobieństwa

featfilt (SuperMatrix, R - stylo)

grupowanie/klasyfikacja/istotność: cluto, class, featsel (sklearn, weka)

skalowanie wielowymiarowe – mds (sklearn) „topic modeling”: gensim, mallet komunikacja (zip, URL, podział), integracja z dSpace

Wykorzystanie Ilustracja działania narzędzi NLP Element aplikacji badawczych:

Mapa literacka, Chronopress, Inforex, MeWeX WebSty, LEM, Topic modeling

Inne usługi : SłowoSieć, geokodowanie 12

Page 13: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Aplikacje badawcze

13

Page 14: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Aplikacje badawcze

Narzędzia wysokiego poziomu nie wymagające wiedzy zdziedziny inżynierii języka lub technologii językowych

Techniki załadowania własnych danych Bezpośrednie załadowanie plików w interfejsie webowym

Lokalny plik, URL, DSpace, prywatna chmura (trwają prace)

Różnorodność formatów txt – różnorodne kodowanie znaków doc, docx (pptx, xlslx), odt, rtf, html, pdf zip

Uprzednie załadowanie plików do repozytorium Identyfikacja poprzez trwały identyfikator Wstępnie przetworzone

14

Page 15: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Możliwości wykorzystania

Utworzone aplikacje webowe są do państwa dyspozycji służymy pomocą

w ich obsłudze w zrozumieniu zasad ich działania/użytych metod nie tylko w ramach warsztatów: [email protected]

Jeżeli nie spełniają one państwa potrzeb, to możemy: rozbudować usługi o potrzebne narzędzia NLP

dokument/katalog ->dokument/katalog R, Python, Java, C++, Haskell kod, model, dokumentacja efektywność/niezawodność

zbudować potrzebną aplikacje badawczą na bazieistniejących usług

przetworzyć korpus za pomocą usług CTJ Clarin-PL 15

Page 16: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Możliwości wykorzystania

Możecie państwo samodzielnie wykorzystać usługi API REST-owe: http://ws.clarin-pl.eu przykłady w Javie, Python, R (niedługo)

język opisu choreografii (LPMN)

efektywność przetwarzania

Najbliższe plany: chmura prywatna Leksykograficzne API REST-owe (integratror) Przetwarzanie b. dużych korpusów

Zasoby obliczeniowe są zawsze ograniczone Warsztaty to bardzo zły model przetwarzania 16

Page 17: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Zintegrowane środowisko

Potok przetwarzania

Dane tymczasowe Zasoby / dane Dane przygotowane

any2txt LINER2 WSD

D-SPACE NFS

WCRFT2

17

Page 18: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Component MetaDataInfrastructure (CMDI)

Page 19: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Zalety CMDI

elastyczność spójność i jednoznaczność > rejestr kategorii metadanych

CLARIN Concept Registry (CCR)

współdzielenie schematów > Component Registry

wyszukiwanie spośród wielu źródeł Virtual Language Observatory Meertens Institute CMDI search engine

Page 20: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Prof il metadanych dla korpusu w DSpace

ogólne

Informacje o zasobie

Kategorie DCMI

Specyficzne dla zasobu danego typu

Page 21: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Prof il metadanych dla korpusu w DSpace

AutorData umieszczenia w repozytoriumOpisIdentyfikatorData pierwszej publikacjiJęzykOsoba/instytucja publikującaLicencjaSłowa kluczoweTytuł

Informacje

o zasobie

KategorieDCMI

Page 22: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Prof il metadanych dla korpusu w DSpace

Informacje o zasobie

Dane identyfikacyjne

Informacje o dystrybucji

Osoba kontaktowa

Data utworzenia instancji CMDI

Dane zasobuTyp

Zawartość

Język

RozmiarInformacje

o zasobie

KategorieDCMI

Page 23: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Jaki typ licencji wybrać?

Warunki dostępu Warunki użycia Warunki dystrybucji

Page 24: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

CLARIN License Category Calculator

Page 25: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Kategorie licencji

Public domainCLARIN PUB

CLARIN PUB

CLARIN PUB

CLARIN PUB

OprogramowanieCLARIN PUB+BY

CLARIN PUB+BY

CLARIN PUB+BY

CLARIN PUB+BY)

CLARIN PUB+BY

CLARINPUB+BY+SA

CLARINPUB+BY+SA

CLARINPUB+BY+SA

CLARINPUB+BY+SA

CLARINPUB+BY+SA

InneCLARIN PUB+BY

CLARINPUB+BY+SA

CLARINPUB+BY+NC

CLARINPUB+BY+NC+SA

CLARINPUB+ID+BY+LRT

+NORED

CLARINPUB+ID+BY+NC+

LRT+NORED

CC-ZERO

Public Domain

Princeton Wordnet

CLARIN PUB

ApacheLicense 2.0

BSD 2 or BSD 3

MIT license

Microsoft Public License(MS-PL)

LGPL

AGPL

GFDL

Open Data CommonsOpen Database License(ODbL)

Microsoft ReciprocalLicense (MS-RL)

GPL

CC-BY

CC-BY-SA

CC-BY-NC

CC-BY-NC-SA

META-SHARE CommercialNo Redistribution

META-SHARENoncommercial NoRedistribution

Page 26: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Problem formatu

Warsztaty CLARIN-PLWarszawa

13-15 IV 2015

CLARIN-PL

Teksty przechowywane w wersji elektronicznej w wielu formatach:

Przetwarzalne: txt, doc, docx, rtf...

Nieprzetwarzalne: jpg, bmp, gif...

Problem kodowania Rozwi� zanie w CLARIN-PL:

Apache Tika Wydobywanie tekstu z wielu

formatów danych Wsparcie dla:

ppt, xls, pdf, doc, rtf...

Page 27: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Etapy przetwarzania

Zdeponowanie korpusu w systemie DSpace Uruchomienie wyzwalacza Konwersja dowolnego formatu do postaci

tekstowej Analiza morfosyntaktyczna Rozpoznawanie jednostek identyfikacyjnych Rozpoznawanie wyrażeń temporalnych Generowanie lematów dla anotacji Zapis rezultatu w postaci plików CCL Kompresja rezultatu i udostępnienie dla innych

narzędzi

Page 28: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Publikacja w repozytorium

Page 29: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Publikacja w repozytorium

Page 30: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Publikacja w repozytorium

Page 31: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Publikacja w repozytorium

Page 32: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Publikacja w repozytorium

Page 33: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Publikacja w repozytorium

Page 34: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Publikacja w repozytorium

Page 35: Repozytorium Centrum Technologii Językowych: deponowanie i ...clarin-pl.eu/wp-content/uploads/2017/02/Repozytorium-Centrum... · Utworzone aplikacje webowe są do państwa dyspozycji

Dziękujemy bardzo za uwagę