CLARIN-PL Centrum Technologii Językowych: repozytorium ...

14
CLARIN-PL Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi Marcin Pol, Tomasz Walkowiak Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Katedra Informatyki Technicznej 2016-04-25

Transcript of CLARIN-PL Centrum Technologii Językowych: repozytorium ...

Page 1: CLARIN-PL Centrum Technologii Językowych: repozytorium ...

CLARIN-PL

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

Marcin Pol, Tomasz Walkowiak Politechnika Wrocławska

Katedra Inteligencji Obliczeniowej

Grupa Naukowa G4.19

Katedra Informatyki Technicznej

2016-04-25

Page 2: CLARIN-PL Centrum Technologii Językowych: repozytorium ...

Funkcje CTJ CLARIN-PL

Rozproszona identyfikacja i autoryzacja użytkowników

oparta na federacjach narodowych

zasada jednego konta i jednego logowania

Odpowiedni system składowania (repozytoryjny) - dSpace

trwałość danych (system archiwizacji)

jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers)

metadane o złożonej strukturze (CMDI)

zarządzanie metadanymi zgodnie z przyjętymi standardami, np. CCR (CLARIN Concept Registry)

Integracja zasobów i usług

w oparciu o usługi sieciowe (Web Services, REST)

dostęp poprzez aplikacje sieciowe

brak konieczności ściągania i instalowania

2

Page 3: CLARIN-PL Centrum Technologii Językowych: repozytorium ...

Infrastruktura

Chmura prywatna

Cisco UCS B-Series Blade Servers

IBM Storwize V7000

Xen Server

3

Page 4: CLARIN-PL Centrum Technologii Językowych: repozytorium ...

Repozytorium DSpace

Otwarty system dSpace

zapisuje, przechowuje,

opisuje, indeksuje i udostępnia materiały cyfrowe

Platforma udostępnia otwarte zasoby naukowe

oraz integruje narzędzia Clarin-PL z Clarin ERIC

Wsparcie dla systemu CNRI Handle System [handle.net]

pozwala na swobodną zmianę adresów/serwerów

http://hdl.handle.net/11321/246

Zasoby są widoczne Virtual Language

Observatory, który łączy repozytoria z

różnych centrów w Europie https://catalog.clarin.eu/vlo/search?1&fq=collection:CLARIN-PL

http://clarin-pl.eu/dspace/

CMDI

4

Page 5: CLARIN-PL Centrum Technologii Językowych: repozytorium ...

Repozytorium DSpace

Clarin-PL DSpace posiada liczne rozszerzenia

udostępnianie zasobów instytucjom będącym w konfederacji

tożsamości - eduGain

Federacyjne zarządzanie tożsamością

logowanie za pomocą jednego loginu i hasła

autoryzuje jednostka macierzysta

5

Page 6: CLARIN-PL Centrum Technologii Językowych: repozytorium ...

Polska federacja uwierzytelniania

6

Page 7: CLARIN-PL Centrum Technologii Językowych: repozytorium ...

Federacja uwierzytelniania

Federacja PIONIER.Id - adresowana do polskiego środowiska

naukowo-akademickiego

Pokrewne usłudze: eduroam

dostawca usługi, dostawca tożsamości

Warunki rejestracji

technicznie: serwer SAML2

organizacyjne: podpisanie Deklaracji Członkowskiej i przesłanie jej do

Operatora Federacji

Konfederacja EduGAIN

konfederacją o ogólnoświatowym zasięgu, zrzeszającą akademickie i

naukowe federacje zarządzania tożsamością,

35 krajowych federacji w 2015, w tym InCommon (ponad 500 uczelni i

organizacji komercyjnych)

7

Page 8: CLARIN-PL Centrum Technologii Językowych: repozytorium ...

Usługi sieciowe

Narzędzia językowe

aplikacje zbudowane w różnorodnych technologiach

złożony proces instalacji

różnorodne interfejsy

trudność w tworzeniu potoków przetwarzania

„Wszystko jest usługą sieciową”

Komponent oprogramowanie o ustandaryzowanym interfejsie,

dostępny poprzez protokół internetowy

UI – przeglądarka internetowa

Aplikacje dostępowe oparte o przeglądarki

internetowe

Łączenie usług w potoki

Wizualizacja

8

Page 9: CLARIN-PL Centrum Technologii Językowych: repozytorium ...

Usługi sieciowe - architektura

9

Wydajność

przetwarzanie równoległe

chmura prywatne, skalowanie

Identyfikatory plików

na wej./wyj. narzędzi

RabbitMQNLPREST2REST

Samba

Worker 1(Any2txt)

Worker 2(fextor)

Worker 3(WCRFT2)

Worker n(featfilt)

Data base

LPMN engine

urlzip(http://ws.clarin-pl.eu/ksiazki.zip) |any2txt|wcrft2|fextor({"features":"base"}) |dir|featfilt({"similarity":"jaccard”) |cluto({"no_clusters":3})

Page 10: CLARIN-PL Centrum Technologii Językowych: repozytorium ...

Usługi sieciowe: ws.clarin-pl.eu

Zaimplementowane usługi

Konwersja: any2txt

Narzędzia NLP:

maca, wcrft2, chunker, chunkrel, serel, liner2, WSD, spade

spatial, dependpar, summarizer, tfidf, inkluz, termopl, fextor

Filtrowanie, selekcja cech: SuperMatrix, R

Klasyfikacja: stylo, cluto, SVM, kmeans

Konwersja formatów

Komunikacja (pliki, URL), integracja z dSpace

Możliwości podpięcia innych narzędzi

Wirtualna maszyna w centrum + proste API

Przekierowanie do zewnętrznych usług (WebLicht)

10

Page 11: CLARIN-PL Centrum Technologii Językowych: repozytorium ...

Zintegrowane środowisko

Potok przetwarzania

Dane tymczasowe Zasoby / dane Dane przygotowane

any2txt LINER2 WSD

D-SPACE NFS

WCRFT2

11

Page 12: CLARIN-PL Centrum Technologii Językowych: repozytorium ...

Aplikacje badawcze

13

Page 13: CLARIN-PL Centrum Technologii Językowych: repozytorium ...

Aplikacje badawcze

Narzędzia wysokiego poziomu nie wymagające wiedzy z

dziedziny inżynierii języka lub technologii językowych

Techniki załadowania własnych danych

Bezpośrednie załadowanie plików w interfejsie webowym

Lokalny plik, URL

Różnorodność formatów

txt – różnorodne kodowanie znaków

doc, docx (pptx, xlslx), odt, rtf, html, pdf

zip

Uprzednie załadowanie plików do repozytorium – zalecane

Identyfikacja poprzez trwały identyfikator

Wstępnie przetworzone

Zasoby obliczeniowe są zawsze ograniczone

14

Page 14: CLARIN-PL Centrum Technologii Językowych: repozytorium ...

CLARIN-PL

Dziękuję bardzo za uwagę