Repozytorium Centrum Technologii Językowych: deponowanie i...
-
Upload
nguyenduong -
Category
Documents
-
view
220 -
download
0
Transcript of Repozytorium Centrum Technologii Językowych: deponowanie i...
CLARIN-PL
Repozytorium Centrum TechnologiiJęzykowych:deponowanie i upowszechnianie zasobów inarzędzijęzykowych, gromadzenie korpusówtekstowych
Marcin Pol, Tomasz Walkowiak, Marcin OleksyPolitechnika Wroc� awska
Katedra Inteligencji ObliczeniowejGrupa Naukowa G4.19
Katedra Informatyki Technicznej
2017-02-3
Funkcje CTJ CLARIN-PL
Rozproszona identyfikacja i autoryzacja użytkowników oparta na federacjach narodowych zasada jednego konta i jednego logowania
Odpowiedni system składowania (repozytoryjny) - dSpace trwałość danych (system archiwizacji) jednoznaczny opis danych za pomocą
trwałych identyfikatorów (Persistent Identifiers) metadane o złożonej strukturze (CMDI) zarządzanie metadanymi zgodnie z przyjętymi standardami, np.
CCR (CLARIN Concept Registry) Integracja zasobów i usług
w oparciu o usługi sieciowe (Web Services, REST) dostęp poprzez aplikacje webowe brak konieczności ściągania i instalowania
2
Infrastruktura
Chmura prywatna Cisco UCS B-Series Blade Servers IBM Storwize V7000 Xen Server
3
Repozytorium DSpace
Otwarty system dSpace zapisuje, przechowuje,
opisuje, indeksuje i udostępnia materiały cyfrowe
Platforma udostępnia otwarte zasoby naukowe oraz integruje narzędzia Clarin-PL z Clarin ERIC
Wsparcie dla systemu CNRI Handle System [handle.net] pozwala na swobodną zmianę adresów/serwerów http://hdl.handle.net/11321/246
Zasoby są widoczne Virtual Language Observatory, który łączy repozytoria z różnych centrów w Europiehttps://catalog.clarin.eu/vlo/search?1&fq=collection:CLARIN-PL
http://clarin-pl.eu/dspace/
CMDI4
Repozytorium DSpace
Clarin-PL DSpace posiada liczne rozszerzenia udostępnianie zasobów instytucjom będącym w konfederacji
tożsamości - eduGain
Federacyjne zarządzanie tożsamością logowanie za pomocą jednego loginu i hasła
autoryzuje jednostka macierzysta
5
Polska federacja uwierzytelniania
6
Federacja uwierzytelniania
Federacja PIONIER.Id - adresowana do polskiego środowiska naukowo-akademickiego
Pokrewne usłudze: eduroam dostawca usługi, dostawca tożsamości
Warunki rejestracji technicznie: serwer SAML2 organizacyjne: podpisanie Deklaracji Członkowskiej i przesłanie jej do
Operatora Federacji
Konfederacja EduGAIN konfederacją o ogólnoświatowym zasięgu, zrzeszającą akademickie i
naukowe federacje zarządzania tożsamością, 35 krajowych federacji w 2016, w tym InCommon (ponad 500 uczelni i
organizacji komercyjnych)
7
Usługi sieciowe
Narzędzia językowe aplikacje zbudowane w różnorodnych technologiach złożony proces instalacji różnorodne interfejsy trudność w tworzeniu potoków przetwarzania
„Wszystko jest usługą sieciową” Komponent oprogramowanie o ustandaryzowanym interfejsie,
dostępny poprzez protokół internetowy
UI – przeglądarka internetowa Aplikacje dostępowe oparte o przeglądarki
internetowe Łączenie usług w potoki Wizualizacja
8
Problemy techniczne
Narzędzia NLP/ML dostępne są w różnych językachprogramowania C++, Java, Python, R (Linux, Windows) Perl, Haskell, Julia, pliki wykonywalne
Różnorodność formatów txt, doc, docx, ccl (xml), csv, gęste/rzadkie macierze
Rozmiar danych 10 B – 10 MB
1-1,000,000 tekstów w korpusie
Korpusy po przetworzeniu osiągają duże rozmiary (3 GB dla 100 książek)
Złożone tory przetwarzaniaDocument (doc)
Any2txt WCRFT2 Liner2
Document (docx)
Any2txt WCRFT2 Liner2
Document (pdf)
Any2txt WCRFT2 Liner2
FeatFilt
...
Fextorbis
Fextorbis
Fextorbis Cluto
Usługi sieciowe - architektura
10
Wydajność przetwarzanie równoległe chmura prywatne, skalowanie Identyfikatory plików
na wej./wyj. narzędzi
RabbitMQNLPREST2REST
Samba
Worker 1(Any2txt)
Worker 2(fextor)
Worker 3(WCRFT2)
Worker n(featfilt)
Data base
LPMN engine
urlzip(http://ws.clarin-pl.eu/ksiazki.zip)|any2txt|wcrft2|fextor({"features":"base"})|dir|featfilt({"similarity":"jaccard”)|cluto({"no_clusters":3})
Usługi sieciowe: ws.clarin-pl.eu
Zaimplementowane usługi (NLP): Konwersja: any2txt,
konwersja formatów: ccl, tei, conll, gz, conll2svg
Narzędzia NLP dla języka polskiego maca, wcrft2, chunker, serel, liner2, WSD, Spejd,spatial, dependpar, spejd http://ws.clarin-pl.eu/tager.shtml
Narzędzia NLP dla języka angielskiego i niemieckiego spacy, nltk http://ws.clarin-pl.eu/tagerEn.shtml
Wydobywanie informacji z tekstu summarizer, tfidf, inkluz, termopl http://ws.clarin-pl.eu/summarize.shtml
11
Usługi sieciowe: ws.clarin-pl.eu
Zaimplementowane usługi (ML): wyznaczanie, zliczanie cech: fextor, converter filtrowanie, ważenie, wyznaczanie podobieństwa
featfilt (SuperMatrix, R - stylo)
grupowanie/klasyfikacja/istotność: cluto, class, featsel (sklearn, weka)
skalowanie wielowymiarowe – mds (sklearn) „topic modeling”: gensim, mallet komunikacja (zip, URL, podział), integracja z dSpace
Wykorzystanie Ilustracja działania narzędzi NLP Element aplikacji badawczych:
Mapa literacka, Chronopress, Inforex, MeWeX WebSty, LEM, Topic modeling
Inne usługi : SłowoSieć, geokodowanie 12
Aplikacje badawcze
13
Aplikacje badawcze
Narzędzia wysokiego poziomu nie wymagające wiedzy zdziedziny inżynierii języka lub technologii językowych
Techniki załadowania własnych danych Bezpośrednie załadowanie plików w interfejsie webowym
Lokalny plik, URL, DSpace, prywatna chmura (trwają prace)
Różnorodność formatów txt – różnorodne kodowanie znaków doc, docx (pptx, xlslx), odt, rtf, html, pdf zip
Uprzednie załadowanie plików do repozytorium Identyfikacja poprzez trwały identyfikator Wstępnie przetworzone
14
Możliwości wykorzystania
Utworzone aplikacje webowe są do państwa dyspozycji służymy pomocą
w ich obsłudze w zrozumieniu zasad ich działania/użytych metod nie tylko w ramach warsztatów: [email protected]
Jeżeli nie spełniają one państwa potrzeb, to możemy: rozbudować usługi o potrzebne narzędzia NLP
dokument/katalog ->dokument/katalog R, Python, Java, C++, Haskell kod, model, dokumentacja efektywność/niezawodność
zbudować potrzebną aplikacje badawczą na bazieistniejących usług
przetworzyć korpus za pomocą usług CTJ Clarin-PL 15
Możliwości wykorzystania
Możecie państwo samodzielnie wykorzystać usługi API REST-owe: http://ws.clarin-pl.eu przykłady w Javie, Python, R (niedługo)
język opisu choreografii (LPMN)
efektywność przetwarzania
Najbliższe plany: chmura prywatna Leksykograficzne API REST-owe (integratror) Przetwarzanie b. dużych korpusów
Zasoby obliczeniowe są zawsze ograniczone Warsztaty to bardzo zły model przetwarzania 16
Zintegrowane środowisko
Potok przetwarzania
Dane tymczasowe Zasoby / dane Dane przygotowane
any2txt LINER2 WSD
D-SPACE NFS
WCRFT2
17
Component MetaDataInfrastructure (CMDI)
Zalety CMDI
elastyczność spójność i jednoznaczność > rejestr kategorii metadanych
CLARIN Concept Registry (CCR)
współdzielenie schematów > Component Registry
wyszukiwanie spośród wielu źródeł Virtual Language Observatory Meertens Institute CMDI search engine
Prof il metadanych dla korpusu w DSpace
ogólne
Informacje o zasobie
Kategorie DCMI
Specyficzne dla zasobu danego typu
Prof il metadanych dla korpusu w DSpace
AutorData umieszczenia w repozytoriumOpisIdentyfikatorData pierwszej publikacjiJęzykOsoba/instytucja publikującaLicencjaSłowa kluczoweTytuł
Informacje
o zasobie
KategorieDCMI
Prof il metadanych dla korpusu w DSpace
Informacje o zasobie
Dane identyfikacyjne
Informacje o dystrybucji
Osoba kontaktowa
Data utworzenia instancji CMDI
Dane zasobuTyp
Zawartość
Język
RozmiarInformacje
o zasobie
KategorieDCMI
Jaki typ licencji wybrać?
Warunki dostępu Warunki użycia Warunki dystrybucji
CLARIN License Category Calculator
Kategorie licencji
Public domainCLARIN PUB
CLARIN PUB
CLARIN PUB
CLARIN PUB
OprogramowanieCLARIN PUB+BY
CLARIN PUB+BY
CLARIN PUB+BY
CLARIN PUB+BY)
CLARIN PUB+BY
CLARINPUB+BY+SA
CLARINPUB+BY+SA
CLARINPUB+BY+SA
CLARINPUB+BY+SA
CLARINPUB+BY+SA
InneCLARIN PUB+BY
CLARINPUB+BY+SA
CLARINPUB+BY+NC
CLARINPUB+BY+NC+SA
CLARINPUB+ID+BY+LRT
+NORED
CLARINPUB+ID+BY+NC+
LRT+NORED
CC-ZERO
Public Domain
Princeton Wordnet
CLARIN PUB
ApacheLicense 2.0
BSD 2 or BSD 3
MIT license
Microsoft Public License(MS-PL)
LGPL
AGPL
GFDL
Open Data CommonsOpen Database License(ODbL)
Microsoft ReciprocalLicense (MS-RL)
GPL
CC-BY
CC-BY-SA
CC-BY-NC
CC-BY-NC-SA
META-SHARE CommercialNo Redistribution
META-SHARENoncommercial NoRedistribution
Problem formatu
Warsztaty CLARIN-PLWarszawa
13-15 IV 2015
CLARIN-PL
Teksty przechowywane w wersji elektronicznej w wielu formatach:
Przetwarzalne: txt, doc, docx, rtf...
Nieprzetwarzalne: jpg, bmp, gif...
Problem kodowania Rozwi� zanie w CLARIN-PL:
Apache Tika Wydobywanie tekstu z wielu
formatów danych Wsparcie dla:
ppt, xls, pdf, doc, rtf...
Etapy przetwarzania
Zdeponowanie korpusu w systemie DSpace Uruchomienie wyzwalacza Konwersja dowolnego formatu do postaci
tekstowej Analiza morfosyntaktyczna Rozpoznawanie jednostek identyfikacyjnych Rozpoznawanie wyrażeń temporalnych Generowanie lematów dla anotacji Zapis rezultatu w postaci plików CCL Kompresja rezultatu i udostępnienie dla innych
narzędzi
Publikacja w repozytorium
Publikacja w repozytorium
Publikacja w repozytorium
Publikacja w repozytorium
Publikacja w repozytorium
Publikacja w repozytorium
Publikacja w repozytorium
Dziękujemy bardzo za uwagę