LEM - CLARIN-PLclarin-pl.eu/wp-content/uploads/2018/03/Instrukcja-LEM_210318.pdf · radarowe,...
Transcript of LEM - CLARIN-PLclarin-pl.eu/wp-content/uploads/2018/03/Instrukcja-LEM_210318.pdf · radarowe,...
LEM Instrukcja użytkownika
LEM
Podstawowe informacje LEM Miejsce dostępu Do czego służy LEM
Instrukcja obsługi Wygląd Dodawanie plików Wybór analizatora morfologicznego Wybór zadania Przetwarzanie danych Pobieranie rezultatów Zadania
Lematyzacja Wyznaczanie części mowy Charakterystyki czasownikowe wypowiedzi Statystyki słów i części mowy Wyznaczanie nazw własnych Statystyki nazw własnych Ujednoznacznienie znaczeń leksykalnych Hiperonimy i hiponimy Analiza stylometryczna
Materiały szkoleniowe
Podstawowe informacje
LEM
LEM = Literary Exploratory Machine (Maszyna do eksploracji literackiej) to narzędzie do
przetwarzania tekstów literackich w języku polskim w celu wydobywania z nich informacji
statystycznych.
Aplikacja LEM do przetwarzania i analizy danych tekstowych wykorzystuje narzędzia:
● Apache Tika - konwerter plików, wykrywa i wydobywa teksty z wielu różnych typów
plików (m.in.: doc, docx, pptx, xlsx, odt, pdf, html, rtf).
● Morfeusz 2 ze słownikiem SGJP - przeprowadza analizę morfologiczną.
● WCRFT2 ( demo ) - t ager morfo-syntaktyczny.
● Liner2 ( demo ) - narzędzie służące m.in. do wyznaczania nazw własnych.
● WSD ( demo ) - ujednoznacznianie znaczeń leksykalnych.
● Słowosieć - słownik semantyczny wykorzystywany do ujednoznaczniania znaczeń, a
także znajdowania hiponimów i hiperonimów.
● WebSty - służy do wyznaczania podobieństwa i grupowania tekstów.
● NKJP - wykorzystywany tagset (system znaczników).
Miejsce dostępu
LEM to narzędzie internetowe, które nie wymaga instalacji na urządzeniu użytkownika, nie
potrzebuje dodatkowego oprogramowania. Aby skorzystać z aplikacji, wystarczy wpisać w
przeglądarce adres: http://ws.clarin-pl.eu/lem.shtml lub wyszukać LEM wśród dostępnych
narzędzi na stronie projektu CLARIN-PL .
Do czego służy LEM
Za pomocą aplikacji LEM możemy przetworzyć dane tekstowe z wielu różnych plików
zapisanych w różnorodnych formatach, poddać je lematyzacji , wyznaczyć części mowy,
scharakteryzować użyte w tekście czasowniki, stworzyć posortowaną listę nazw własnych,
wydobyć statystyki z korpusu, ujednoznacznić znaczenia leksykalne, wyznaczyć hiperonimy i
hiponimy , a także dokonać analizy stylometrycznej : wyznaczyć podobieństwo i pogrupować
teksty, a rezultaty odczytać z wykorzystaniem różnych metod wizualizowania wyników.
Instrukcja obsługi
Wygląd
W czerwonej ramce znajduje się zasadnicza część, z której korzystamy podczas
przetwarzania plików. Poza tym obszarem znajdują się podstawowe informacje o narzędziu, a
także skrócona instrukcja obsługi.
Dodawanie plików Ponieważ LEM wykorzystuje w swej pracy konwerter
umożliwiający odczytywanie danych tekstowych z
różnych rodzajów plików, możliwe jest załadowanie
plików w różnych formatach, np.: PPT, XLS, PDF. Należy
jednak pamiętać, że dane, które chcemy załadować
muszą zostać wcześniej zapisane w archiwum w formacie ZIP.
Aby załadować plik, wystarczy przeciągnąć go do wyznaczonego obszaru (metoda drag &
drop ). Możemy też kliknąć w pole i otworzyć plik z komputera.
Wybór analizatora morfologicznego
Przed przystąpieniem do przetwarzania danych należy wybrać wersję analizatora
morfologicznego:
❏ Morfeusz1 - wersja o mniejszym rejestrze, rekomendowana dla starszych tekstów.
❏ Morfeusz2 - udostępnia bogatszą informację niż pierwowzór (dodana została
klasyfikacja nazw własnych i kwalifikatory), jest wyposażony w nowy moduł syntezy,
większy rejestr zawierający nowsze słownictwo. Zalecany do nowszych tekstów,
zawierających elementy dyskursu technologicznego.
Wybór zadania
Po załadowaniu pliku należy określić zadanie, jakie LEM ma wykonać. Wybierać możemy z
listy 9 opcji, które zostały opisane w dalszej części instrukcji . Do każdego zadania przypisany
jest format otrzymywanych przez użytkownika rezultatów (XLSX, CSV, TXT).
Przetwarzanie danych
Po załadowaniu pliku i wyznaczeniu zadania, wybieramy przycisk Przetwórz . Na pasku
postępu obserwować możemy proces przetwarzania wprowadzonych informacji.
Pobieranie rezultatów
Efektem przetwarzania danych jest plik z rezultatami
zapisanymi w formacie XLSX, CSV, TXT (w zależności od
wykonywanego zadania), który pobieramy klikając przycisk
Wynik . Część z otrzymywanych wyników pobieramy w archiwum ZIP.
Zadania
Lematyzacja Lematyzacja, inaczej hasłowanie, polega na wyznaczeniu dla każdego słowa tekstowego
morfologicznej formy podstawowej - lematu. Proces ten często jest pierwszym krokiem
(szczególnie istotnym dla języka o tak złożonym systemie odmiany jak język polski), który
poprzedza bardziej zaawansowane analizy.
Rezultaty lematyzacji otrzymujemy w pliku tekstowym (spakowanym do archiwum ZIP).
Tekst wyjściowy Rezultat lematyzacji
Dzięki niemu miasto zyskało podziemne połączenie prawobrzeżnej części z centrum oraz sieć metra.
dzięki on miasto zyskać podziemny połączenie prawobrzeżny część z centrum oraz sieć metro.
Wyznaczanie części mowy
Operacja polegająca na przypisaniu do każdego
słowa z tekstu lematu oraz części mowy zgodnie z
systemem znaczników NKJP .
Rezultaty otrzymujemy w plikach txt (zapisanych w
archiwum ZIP), które można następnie importować
np. do arkusza kalkulacyjnego jako dane.
Charakterystyki czasownikowe wypowiedzi
Przy pomocy aplikacji LEM użytkownik może uzyskać dane dotyczące ilości i charakterystyki
występowania czasowników (liczba/czas/osoba/rodzaj) we wprowadzonych dokumentach
tekstowych.
Rezultaty otrzymujemy w pliku XLSX w postaci podzielonej na podgrupy tabeli.
Statystyki słów i części mowy
LEM umożliwia użytkownikowi opracowanie statystyk dotyczących ilości i
procentowego udziału lematów i form gramatycznych w całym
wprowadzonym korpusie. Jako korpus rozumiany jest tu wgrany przez
użytkownika plik ZIP i wszystkie zarchiwizowane w nim dokumenty tekstowe.
Rezultaty otrzymujemy w postaci archiwum ZIP zawierającym pliki XLSX.
Statystyki dotyczące liczebności różnych form gramatycznych w tekstach literackich.
Statystyki dotyczące procentowego udziału danych lematów w tekstach.
Wyznaczanie nazw własnych
Dzięki narzędziu LEM możemy także wyodrębnić nazwy własne w poszczególnych
dokumentach. Funkcja ta przydać się może wtedy, gdy spośród dużej ilości materiału
tekstowego chcemy wyznaczyć np. nazwiska badaczy w dokumentach naukowych (tworzenie
indeksów). Lista nazw własnych, którą otrzymujemy po przetworzeniu pliku, posortowana jest
alfabetycznie dla każdego dokumentu wejściowego. Rezultaty otrzymujemy w archiwum ZIP w
postaci plików tekstowych, z których każdy zawiera listę nazw własnych, występujących w
konkretnym tekście.
Statystyki nazw własnych
Oprócz wyodrębniania nazw własnych z tekstu, możemy wykorzystać LEM do wyliczenia dla
nich prostych statystyk, określających ich liczebność w poszczególnych dokumentach.
Rezultaty otrzymujemy w pliku XLSX. W poszczególnych arkuszach znajdują się wyniki dla
kolejnych dokumentów.
Ujednoznacznienie znaczeń leksykalnych
To opcja, do której LEM wykorzystuje zasoby Słowosieci (słownika semantycznego). Pozwala
wyznaczyć na podstawie kontekstu, jako którą z możliwych form można interpretować dane,
niejednoznaczne semantycznie słowo użyte w tekście. Rezultaty otrzymujemy w archiwum
ZIP, zawierającym pliki tekstowe, które będą bardziej czytelne, jeśli użytkownik otworzy je w
arkuszu kalkulacyjnym. W pierwszej kolumnie znajdziemy słowo w formie użytej w tekście, w
drugiej - lemat, w trzeciej - oznaczenie formy gramatycznej (NKJP), a w czwartej znaczenie
słowa ze Słowosieci w postaci synsetu (zbioru synonimów, słów które można uznać za
równoznaczne semantycznie). Na tej podstawie użytkownik może przeszukiwać wprowadzony
tekst, wyodrębniając jednostki przypisane do wybranej kategorii znaczeniowej, a także
odszukać te, które odpowiadają konkretnemu znaczeniu.
orth lemat tag synset
chmurą chmura subst kłąb.1(22:ksz) dym.2(22:ksz) kurzawa.1(22:ksz) tuman.1(22:ksz) kłębowisko.1(22:ksz) obłok.1(22:ksz) chmura.2(22:ksz)
Uwaga: brak wartości w czwartej kolumnie oznacza, że lemat nie występuje w słowniku Słowosieci.
Hiperonimy i hiponimy
Do tego zadania również wykorzystywane są zasoby Słowosieci. LEM, oprócz podania
odpowiedniego znaczenia dla słowa występującego w tekście, wyszukuje dla niego hiponimy i
hiperonimy.
● Hiponim: wyraz o znaczeniu węższym od danego i podrzędnym wobec niego.
● Hiperonim: leksem o znaczeniu ogólnym, nadrzędnym w stosunku do innych.
orth lemat tag synset hiponimy hiperonimy
pociągów pociąg subst pociąg.1(3:wytw) kolej.2(3:wytw)
metro.1;pociąg międzynarodowy.1;pociąg sanitarny.1;pociąg miejscowy.1;pociąg marszrutowy.1;pociąg roboczy.1;wąskotorówka.1 kolejka wąskotorowa.1;szynobus.1 autobus szynowy.1;pociąg pancerny.1 pancerka.2;ekspres.1 expres.3;pociąg towarowy.1;pociąg pasażerski.1;pociąg szpitalny.1;pociąg pocztowy.1;pociąg szybki.1;kolejka metra.1 pociąg metra.1
pojazd szynowy.1 pojazd kolejowy.1
Uwaga: brak wartości w kolumnie 4, 5 i 6 oznacza, że lemat nie występuje w słowniku Słowosieci.
Rezultaty otrzymujemy w pliku ZIP, zawierającym dokumenty tekstowe, które będą bardziej
czytelne, jeśli użytkownik otworzy je w arkuszu kalkulacyjnym.
Analiza stylometryczna
Z poziomu narzędzia LEM użytkownik ma dostęp do uproszczonej wersji aplikacji WebSty ,
stworzonej w ramach infrastruktury CLARIN-PL . Funkcja ta służy do przeprowadzenia analizy
stylometrycznej, która polega na wyznaczeniu grup tekstów w obrębie wprowadzonego
korpusu, które wykazują wspólne cechy, wynikające z przynależności do danego stylu
(autorskiego/gatunkowego/literackiego). Rezultaty wyznaczania podobieństwa i grupowania
tekstów otrzymujemy w postaci różnych metod wizualizacji wyników (m.in. wykresy kołowe,
radarowe, wizualizacja 3D).
Przed przetworzeniem pliku wprowadzamy parametry dotyczące ilości grup, na które
narzędzie dzielić będzie korpus tekstowy. Liczba ta musi być mniejsza niż ilość dokumentów w
naszym archiwum ZIP.
Po przetworzeniu danych w dolnej części pojawią się odnośniki do siedmiu różnych metod
wizualizacji wyników grupowania i wyznaczania podobieństwa tekstów.
Różne metody wizualizacji podobieństwa i grupowania tekstów w aplikacji LEM
Mapa ciepła - metoda wizualizowania podobieństwa,
polegająca na przydawaniu każdemu elementowi
odcienia (zgodnie z kolorystyką przyjętą do tworzenia
tzw. map termicznych), odpowiadającego wartości,
jaką reprezentuje. Szczegółowe informacje dotyczące
przynależności do grupy i stopnia podobieństwa
wyświetlają się w ramce po najechaniu kursorem na
wybrany element pola.
Wykres radarowy - dane w tym wariancie są
przedstawione na planie koła. Wartości określające
wzajemne powiązania zaznaczone są za pomocą
sieci połączeń pomiędzy poszczególnymi elementami,
zróżnicowanej pod względem koloru i grubości linii.
Przy pomocy tego wykresu użytkownik jest w stanie
określić, z którym z dokumentów w analizowanym
korpusie dany tekst ma najwięcej i najmniej powiązań.
Wykres kołowy - w tym przypadku wyniki wzajemnych
powiązań w obrębie korpusu przedstawione są w
postaci koła. Poszczególne powiązania pozwalają
prześledzić, które z tekstów wykazują podobieństwo w
stosunku do innych.
Plik xslx z podziałem na grupy - aby sprawdzić, do
której grupy zostały przypisane poszczególne
dokumenty wchodzące w skład korpusu, klikamy w
link i uruchamiamy pobieranie pliku w formacie XSLX.
Otrzymujemy tabelę, składającą się z tytułów plików
tekstowych i numerów grup, do których zostały
przypisane.
Skalowanie wielowymiarowe (MDS) - rezultaty
przedstawione są w taki sposób, że o podobieństwie
poszczególnych elementów w obrębie korpusu
świadczy ich rozmieszczenie względem siebie
(obiekty podobne będą znajdowały się bliżej, a różne
dalej). Użytkownik może wybrać metodę skalowania
(np. skalowanie wielowymiarowe metryczne lub
niemetryczne, metoda t-SNE).
Skalowanie wielowymiarowe z wizualizacją 3D -
wizualizacja danych w postaci ruchomej i
przestrzennej z możliwością wprowadzenia przez
użytkownika parametrów dotyczących metody
skalowania.
Analiza istotności cech w grupach - Interfejs webowy do wyznaczania istotności cech charakterystycznych dla
danej grupy. Wykorzystując wyspecjalizowane metody testów statystycznych (Grupy metod, Weka [miary
informacyjne], testy statystyczne, drzewa losowe, eliminacja cech i algorytmy supervised), pozwala na
wygenerowanie wyników z zastosowaniem różnych algorytmów obliczeniowych.
Materiały szkoleniowe
● prezentacja dotycząca aplikacji LEM http://clarin-pl.eu/wp-content/uploads/2017/06/CLARIN-PL-LEM-cw.pdf