LEM - CLARIN-PLclarin-pl.eu/wp-content/uploads/2018/03/Instrukcja-LEM_210318.pdf · radarowe,...

LEM Instrukcja użytkownika

LEM

Podstawowe informacje LEM Miejsce dostępu Do czego służy LEM

Instrukcja obsługi Wygląd Dodawanie plików Wybór analizatora morfologicznego Wybór zadania Przetwarzanie danych Pobieranie rezultatów Zadania

Lematyzacja Wyznaczanie części mowy Charakterystyki czasownikowe wypowiedzi Statystyki słów i części mowy Wyznaczanie nazw własnych Statystyki nazw własnych Ujednoznacznienie znaczeń leksykalnych Hiperonimy i hiponimy Analiza stylometryczna

Materiały szkoleniowe

Podstawowe informacje

LEM

LEM = Literary Exploratory Machine (Maszyna do eksploracji literackiej) to narzędzie do

przetwarzania tekstów literackich w języku polskim w celu wydobywania z nich informacji

statystycznych.

Aplikacja LEM do przetwarzania i analizy danych tekstowych wykorzystuje narzędzia:

● Apache Tika - konwerter plików, wykrywa i wydobywa teksty z wielu różnych typów

plików (m.in.: doc, docx, pptx, xlsx, odt, pdf, html, rtf).

● Morfeusz 2 ze słownikiem SGJP - przeprowadza analizę morfologiczną.

● WCRFT2 ( demo ) - t ager morfo-syntaktyczny.

● Liner2 ( demo ) - narzędzie służące m.in. do wyznaczania nazw własnych.

● WSD ( demo ) - ujednoznacznianie znaczeń leksykalnych.

● Słowosieć - słownik semantyczny wykorzystywany do ujednoznaczniania znaczeń, a

także znajdowania hiponimów i hiperonimów.

● WebSty - służy do wyznaczania podobieństwa i grupowania tekstów.

● NKJP - wykorzystywany tagset (system znaczników).

Miejsce dostępu

LEM to narzędzie internetowe, które nie wymaga instalacji na urządzeniu użytkownika, nie

potrzebuje dodatkowego oprogramowania. Aby skorzystać z aplikacji, wystarczy wpisać w

przeglądarce adres: http://ws.clarin-pl.eu/lem.shtml lub wyszukać LEM wśród dostępnych

narzędzi na stronie projektu CLARIN-PL .

Do czego służy LEM

Za pomocą aplikacji LEM możemy przetworzyć dane tekstowe z wielu różnych plików

zapisanych w różnorodnych formatach, poddać je lematyzacji , wyznaczyć części mowy,

scharakteryzować użyte w tekście czasowniki, stworzyć posortowaną listę nazw własnych,

wydobyć statystyki z korpusu, ujednoznacznić znaczenia leksykalne, wyznaczyć hiperonimy i

hiponimy , a także dokonać analizy stylometrycznej : wyznaczyć podobieństwo i pogrupować

teksty, a rezultaty odczytać z wykorzystaniem różnych metod wizualizowania wyników.

http://tika.apache.org/

http://sgjp.pl/morfeusz/

http://nlp.pwr.wroc.pl/redmine/projects/wcrft/wiki/

http://ws.clarin-pl.eu/tager.shtml

http://nlp.pwr.wroc.pl/pl/narzedzia-i-zasoby/liner2

http://ws.clarin-pl.eu/ner.shtml

http://ws.clarin-pl.eu/wsd.shtml

http://plwordnet.pwr.wroc.pl/wordnet/

http://ws.clarin-pl.eu/websty.shtml

http://nkjp.pl/poliqarp/help/ense2.html

http://ws.clarin-pl.eu/lem.shtml

http://clarin-pl.eu/pl/strona-glowna/

Instrukcja obsługi

Wygląd

W czerwonej ramce znajduje się zasadnicza część, z której korzystamy podczas

przetwarzania plików. Poza tym obszarem znajdują się podstawowe informacje o narzędziu, a

także skrócona instrukcja obsługi.

Dodawanie plików Ponieważ LEM wykorzystuje w swej pracy konwerter

umożliwiający odczytywanie danych tekstowych z

różnych rodzajów plików, możliwe jest załadowanie

plików w różnych formatach, np.: PPT, XLS, PDF. Należy

jednak pamiętać, że dane, które chcemy załadować

muszą zostać wcześniej zapisane w archiwum w formacie ZIP.

Aby załadować plik, wystarczy przeciągnąć go do wyznaczonego obszaru (metoda drag &

drop ). Możemy też kliknąć w pole i otworzyć plik z komputera.

Wybór analizatora morfologicznego

Przed przystąpieniem do przetwarzania danych należy wybrać wersję analizatora

morfologicznego:

❏ Morfeusz1 - wersja o mniejszym rejestrze, rekomendowana dla starszych tekstów.

❏ Morfeusz2 - udostępnia bogatszą informację niż pierwowzór (dodana została

klasyfikacja nazw własnych i kwalifikatory), jest wyposażony w nowy moduł syntezy,

większy rejestr zawierający nowsze słownictwo. Zalecany do nowszych tekstów,

zawierających elementy dyskursu technologicznego.

Wybór zadania

Po załadowaniu pliku należy określić zadanie, jakie LEM ma wykonać. Wybierać możemy z

listy 9 opcji, które zostały opisane w dalszej części instrukcji . Do każdego zadania przypisany

jest format otrzymywanych przez użytkownika rezultatów (XLSX, CSV, TXT).

Przetwarzanie danych

Po załadowaniu pliku i wyznaczeniu zadania, wybieramy przycisk Przetwórz . Na pasku

postępu obserwować możemy proces przetwarzania wprowadzonych informacji.

Pobieranie rezultatów

Efektem przetwarzania danych jest plik z rezultatami

zapisanymi w formacie XLSX, CSV, TXT (w zależności od

wykonywanego zadania), który pobieramy klikając przycisk

Wynik . Część z otrzymywanych wyników pobieramy w archiwum ZIP.

Zadania

Lematyzacja Lematyzacja, inaczej hasłowanie, polega na wyznaczeniu dla każdego słowa tekstowego

morfologicznej formy podstawowej - lematu. Proces ten często jest pierwszym krokiem

(szczególnie istotnym dla języka o tak złożonym systemie odmiany jak język polski), który

poprzedza bardziej zaawansowane analizy.

Rezultaty lematyzacji otrzymujemy w pliku tekstowym (spakowanym do archiwum ZIP).

Tekst wyjściowy Rezultat lematyzacji

Dzięki niemu miasto zyskało podziemne połączenie prawobrzeżnej części z centrum oraz sieć metra.

dzięki on miasto zyskać podziemny połączenie prawobrzeżny część z centrum oraz sieć metro.

Wyznaczanie części mowy

Operacja polegająca na przypisaniu do każdego

słowa z tekstu lematu oraz części mowy zgodnie z

systemem znaczników NKJP .

Rezultaty otrzymujemy w plikach txt (zapisanych w

archiwum ZIP), które można następnie importować

np. do arkusza kalkulacyjnego jako dane.

Charakterystyki czasownikowe wypowiedzi

Przy pomocy aplikacji LEM użytkownik może uzyskać dane dotyczące ilości i charakterystyki

występowania czasowników (liczba/czas/osoba/rodzaj) we wprowadzonych dokumentach

tekstowych.

Rezultaty otrzymujemy w pliku XLSX w postaci podzielonej na podgrupy tabeli.

Statystyki słów i części mowy

LEM umożliwia użytkownikowi opracowanie statystyk dotyczących ilości i

procentowego udziału lematów i form gramatycznych w całym

wprowadzonym korpusie. Jako korpus rozumiany jest tu wgrany przez

http://nkjp.pl/poliqarp/help/ense2.html

użytkownika plik ZIP i wszystkie zarchiwizowane w nim dokumenty tekstowe.

Rezultaty otrzymujemy w postaci archiwum ZIP zawierającym pliki XLSX.

Statystyki dotyczące liczebności różnych form gramatycznych w tekstach literackich.

Statystyki dotyczące procentowego udziału danych lematów w tekstach.

Wyznaczanie nazw własnych

Dzięki narzędziu LEM możemy także wyodrębnić nazwy własne w poszczególnych

dokumentach. Funkcja ta przydać się może wtedy, gdy spośród dużej ilości materiału

tekstowego chcemy wyznaczyć np. nazwiska badaczy w dokumentach naukowych (tworzenie

indeksów). Lista nazw własnych, którą otrzymujemy po przetworzeniu pliku, posortowana jest

alfabetycznie dla każdego dokumentu wejściowego. Rezultaty otrzymujemy w archiwum ZIP w

postaci plików tekstowych, z których każdy zawiera listę nazw własnych, występujących w

konkretnym tekście.

Statystyki nazw własnych

Oprócz wyodrębniania nazw własnych z tekstu, możemy wykorzystać LEM do wyliczenia dla

nich prostych statystyk, określających ich liczebność w poszczególnych dokumentach.

Rezultaty otrzymujemy w pliku XLSX. W poszczególnych arkuszach znajdują się wyniki dla

kolejnych dokumentów.

Ujednoznacznienie znaczeń leksykalnych

To opcja, do której LEM wykorzystuje zasoby Słowosieci (słownika semantycznego). Pozwala

wyznaczyć na podstawie kontekstu, jako którą z możliwych form można interpretować dane,

niejednoznaczne semantycznie słowo użyte w tekście. Rezultaty otrzymujemy w archiwum

ZIP, zawierającym pliki tekstowe, które będą bardziej czytelne, jeśli użytkownik otworzy je w

arkuszu kalkulacyjnym. W pierwszej kolumnie znajdziemy słowo w formie użytej w tekście, w

drugiej - lemat, w trzeciej - oznaczenie formy gramatycznej (NKJP), a w czwartej znaczenie

słowa ze Słowosieci w postaci synsetu (zbioru synonimów, słów które można uznać za

równoznaczne semantycznie). Na tej podstawie użytkownik może przeszukiwać wprowadzony

tekst, wyodrębniając jednostki przypisane do wybranej kategorii znaczeniowej, a także

odszukać te, które odpowiadają konkretnemu znaczeniu.

orth lemat tag synset

chmurą chmura subst kłąb.1(22:ksz) dym.2(22:ksz) kurzawa.1(22:ksz) tuman.1(22:ksz) kłębowisko.1(22:ksz) obłok.1(22:ksz) chmura.2(22:ksz)

Uwaga: brak wartości w czwartej kolumnie oznacza, że lemat nie występuje w słowniku Słowosieci.

Hiperonimy i hiponimy

Do tego zadania również wykorzystywane są zasoby Słowosieci. LEM, oprócz podania

odpowiedniego znaczenia dla słowa występującego w tekście, wyszukuje dla niego hiponimy i

hiperonimy.

● Hiponim: wyraz o znaczeniu węższym od danego i podrzędnym wobec niego.

● Hiperonim: leksem o znaczeniu ogólnym, nadrzędnym w stosunku do innych.

orth lemat tag synset hiponimy hiperonimy

pociągów pociąg subst pociąg.1(3:wytw) kolej.2(3:wytw)

metro.1;pociąg międzynarodowy.1;pociąg sanitarny.1;pociąg miejscowy.1;pociąg marszrutowy.1;pociąg roboczy.1;wąskotorówka.1 kolejka wąskotorowa.1;szynobus.1 autobus szynowy.1;pociąg pancerny.1 pancerka.2;ekspres.1 expres.3;pociąg towarowy.1;pociąg pasażerski.1;pociąg szpitalny.1;pociąg pocztowy.1;pociąg szybki.1;kolejka metra.1 pociąg metra.1

pojazd szynowy.1 pojazd kolejowy.1

Uwaga: brak wartości w kolumnie 4, 5 i 6 oznacza, że lemat nie występuje w słowniku Słowosieci.

Rezultaty otrzymujemy w pliku ZIP, zawierającym dokumenty tekstowe, które będą bardziej

czytelne, jeśli użytkownik otworzy je w arkuszu kalkulacyjnym.

http://plwordnet.pwr.wroc.pl/wordnet/

Analiza stylometryczna

Z poziomu narzędzia LEM użytkownik ma dostęp do uproszczonej wersji aplikacji WebSty ,

stworzonej w ramach infrastruktury CLARIN-PL . Funkcja ta służy do przeprowadzenia analizy

stylometrycznej, która polega na wyznaczeniu grup tekstów w obrębie wprowadzonego

korpusu, które wykazują wspólne cechy, wynikające z przynależności do danego stylu

(autorskiego/gatunkowego/literackiego). Rezultaty wyznaczania podobieństwa i grupowania

tekstów otrzymujemy w postaci różnych metod wizualizacji wyników (m.in. wykresy kołowe,

radarowe, wizualizacja 3D).

Przed przetworzeniem pliku wprowadzamy parametry dotyczące ilości grup, na które

narzędzie dzielić będzie korpus tekstowy. Liczba ta musi być mniejsza niż ilość dokumentów w

naszym archiwum ZIP.

Po przetworzeniu danych w dolnej części pojawią się odnośniki do siedmiu różnych metod

wizualizacji wyników grupowania i wyznaczania podobieństwa tekstów.

http://ws.clarin-pl.eu/websty.shtml#

http://www.clarin-pl.eu/

Różne metody wizualizacji podobieństwa i grupowania tekstów w aplikacji LEM

Mapa ciepła - metoda wizualizowania podobieństwa,

polegająca na przydawaniu każdemu elementowi

odcienia (zgodnie z kolorystyką przyjętą do tworzenia

tzw. map termicznych), odpowiadającego wartości,

jaką reprezentuje. Szczegółowe informacje dotyczące

przynależności do grupy i stopnia podobieństwa

wyświetlają się w ramce po najechaniu kursorem na

wybrany element pola.

Wykres radarowy - dane w tym wariancie są

przedstawione na planie koła. Wartości określające

wzajemne powiązania zaznaczone są za pomocą

sieci połączeń pomiędzy poszczególnymi elementami,

zróżnicowanej pod względem koloru i grubości linii.

Przy pomocy tego wykresu użytkownik jest w stanie

określić, z którym z dokumentów w analizowanym

korpusie dany tekst ma najwięcej i najmniej powiązań.

Wykres kołowy - w tym przypadku wyniki wzajemnych

powiązań w obrębie korpusu przedstawione są w

postaci koła. Poszczególne powiązania pozwalają

prześledzić, które z tekstów wykazują podobieństwo w

stosunku do innych.

Plik xslx z podziałem na grupy - aby sprawdzić, do

której grupy zostały przypisane poszczególne

dokumenty wchodzące w skład korpusu, klikamy w

link i uruchamiamy pobieranie pliku w formacie XSLX.

Otrzymujemy tabelę, składającą się z tytułów plików

tekstowych i numerów grup, do których zostały

przypisane.

Skalowanie wielowymiarowe (MDS) - rezultaty

przedstawione są w taki sposób, że o podobieństwie

poszczególnych elementów w obrębie korpusu

świadczy ich rozmieszczenie względem siebie

(obiekty podobne będą znajdowały się bliżej, a różne

dalej). Użytkownik może wybrać metodę skalowania

(np. skalowanie wielowymiarowe metryczne lub

niemetryczne, metoda t-SNE).

Skalowanie wielowymiarowe z wizualizacją 3D -

wizualizacja danych w postaci ruchomej i

przestrzennej z możliwością wprowadzenia przez

użytkownika parametrów dotyczących metody

skalowania.

Analiza istotności cech w grupach - Interfejs webowy do wyznaczania istotności cech charakterystycznych dla

danej grupy. Wykorzystując wyspecjalizowane metody testów statystycznych (Grupy metod, Weka [miary

informacyjne], testy statystyczne, drzewa losowe, eliminacja cech i algorytmy supervised), pozwala na

wygenerowanie wyników z zastosowaniem różnych algorytmów obliczeniowych.

Materiały szkoleniowe

● prezentacja dotycząca aplikacji LEM http://clarin-pl.eu/wp-content/uploads/2017/06/CLARIN-PL-LEM-cw.pdf

http://clarin-pl.eu/wp-content/uploads/2017/06/CLARIN-PL-LEM-cw.pdf

LEM - CLARIN-PLclarin-pl.eu/wp-content/uploads/2018/03/Instrukcja-LEM_210318.pdf · radarowe,...

Documents

Transcript of LEM - CLARIN-PLclarin-pl.eu/wp-content/uploads/2018/03/Instrukcja-LEM_210318.pdf · radarowe,...