Narodowy Korpus Języka Polskiego

29
nsorzy konferencji: ronat konferencji: : ganizator: : tnerzy konferencji: Narodowy Korpus Języka Polskiego Marek Łaziński www.nkjp.pl [email protected], [email protected]

description

Narodowy Korpus Języka Polskiego. Marek Łaziński www.nkjp.pl [email protected], [email protected]. Co to jest korpus?. Korpus to zbiór tekstów, w którym czegoś szukamy . Korpus narodowy to zbiór tekstów dobranych tak, by reprezentowały przeciętne zwyczaje językowe społeczeństwa. - PowerPoint PPT Presentation

Transcript of Narodowy Korpus Języka Polskiego

Page 1: Narodowy Korpus Języka Polskiego

Sponsorzy konferencji:

Patronat konferencji:

:

Organizator:

:Partnerzy konferencji:

Narodowy Korpus Języka Polskiego

Marek Łaziń[email protected], [email protected]

Page 2: Narodowy Korpus Języka Polskiego

2/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Co to jest korpus?

• Korpus to zbiór tekstów, w którym czegoś szukamy.

• Korpus narodowy to zbiór tekstów dobranych tak, by reprezentowały przeciętne zwyczaje językowe społeczeństwa.

• Korpus równoległy prezentuje równolegle zdania z dwóch języków.

Page 3: Narodowy Korpus Języka Polskiego

3/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Dobry korpus musi być

• duży (miliony słów)

• zróżnicowany i reprezentatywny

• bogato anotowany (znakowany)

• przeszukiwany programem, który pozwala szukać konkordancji lekesmów, form gramatycznych, konstrukcji składniowych oraz kolokacji (typowych skojarzeń tekstowych)

• łatwo dostępny (w sieci)

Page 4: Narodowy Korpus Języka Polskiego

4/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Korpusy wczoraj i dziś• 1967: pierwsze korpusy angielskie - Brown University

Corpus (Kucera, Francis)• 1987: pierwszy angielski słownik oparty na korpusie -

Collins Cobuild English Dictionary (Sinclair)• 1990-95: British National Corpus (100 mln słów)• Niemieckie korpusy IDS (Mannheim) i DWDS (Berlin)• 1994: Ústav Českého národního korpusu na

Uniwersytecie Karola. Dziś w krajach korpusy narodowe bułgarski, chorwacki, czeski, polski, rosyjski, słowacki, słoweński.

Page 5: Narodowy Korpus Języka Polskiego

5/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Polskie korpusy przed 2008 r.

• Instytut Podstaw Informatyki oraz Instytut Języka Polskiego PAN – korpus duży (250 mln słów), w całości dostępny w sieci, dokładnie anotowany, umożliwia wyszukiwanie skomplikowanych konstrukcji.

• Wydawnictwo Naukowe PWN – korpus średniej wielkości (100 mln słów), dobrze zróżnicowany.

• Uniwersytet Łódzki (zespół PELCRA ) – korpus średniej wielkości (100 mln słów), w całości dostępny w sieci.

Page 6: Narodowy Korpus Języka Polskiego

6/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Słowniki PWN oparte na korpusach

• Inny słownik języka polskiego

• Wielki słownik polsko-angielski i angielsko-polski PWN Oxford, Wielki słownik polsko-niemiecki

• Definicje korpusowe– When a dog wags its tail, it repeatedly waves its tail from side to

side (Cobuid CED)

– wag = to shake up and down or move from side to side (OW)

– Jeśli ktoś ciemięży ludzi, to wykorzystując swoją władzę [...] nakłada na nich zbyt ciężkie obowiązki. (ISJP)

– ciemiężyć - pozbawiać swobody, nakładać ciężary, zmuszać do czegoś; prześladować, gnębić, uciskać (USJP)

Page 7: Narodowy Korpus Języka Polskiego

7/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Narodowy Korpus Języka Polskiego www.nkjp.pl

• Jest projektem badawczym MNiSW.• Łączy doświadczenia wszystkich instytucji tworzących

wcześniej polskie korpusy oraz pracowników UW.• Do końca roku 2010 zgromadzi miliard słów ze

skomplikowaną wyszukiwarką.• Podkorpus 300 milionów będzie dokładnie

zrównoważony gatunkowo i stylistycznie według badań czytelnictwa w Polsce.

• Wśród 30 mln słów tekstów mówionych będą 3 mln konwersacji nagranych w naturalnych warunkach.

Page 8: Narodowy Korpus Języka Polskiego

8/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Obecnie w NKJP

• 500 mln słów z ponad 1000 książek i kilku tysięcy gazet (prawie 300 tytułów)

• Teksty zróżnicowane w oparciu o badania czytelnictwa w Polsce

• Wyszukiwarka Poliqarp pozwalająca szukać „pustych” kategorii gramatycznych

• Wyszukiwarka PELCRA z modułem kolokacji

Page 9: Narodowy Korpus Języka Polskiego

9/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Wśród 500 mln słów...

• Przyimek w (najczęstsze słowo) występuje 13.500.000 razy – 2,5%

• Wojna występuje 130.000 razy, a pokój (w dwóch znaczeniach – 64.000 razy

• Cieszyć się występuje 66.500 razy, a martwić się 14.500

• Groch – 2.000 razy• Kapusta – 7.000 razy• Groch z kapustą – 80 razy

Page 10: Narodowy Korpus Języka Polskiego

10/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Podprojekty NKJP• Słowa tygodnia (dnia) - częstsze w gazetach w

danym tygodniu (dniu) niż w okresie porównawczym: www.gazetylokalne.pl

• Korpus równoległy polsko-rosyjski

• Narzędzia do:– rozpoznawania i ujednoznaczniania form fleksyjnych

w tekście– rozpoznawania znaczeń homonimów– identyfikacji nazw własnych

Page 11: Narodowy Korpus Języka Polskiego

11/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Co można sprawdzić w korpusie?

• Poprawność gramatyczną i ortograficzną form i połączeń

• Typowe użycia i konteksty (skojarzenia słów)

• Częstość słów i konstrukcji

• Dzieje słów (pierwsze użycia)

• Skrzydlate słowa (Kto to powiedział?)

Page 12: Narodowy Korpus Języka Polskiego

12/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

[pos="praet|fin" & aspect=perf & orth="na.*"][]{,2}[orth=na]

Page 13: Narodowy Korpus Języka Polskiego

13/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Czasowniki dk z prefiksem na-odległe najwyżej o 2 wyrazy od przyimka na

Page 14: Narodowy Korpus Języka Polskiego

14/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Wyszukiwarka kolokacji

Page 15: Narodowy Korpus Języka Polskiego

15/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Kolokacje kawy w NKJP

Page 16: Narodowy Korpus Języka Polskiego

16/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Kolokacje herbaty w NKJP

Page 17: Narodowy Korpus Języka Polskiego

17/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Kawa czy herbata?• NKJP: kawa 9653, herbata: 15828

szklanka: 779, filiżanka: 248• BNC: coffe 6782, tea: 8030

cup 11965, glass 9438 (http://www.natcorp.ox.ac.uk/index.xml)

• Wortschatz: Kaffee 3548, Tee 1554 (kolok. Tasse)(http://wortschatz.uni-leipzig.de/)

• DWDS: Tee 2604, Kaffee 4443 (http://www.dwds.de/textbasis/kerncorpus)

• ČNK: čaj 3763, káva 4630• NKRJa: kofe 7898, čaj 24050

čaška 5522, stakan 11286

Page 18: Narodowy Korpus Języka Polskiego

18/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Korpusy równoległe• ENPC - korpus angielsko-norweski

www.hf.uio.no/ilos/forskning/forskningsprosjekter/enpc (niedostępny w sieci)

• Korpus Hansard kanadyjskich debat parlamentarnych po angielsku i po francusku (projekt TransSearch: www.tsrali.com)

• Korpus aktów prawnych Unii Europejskiej (do instalacji): langtech.jrc.it/JRC-Acquis

• Korpus angielsko-rosyjski, -słoweński, -chorwacki i inne w ramach korpusów narodowych

Page 19: Narodowy Korpus Języka Polskiego

19/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Home w TransSearch (nie ma maison)

Page 20: Narodowy Korpus Języka Polskiego

20/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Strona korpusu ParaSol

Page 21: Narodowy Korpus Języka Polskiego

21/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Strona wyszukiwania ParaSol

Page 22: Narodowy Korpus Języka Polskiego

22/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Wyszukiwanie – szklanka

Page 23: Narodowy Korpus Języka Polskiego

23/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Szklanka herbaty i filiżanka kawy• W czeskich przekładach szklance i stakanowi odpowiadają:

sklenice, sklenka, sklenička, číš, šálek.

• Czasem herbacie odpowiada kawa.

• На столе , за которым сидел во время моего прошлого визита жирный , на куче перепачканных бумаг стояли стаканы из-под чая... (Bułhakow: Mistrz i Małgorzta)

• Na stole, na którym siedział przedtem otyły, na stercie poplamionych papierów stały szklanki po herbacie.

• Na stole, u kterého prve seděl tlusťoch, stály šálky od kávy.

• Wypiłem resztki herbaty i wydrapałem łyżeczką cukier z dna szklanki.

• Dopil jsem kavu a ližičkou vybral zbytky cukru ze dna šálku.

Page 24: Narodowy Korpus Języka Polskiego

24/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Kolega

Page 25: Narodowy Korpus Języka Polskiego

25/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Polski rozkaźnik i rosyjski bezokolicznik

Page 26: Narodowy Korpus Języka Polskiego

26/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Korpus polsko-rosyjski• Będzie umieszczony (jako korpus rosyjsko-polski)

na stronach NKRJa obok rosyjsko-angielskiego i –niemieckiego, a także na stronach Uniwersytetu Baszkirskiego w Ufie. Polski interfejs będzie na stronach NKJP, polonistyki i rusycystyki UW.

• Na pierwszym etapie pracy serwer z tekstami będzie po stronie rosyjskiej, w Polsce stworzymy później serwer lustrzany.

• W Polsce projekt działa jako grant MNiSW.

Page 27: Narodowy Korpus Języka Polskiego

27/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Tagowanie, lematyzacja, dezambiguacjai dopasowanie zdań

• <RUS>В{в=PR=} северо-восточном{северо-восточный=A=пр,ед,муж|северо-восточный=A=пр,ед,сред} углу {угол=S,муж,неод=дат,ед| угол=S,муж,неод=местн,ед} Африки{африка=S,жен,неод=им,мн| африка=S,жен,неод=род,ед| африка=S,жен,неод=вин,мн} лежит{лежать=V,несов=непрош,ед,изъяв,3-л} Египет{египет=S,муж,неод=им,ед| египет=S,муж,неод=вин,ед}.</RUS>

• <POL>W [w:prep:loc:nwok] północno [północny:adja]- [-:interp]wschodnim [wschodni:adj:sg:loc:m3:pos] kącie [kąt:subst:sg:loc:m3] Afryki [afryka:subst:sg:gen:f] leży [leżeć:fin:sg:ter:imperf] Egipt [egipt:subst:sg:acc:m3].</POL>

• <orth>leży</orth>:• <lex disamb="1">• <base>leżeć</base> • <ctag>fin:sg:ter:imperf</ctag></lex>

<base>leż</base>, <ctag>subst:sg:gen:f</ctag> • <base>leż</base>, <ctag>subst:sg:dat:f</ctag> • <base>leża</base>, <ctag>subst:sg:gen:f</ctag> • <base>leża</base>, <ctag>subst:sg:dat:f</ctag> • <base>leże</base>, <ctag>subst:pl:gen:n</ctag>

Wpadki lematyzacyjne: dopieroż <dopierożyć>, (w) terenie <Terenia>

Page 28: Narodowy Korpus Języka Polskiego

28/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Problemy w gromadzeniu korpusu• Skanowanie, tagowanie i dezambiguacja tekstu są

pracochłonne. Najbardziej pracochłonne jest przepisywanie tekstów mówionych.

• Jednak najwięcej czasu zajmuje przekonanie wydawców lub autorów do przekazania tekstu i wydania zgody na wykorzystanie w korpusie.

• Mimo że udostępniamy jedynie cytaty niewiele większe niż ilustracja słownikowa, to na przechowywanie całości tekstu na własnych serwerach i znakowanie go musimy mieć zgodę.

Page 29: Narodowy Korpus Języka Polskiego

29/20„Rynek tłumaczeń i lokalizacji w Polsce”, Kraków, 27-28 marca 2010

Jak można pomóc NKJP?Zgadzam się na wykorzystanie mojego tekstu/ przekładu [...]w Narodowym Korpusie Języka Polskiego (Korpusie Polsko-Rosyjskim) i oraz na wykorzystanie cytatów z tego tekstu w celach dydaktycznych, badawczych i leksykograficznych. Teksty Korpusu nikomu nie będą udostępnione jako integralne utwory.W Internecie lub mogą być udostępnione jedynie krótkie cytaty pozwalające określić znaczenie, typową łączliwość oraz cechy gramatyczne wyrazów i konstrukcji w jednym lub W dwóch językach. Teksty będą przechowywane wyłącznie w celu znakowania morfosyntaktycznego i zindeksowania w programie wyszukującym w instytucjach budujących NKJP i KPR: na Wydziale Polonistyki i w Instytucie Rusycystyki UW,w Instytucie Podstaw Informatyki i Instytucie Języka Polskiego PAN, Katedrze Anglistyki Uniwersytetu Łódzkiego oraz Wydawnictwie Naukowym PWN.