biuletyn_62

download biuletyn_62

of 266

Transcript of biuletyn_62

  • 8/14/2019 biuletyn_62

    1/266

    SPIS RZECZY TABLE DES MATIRES

    W s p o m n i e n i a

    K. Po l a s k i (Katowice), Marian Jurkowski (4 XI 192930 VI 2005) 5

    W. W i t k o w s k i (Krakw), Profesor Teotyn Rott-ebrowski (18 XII 1919

    4 VIII 2004)

    9

    A r t y k u y

    A. F u r d a l (Wrocaw), Kilka sw na 80-lecie Polskiego TowarzystwaJzykoznawczego 15

    J.S. Bie (Warszawa), Aparat pojciowy wybranych systemw przetwarza-nia tekstw polskich

    19

    M. wi dz i sk i, M. Ru do lf (Warszawa), Narzdzia informatyczne obsugiwielkich korpusw tekstw: wyszukiwarka Holmes 31

    M. Marciniak, A. Mykowiecka (Warszawa), Powierzchniowe przetwa-rzanie skadniowe na potrzeby automatycznej ekstrakcji informacji z ra-

    portw medycznych

    45

    M. azi sk i, M. Sz ewc zy k (Warszawa), Sowa klucze w semantyce i sta-tystyce. Sowa tygodnia Rzeczpospolitej

    57

    M. Kuratczyk (Warszawa), Narzdzia korpusowe w leksykografii dwuj-zycznej

    69

    M. Turska, N. Kotsyba (Warszawa), Polskoukraiski korpus rwnolegy

    (PolUKR)

    83I. Loewe (Katowice), Internet i jego zasoby w polskich badaniach lingwi-

    stycznych. Rekonesans

    93

    A. Tereszkiewicz (Krakw), Analiza gatunkowa encyklopedii internetowejWikipedia

    105

    M. Dbrowska (Warszawa), (Nie)grzeczno w mediach elektronicznych 117

    A. Kiklewicz (Olsztyn), Forma 129

  • 8/14/2019 biuletyn_62

    2/266

  • 8/14/2019 biuletyn_62

    3/266

    BULLETIN DE LA SOCIT POLONAISE DE LINGUISTIQUE, fasc. LXII, 2006ISSN 00323802

    KAZIMIERZ POLASKIKatowice

    Marian Jurkowski (4 XI 1929 30 VI 2005)

    Marian Jurkowski urodzi si w Poznaniu, w ro-dzinie kolejarskiej. Do szko podstawowej zaczchodzi w Nowm Tomlu, wielkopolskim mia-steczku pooonm blisko wczesnej granic pol-sko-niemieckiej. Stamtd przeprowadzi si z ro-dzin do Koomi, dokd przeniesiono ojca.

    Po wbuchu wojn rodzina Jurkowskich po-wrcia do Wielkopolski poprzez oboz przej-ciowe w Medce i odzi (obwatelom polskimurodzonm na obszarach zajtch przez Niem-cw zezwalano na wjazd do miejsc urodzenia).

    Po krtkim okresie nauki wniemieckiej szkole dladzieci polskich Mariana Jurkowskiego skierowanodo przmusowej prac jako pasterza krw. Wko-nwa j do koca 1944 r. Wzwolenie przez od-dzia Armii Czerwonej zastao Go w OstrowieWielkopolskim udziadkw.

    W1951 r. ukocz gimnazjum wPoznaniu, eksternistczn matur zda w Szcze-cinie w 1951 r.

    W latach 19511953 studiowa polonistk na Uniwerstecie Poznaskim podkierunkiem prof. Wadsawa Kuraszkiewicza. Zachcon przez Kuraszkiewicza

    wbra si na studia magisterskie wzakresie ukrainistki do Warszaw. Ukocz jew 1955 r. pod kierunkiem prof. Przemsawa Zwoliskiego.

    Po ukoczeniu studiw podj prac wZakadzie Sowianoznawstwa PAN (dziInsttucie Slawistki), prowadzc rwnoczenie lektorat jzka polskiego wgrupiestudiujcej wWarszawie modzie chiskiej. WZakadzie Sowianoznawstwa pra-cowa wzespole badajcm hdronimi polsk isowiask. Owocem tej prac baksikaHydronimia Wisy. Cz I(Wrocaw 1965, wsplnie zJanuszem Riegeremipod redakcj prof. Przemsawa Zwoliskiego).

    Hdronimw dotcza te Jego rozprawa doktorska Ukraiska terminologia hy-drograficzna, oparta na materiaach zebranch podczas stpendialnego pobtu w Ki-

  • 8/14/2019 biuletyn_62

    4/266

    6 KAZIMIERZ POLASKI

    jowie i Lwowie (19591960). Obroniona na Uniwerstecie Warszawskim w1967 r.,ukazaa si drukiem w1972 r. Autor omwi wniej wszechstronnie blisko 1800 ter-minw wodnch, podajc ich znaczenia, zasigi tertorialne, budow sowotwr-

    cz, odpowiedniki winnch jzkach sowiaskich oraz rekonstrukcj prasowia-sk. Ksika spotkaa si zbardzo dobrmi recenzjami w jzkoznawczch czasopis -mach polskich izagranicznch.

    Wlatach 19711973 pracowa wInsttucie Ruscstki Uniwerstetu Warszaw-skiego. Wr. 1974 przenis si na Uniwerstet lski iwo wcz si worganiza-cj Insttutu Filologii Obcch. Peni funkcj prodziekana Wdziau Filologicznegooraz zastpc kierownika Zakadu Ruscstki. Rwnoczenie pracowa nad mono-grafiSemantyka iskadnia wyrae gradacyjnych wjzykach wschodniosowia-skich, ktra staa si podstaw dla przewodu habilitacnego przeprowadzonego naUniwerstecie Jagielloskim (1974 r.).

    Wlatach 19761980 pracowa wFilii Uniwerstetu Warszawskiego wBiamsto-ku, penic tam funkcj pierwszego drektora Insttutu Filologii Polskiej, anastpnieprzez dwa lata b zatrudnion wWszej Szkole Pedagogicznej w Kielcach.

    W1982 r. wrci na Uniwerstet Warszawski. Wr. 1984 otrzma ttu profeso-ra. Wr. 1993 ze wzgldw zdrowotnch przeszed na emertur, ale po dwch la-tach podj prac wkieleckiej filii Akademii witokrzskiej wPiotrkowie Trbu-nalskim.

    Jego zainteresowania naukowe b rozlege iobejmowa takie dziedzin, jakhistoria jzka polskiego, nauczanie jzka polskiego jako obcego, jzki wschod-niosowiaskie, azwaszcza ukraiski, onomastka sowiaska, przede wszstkimhdronimia i terminologia geograficzna, sowiaska lekska sakralna, translator-

    ka zarwno wsensie teoretcznm jak praktcznm, wreszcie jzkoznawstwooglne.

    Jego pierwsze prace dotcz historii jzka polskiego, wszczeglnoci kontak-tw jzkowch polsko-ukraiskich. Wiele uwagi powici wpwom ukraiskimi orientalnm poprzez jzk ukraiski na jzk pisarz polskich zwizanch z Kresa-mi, aza ich porednictwem take na jzk oglnopolski.

    Z Jego prac polonistcznch warto take wmieni rozprawki powicone takimzagadnieniom, jak kategoria wotnoci na tle sowiaskim, dopeniacz czstkow,wpw obce na jzk polski po pierwszej wojnie wiatowej a do koca lat siedem-dziesitch XX w., cz rodzaj gramatczn rzeczownikw zapoczanch zinnch

    jzkw.Najwicej uwagi w swojej prac badawczej powici jzkowi ukraiskiemu.

    Oprcz problematki zwizanej zkontaktami jzkowmi polsko-ukraiskimi w-mieni tu trzeba Jego studia powicone zabtkom staroruskim, folklorowi, ksztato-waniu si ukraiskiego jzka literackiego w XIX w. ijzkowi dziewitnastowiecz -nch pisarz ipoetw ukraiskich. Zajmowa si take problemami innch jzkwwschodniosowiaskich. Jak wspomniaem wej, swoj rozpraw habilitacjn po-wici konstrukcjom gradacjnm wtch jzkach.

    Wane miejsce wJego prac badawczej zajmowa zagadnienia onomastczne.Do najwaniejszch pozcji ztego zakresu nale: opracowana pod redakcj Prze-

  • 8/14/2019 biuletyn_62

    5/266

    MARIAN JURKOWSKI (4 XI 1929 30 VI 2005) 7

    msawa Zwoliskiego wsplnie zJanuszem Riegerem wspomniana ju ksikaHy-dronimia Wisy. Cz I: Wykaz nazw wukadzie hydrograficznym (Wrocaw 1965)oraz ksika Ukraiska terminologia hydrograficzna (Wrocaw 1971).

    Z prac otematce sakralnej warto wmieni Jego artku rda staroruskichterminw sakralnych (1983), rda staroukraiskich terminw sakralnych (1988)orazNazwy Boga wpoezji Tarasa Szewczenki (1999).

    Teorii przekadoznawstwa dotcz bardzo ciekaw Jego artkuDie ersten zweiVerse der Bibel als linguistisches bersetzungsproblem (1993). Marian Jurkowskinie stroni take od tumaczenia prac jzkoznawczch, przbliajc w ten sposbpolskiemu cztelnikowi osignicia lingwistki wiatowej. Najwaniejsz pozcjb tutaj przekad (wsplnie zZuzann Topolisk) Kursu jzykoznawstwa wsp-czesnego Charlesa F. Hocketta (1968).

    Jeli chodzi ojzkoznawstwo oglne, to wzasadzie wszstkie Jego publikacjewjakiej mierze mona do niego odnie, albowiem zawartm wnich rozwaaniomnawet o charakterze szczegowm zawsze towarzsz refleksja teoretczna. Naj-waniejsz pozcj wtej grupie stanowi jednak niewtpliwie Jego wspautorstwow opracowanej pod moj redakcjEncyklopedii jzykoznawstwa oglnego.

    Marian Jurkowski b utalentowanm wkadowc, zawsze do suchacz mwiw sposb przstpn iatwo nawizwa znimi kontakt. Przez wiele lat prowadziw Polskim Radio pogadanki na temat jzkowe. B znakomitm popularzatoremwiedz jzkoznawczej nie tlko wformie mwionej ale ipisanej, umia bowiemformuowa swoje mli jasno, aJego wwd b zawsze przejrzst. Jest autoremdwch znakomitch ksiek popularnonaukowch:Jzyk Kosmosu (1986) iOd wie-y Babel do jzyka Kosmitw. Ojzykach sztucznych, uniwersalnych imidzynaro-

    dowych (1986).Jako czowiek b bezporedni, koleeski iczliw. Wbrew przeciwnociom,

    ktrch los Mu nie szczdzi, nie traci optmizmu. Daleki od wszelkiego zacietrze-wienia zawsze kierowa si rzeczowoci. B wmarzonm wsppracownikiem.Miaem szczcie bliej Go od tej stron pozna zwaszcza w okresie, kied wsp-pracowalim wSosnowcu prz organizacji neofilologii na Uniwerstecie lskimoraz wprac nad wmienion juEncyklopedi jzykoznawstwa oglnego.

  • 8/14/2019 biuletyn_62

    6/266

    BULLETIN DE LA SOCIT POLONAISE DE LINGUISTIQUE, fasc. LXII, 2006ISSN 00323802

    WIESAW WITKOWSKIKrakw

    Profesor Teotyn Rott-ebrowski(18 XII 19194 VIII 2004)

    Zmar 10 sierpnia 2004 r w wieku 85 lat.Tote nie tlko bli jego uczniowie, ale tejc jeszcze modsi jego koledz slawi-ci znali go ju jako czowieka dojrzaego,gwnie (jeli nie wcznie) jako pracowni-ka naukowego uczelni lubelskich. Nie dziwwic, i autorz pomiertnch o nim wspo-mnie koncentrowali swoj uwag na ostat-nich czterdziestu latach jego dziaalnoci1.Jak jednak wnika z informacji uzskanch

    przez niej podpisanego od Maonki Zmar-ego, p. Krstn Rott-ebrowskiej, nie mo-gli oni postpi inaczej: wszstkie bowiemnieomal dokument osobiste Profesora za-gin w 1946 r., w czasie ekspatriacji jegomatki do powojennej Polski. Te za waniej-sze fakt z pierwszch lat cia przszego jzkoznawc lubelskiego, jakie dzi jeste-m w stanie odtworz w oparciu o wiado-

    moci, przekazane przez uprzejm Informatork, zawieraj niestet trudne do uzu-

    penienia luki.Teotn, sn Pawa Rott-ebrowskiego, urodzi si 18 grudnia 1919 r. w Hermano-

    wiczach, miasteczku powiatu dzinieskiego, jaki stanowi skrajnie pnocn cz(graniczc przez Dwin z otw) midzwojennego wojewdztwa wileskiego.

    Nauk szkoln rozpocz w rodzinnej miejscowoci, ukocz j jednak najpraw-dopodobniej w odlegch o 10 km ukach, miasteczku dwukrotnie wikszm od

    1 Jan Orowski i Barbara Perczska,Profesor Teotyn Rott-ebrowski 19192004 (Wiadomoci Uni-wersteckie UMCS, Lublin 2004, Nr 6, ss. 1011), Jzef Zdunek, Prof. dr hab. Teotn Rott-ebrowski(Krotoszn i okolice opracowania i materia rdowe I, Krotoszn 2005, s. 157162).

  • 8/14/2019 biuletyn_62

    7/266

    10 WIESAW WITKOWSKI

    Hermanowicz, liczcm w poowie lat dwudziestch XX w. blisko ptora tsi-ca mieszkacw i posiadajcm pen siedmioletni szko powszechn. Do gimna-zjum uczszcza w pooonej nad sam Dwin (a oddalonej od Hermanowicz o bli-

    sko 40 km) stolic powiatu, piciotsicznej wwczas Dzinie2

    .Zapewne wkrtce po uzskaniu wiadectwa dojrzaoci podj prac jako naucz-ciel-aplikant w znanej ju sobie szkole ukowskiej.

    W dniu 17 lub 18 wrzenia 1939 r. mia okazj wita, wzwalajc jego kraj oj-czst, niezwcion Czerwon Armi.

    Z pocztkiem drugiej okupacji radzieckiej Wileszczzn (pn jesieni 1944 r.)zosta, ju jako penoprawn obwatel ZSRR, powoan do sub wojskowej i po krt-kim przeszkoleniu wsan na front. Rann ciko w dniu 28 stcznia 1945 r. podczasforsowania pod Krlewcem (niem. Knigsberg, ros. Kaliningrad) rzeki Prego i podle-czon w szpitalu polowm, zosta jako inwalida wojenn zwolnion z armii. Wkrtce popowrocie do rodzinnego domu podj znw prac w ukowskiej szkole.

    Ab unikn proponowanej mu tajnej wspprac z sowieckimi organami bez-pieczestwa pastwowego, zdecdowa si opuci ziemi przodkw i dziki czli-woci lokalnego penomocnika Polskiego Komitetu Wzwolenia Narodowego, ktrzgodzi si dopisa go do kart ewakuacjnej jego starszej siostr, Stanisaw Fie-dorowicz, mg z pocztkiem lipca 1945 r. przekrocz legalnie granic pastwowna Bugu.

    Podejmowane przez modego pedagoga prb uzskania staego zatrudnieniaw organizujcm si dopiero szkolnictwie polskim w okolicach Zielonej Gr, dokdtrafi ze swoj grup przesiedlecw, nie da zadowalajcch wnikw. Tote, prze-biedowawsz na prowizorkach do wiosn nastpnego roku, postanowi przenie si

    do poudniowej Wielkopolski, gdzie, jak si dowiedzia, osiada, wwieziona wrazz innmi Polakami z powiatu dzinieskiego, jego matka. I tu wreszcie dopisao muszczcie: znalaz prac w siedmioklasowej szkole wiejskiej w Orpiszewie, a w dwalata pniej (w 1948 r.) on.

    Z pocztkiem 1949 roku zgosi si na piciomiesiczn Centraln Kurs JzkaRosjskiego w podwarszawskim Milanwku. Ukoczenie tego kursu z ogln ocenbardzo dobr zachcio go niewtpliwie do dalszego podnoszenia swoich kwalifika-cji zawodowch. A nie bo to bnajmniej atwe ani proste. W tm samm mniej wi-cej czasie bowiem zmieni on miejsce prac i musia z Jasnegopola, gdzie mieszkau rodzicw on, dojeda do Liceum Pedagogicznego w odlegm o 9 km Kroto-

    sznie. Mimo to ju w trz lata pniej, w kwietniu 1952 r., podda si w warszaw-skiej Pastwowej Wszej Szkole Pedagogicznej uproszczonemu egzaminowi pa-stwowemu na nauczcieli szk rednich oglnoksztaccch i zakadw ksztacenianauczcieli w zakresie jzka rosjskiego. I egzamin ten zda z wnikiem dobrm.

    W 1954 r. (a wic ju dwa lata po przeprowadzeniu si wraz z rodzin do Kroto-szna) ojciec malutkiego Krzsia zdecdowa si rozpocz zaoczne studia rusc-stczne na Wdziale Filologicznm Uniwerstetu Wrocawskiego.

    2 Edward Maliszewski i Bolesaw Olszewicz, Podrczny Sownik Geograficzny t. I, Warszawa1925.

  • 8/14/2019 biuletyn_62

    8/266

    PROFESOR TEOTyN ROTT-EBROWSKI (18 XII 19194 VIII 2004) 11

    Najwmowniejszm a bezspornm dowodem tego, jak powanie traktowa Teo-tn Rott-ebrowski obowizki suchacza wszej uczelni, s ocen zdawanch prze-ze czstkowch egzaminw magisterskich. Przkadowo: historia literatur rosj-

    skiej po roku pierwszm bardzo dobrze, historia literatur rosjskiej po roku dru-gim bardzo dobrze, historia literatur radzieckiej po roku trzecim bardzo dobrze...wstp do jzkoznawstwa po roku pierwszm bardzo dobrze, gramatka opisowa jzka rosjskiego po roku drugim bardzo dobrze, gramatka jzka staro-cer-kiewno-sowiaskiego po roku trzecim dobrze, gramatka historczna jzka ro-sjskiego z dialektologi po roku trzecim bardzo dobrze... Z powszego wrw-kowego zestawienia wida wranie, e ten w peni ju dojrza i wiadom swoichcelw czowiek mg z rwnm powodzeniem wbra zarwno specjalizacj histo-rcznoliterack, jak te jzkoznawcz. Obecnie chba nie uda nam si znale pew-nej odpowiedzi na ptanie, co skonio go do wboru tej drugiej. Moem natomiast znajc dalsze jego los stwierdzi, e dokona on wwczas waciwego wbo-ru. Wboru, jaki umoliwi mu maksmaln realizacj jego formujcch si ju pla-nw badawczch. Prof. Leszek Ossowski, do ktrego zgosi si na seminarium ma-gisterskie, nie tlko podtrzmwa jego zainteresowanie histori jzka rosjskiego czego widomm efektem staa si praca dplomowa powicona fleksji i morfo-logii moskiewskiego kodeksu prawnego () z 1497 r. nie tlko zachcago do zajmowania si znanmi im obu z dziecistwa gwarami biaoruskimi, a takezabtkami pimiennictwa w tm jzku, lecz te roztacza nad nim i w pniejszchlatach naukow opiek.

    Uzskan w stczniu 1959 r. dplom magisterski otworz mu drog do nastpne-go awansu podjcia w 1962 r. obowizkw wkadowc jzka rosjskiego w ka-

    liskim Studium Nauczcielskim.Do Lublina, a wic na drugi bez maa koniec Polski, przenis si Teotn Rott-e-

    browski w 1965 r. Zoo si na to kilka przczn: z jednej bowiem stron zniech-caa go do pozostawania w Krotosznie uciliwa bardzo konieczno nieustannchdojazdw do Kalisza, gdzie drekcja Studium Nauczcielskiego nie potrafia zapew-ni mu mieszkania jak te, co nie mniej istotne, pogoski o likwidacji owej szko,z drugiej natomiast skania realne szanse na etat w Katedrze Filologii RosjskiejUMCS i zwizana z tm moliwo dalszego rozwoju naukowego w lubelskim ro-dowisku akademickim. A do tego zachta i b moe poparcie prof. Leszka Os -sowskiego. Ponadto za jak si niebawem okazao dodatkowe zatrudnienie w lu-

    belskim II Studium Nauczcielskim.I cho znaczne dowiadczenie pedagogiczne, jakie Teotn Rott-ebrowski zdob

    w cigu kilkudziesiciu ju lat prac w szkolnictwie podstawowm i rednim, umo-liwio wadzom lubelskiej uczelni zatrudnienie go z miejsca na stanowisku starszegoasstenta, to przecie wszstkie dalsze etap karier naukowej w uniwerstecie mu-sia on przechodzi podobnie jak jego przewanie sporo modsi koledz zgodniez obowizujc pragmatk. Tak wic awans na adiunkta otrzma w 1967 r. po obro-nie w Uniwerstecie Wrocawskim pisanej pod kierunkiem prof. Leszka Ossowskie-go rozpraw doktorskiej pt.Jzyk Sudiebnika Iwana III z1497 r., awans za na do-centa w 1975 r. po przedstawieniu dsertacjiPismo ifonetyka Izbornika wiatosawa

  • 8/14/2019 biuletyn_62

    9/266

    12 WIESAW WITKOWSKI

    z1076 roku na tle pisma ifonetyki zabytkw ruskich XI w. i kanonu starosowiaskie-go (Lublin 1974), na podstawie ktrej przeprowadzone zostao kolokwium habilita-cjne. Wreszcie, osiemnacie lat pniej uzska on ttu naukow profesora.

    Wmienione wej prace lubelskiego filologa okreli gwn, jakkolwiek niejedn kierunek jego zainteresowa naukowch i ddaktcznch.O wbranch zagadnieniach jzkaIzbornika wiatosawa ogosi on jeszcze trz

    artku przed i jeden po pojawieniu si jego rozpraw habilitacjnej3, wasn po-gld na miejsce powstaniaEwangeliarza Ostromira (10561057) przedstawi w ar-tkule zamieszczonm w zbiorze Slavica Lublinensia et Olomucensia (Lublin 1977),szczegowe problem wokalizmu jzka gramot smoleskiej z 1229 r. omwiw rozprawie opublikowanej w prac zbiorowej Zaktualnych studiw rusycystycz-nych (Olsztn 1987), monografi swoj powicon jzkowi czci crlickiej je-denastowiecznegoEwangeliarza z Reims4 dopeni kilka lat pniej artkuem o tm-e zabtku5. Rwnie dwa uzupeniajce artku towarzsz jego ostatniej ju mo-

    nografii, traktujcej o jzku zachowanch szcztkw najstarszego zapewne zabtkupimiennictwa w ogle, za jaki uchodz fragment tumaczonego z acin a pisanegogagolicMszau Kijowskiego6. Ten naturaln zgoa w badaniach najdawniejszegookresu rozwoju pimiennictwa Sowian Wschodnich przeskok od tekstw ruskocer-kiewnch do cerkiewnosowiaskich ju bez nalotw ruskich wida rwnie wra-nie w jego o dziesi lat pniejszej publikacji 7 .

    Braki wielu niezbdnch pomoc ddaktcznch, jakie odczuwa musieli szcze-glnie dotkliwie studenci zupenie modej, bo dopiero powojennej slawistki lubel-skiej, sta si niechbnie zasadniczm powodem, dla ktrego T. Rott-ebrowski,ograniczajc w znacznej mierze swoje wasne studia naukowe, uzna za koniecznezaj si opracowwaniem podrcznikw do wkadanch przez siebie przedmio-tw. I tak oto spod jego pira wchodzi kolejno:

    1) Gramatyka historyczna jzyka rosyjskiego wraz zdialektologi ihistori ro-syjskiego jzyka. (Wskazwki metodczne dla suchacz studiw zaocznch filologiirosjskiej), Lublin 1975;

    2) Gramatyka historyczna jzyka rosyjskiego, Lublin 1976;3) wiczenia zgramatyki historycznej jzyka rosyjskiego, Lublin 1978; Najprawdopodobniej to wanie ta praca umoliwia autorowi zgromadzenie

    i analiz faktw jzkowch, jakie przedstawi on w ogoszonch wkrtce po tm ar-

    3 Deklinacje rzeczownikw w Izborniku wiatosawa z 1076 r. (Annales UMCS, Sec. F. XXVII,Lublin 1972); Samogoski nosowe wIzborniku wiatosawa z1076 r. (Biuletn LTN 15, Lublin 1973);Ukraiskie cechy gosowe wIzborniku wiatosawa z1076 r. (Slavistick Sbornik Olomoucko-Lublin-sk, Praha 1974);Jzyk Izbornika wiatosawa z1076 r. akwestia pochodzenia staroruskiego jzyka li-terackiego (Materia Sesji Naukowej, Lublin 1976).

    4 , Lublin 1985.5 , w: Zeszt Naukowe Wdziau Humanistcznego

    Uniwerstetu Gdaskiego. Slawistka 5, Gdask 1988.6 , Lublin 1987; Typy liter wnajstarszym zabyt-

    ku sowiaskim aproblem pochodzenia gagolicy, w: Rozpraw Slawistczne UMCS 10, Lublin 1995.7 Annales UMCS, Lublin, sectio FF, vol. XIV/XV, 1996/97.

  • 8/14/2019 biuletyn_62

    10/266

    PROFESOR TEOTyN ROTT-EBROWSKI (18 XII 19194 VIII 2004) 13

    tkuach:Przyczynek do dyspalatalizacji afrykaty c wjzyku rosyjskim (Studia Ros-sica Posnaniensia 1979) i Wok najstarszych cech gosowych jzyka ukraiskiego(Slavia Orientalis 1980);

    4) Gramatyka historyczna jzyka rosyjskiego zwiczeniami, Lublin 19811982; jest stereotpowm powtrzeniem pozcji 2 i 3. Jej wznowienie wszo tamew 1991 r.

    5)Historia pisma ruskiego, Lublin 1983. Jej wdanie drugie, poszerzone wszotame w 1987 r.

    Nie jest to pierwsza publikacja autora powicona temu zagadnieniu: pocztkijego cznnch zainteresowa paleografi wschodniosowiask znalaz swj wrazju w jego rozprawie habilitacjnej, nieco za pniej w dwu artkuach, zamiesz-czonch w Lubelskich Materiaach Neofilologicznch: III(1980) i (1981).

    6) Opochodzeniu gagolicy8, Lublin 1983. Wdanie drugie wszo tame w 1987 r.7)Historia rosyjskiego jzyka literackiego, Lublin 1984.8)Elementarna gramatyka jzyka greckiego podrcznik dla rusycystw, Lublin

    1986. Wdanie drugie wszo tame w 1990 r.Opracowanie tej gramatki przez lubelskiego slawist pozwala przpuszcza, e

    sam on (prawdopodobnie w Katolickim Uniwerstecie Lubelskim) od duszego cza-su prowadzi zajcia z tego przedmiotu. B moe jeszcze przed 1970 r., jeli juw 1971 r. pojawi si w kwartalniku Slavia Orientalis jego obszern, kilkunasto-stronicow artkuRnice fonetyczne wzapoyczeniach greckich wjzyku polskimi rosyjskim.

    9) Gramatyka jzyka starosowiaskiego zwiczeniami dla rusycystw, Olsztn

    1986; Jej wdanie drugie, rozszerzone (opracowane wsplnie z W. Skukowskim)wszo w Lublinie w 1988 r.

    10) Gramatyka historyczna jzyka biaoruskiego. Cz I Lublin 1991, cz II Lublin 1992.

    Rwnie w 1992 r. Lubelskie Towarzstwo Naukowe wdao jego rozprawkUrde wspczesnego jzyka biaoruskiego.

    W obszernej, liczcej zapewne ponad p setki pozcji drukowanej spucinieTeotna Rott-ebrowskiego9, obok wmienionch wej monografii historcznoj-zkowch tudzie podrcznikw akademickich i zwizanch tematcznie zarwnoz jednmi, jak i drugimi artkuw naukowch, znajduje si jeszcze pewna ilo pub-

    likacji o tematce odbiegajcej do wranie od zasadniczego nurtu jego zaintere-sowa badawczch. W porzdku czasowm zesp ten otwieraj trz rozprawki po-

    8 W prac tej (podobnie zreszt jak i wczeniej) przcza si on do pogldu tch badacz zagadnie-nia, wedle ktrch alfabet sowiaski zwan gagolic powsta pniej od crlickiego i su tpionm

    przez duchowiestwo niemieckie zwolennikom obrzdku crlometodiaskiego jako swoist tajnopis.9 Niestet, nie udao si ustali miejsca i czasu opublikowania kilku prac Zmarego (np.: Miejsce

    przedmiotw historycznojzykowych w nowych programach studiw rusycystycznych czy Rola jzykastaro-cerkiewno-sowiaskiego wksztatowaniu si rosyjskiego jzyka literackiego), ktre, jak monawnosi z jego zachowanch notatek, napisa on i zo do druku w drugiej poowie lat osiemdziesitchubiegego wieku.

  • 8/14/2019 biuletyn_62

    11/266

    14 WIESAW WITKOWSKI

    wicone analizie wbranch struktur wspczesnego jzka rosjskiego, jak te ichkonfrontacji z odpowiednimi strukturami dzisiejszej polszczzn. S to:Bezspjniko-we podrzdnie zoone zdania wjzyku rosyjskim (Jzk Rosjski 1971),Najwaniej-

    sze rnice midzy gosowni polsk arosyjsk(Jzk Rosjski 1971 i 1972) iR-nice midzy fonetyk polsk arosyjsk(Lubelskie Materia Neofilologiczne 1971).Rwnie o konfrontacji wbranch kategorii gramatcznch obu tch jzkw tlee ju w ujciu diachronicznm traktuje jego publikacjaHistoria czasuprzeszegowjzyku rosyjskim ipolskim (Lubelskie Materia Neofilologiczne 1979).

    Inn dziedzin jego ubocznch zainteresowa staa si jeszcze przed kocemlat siedemdziesitch szeroko rozumiana metodka nauczania dscplin jzko-znawczch na studiach ruscstcznch. Swoje pogld na ten temat wo onmidz innmi w artkuach: - ( . Lublin 1979), - ( . Berlin 1979) i Konfrontatywna czyporwnawcza gramatyka na stu-diach rusycystycznych (Przegld Ruscstczn 1983).

    Ale i to jeszcze nie wszstko. W 1987 r., wkraczajc daleko poza granice slawi-stki, opracowa on i wda kilkunastostronicow broszur Sto lat jzyka esperanto,w rkopisie za pozostawi 43 nowelki pod zbiorczm ttuemPrzy samowarze.

    Wasnej prac ddaktcznej nie ogranicza on, rzecz jasna, wcznie do zajaudtorjnch: ponad sto osb napisao pod jego kierunkiem swoje prace magister-skie, dwie za z nich Barbara Perczska w 1983 r. i Wodzimierz Skukowski

    w 1984 r. obroni pod jego promotorstwem swoje rozpraw doktorskie. Nie uchla si te od wiadcze organizacjno-administracjnch na rzecz

    uczelni: w roku akademickim 1973/74 kierowa Zakadem Jzka Rosjskiego, w la-tach 19761981 peni obowizki zastpc drektora Insttutu Filologii Rosjskiejna Wdziale Filologicznm UMCS.

    Nic zatem dziwnego, e zarwno za osignicia naukowe i ddaktczne, jak teza dziaalno administracjn uhonorowan zosta licznmi nagrodami i odznacze-niami: trzkrotnie nagrod Ministra Nauki, Szkolnictwa Wszego i Techniki, wielo-krotnie nagrodami Rektora Uniwerstetu im. Marii Curie-Skodowskiej, ponadto zaMedalem Komisji Edukacji Narodowej, Zotm Krzem Zasugi i Krzem Kawa-

    lerskim Orderu Odrodzenia Polski.B czonkiem Lubelskiego Towarzstwa Naukowego i Polskiego Towarzstwa

    Jzkoznawczego.A gdbm chcieli dzi, w szedziesit par lat po zakoczeniu drugiej woj-

    n wiatowej, ustali w miar obiektwnie miejsce profesora Teotna Rott-ebrow-skiego wrd jzkoznawcw polskich ostatniego pwiecza i oceni jego wkad dobada nad jzkami wschodniosowiaskimi, to powinnim poza iloci i jakocijego publikacji uwzgldni rwnie, obc zupenie jego modszm kolegom, drog,jak do nich doszed.

  • 8/14/2019 biuletyn_62

    12/266

    BULLETIN DE LA SOCIT POLONAISE DE LINGUISTIQUE, fasc. LXII, 2006ISSN 00323802

    ANTONI FURDALWrocaw

    Kilka sw na 80-lecie Polskiego Towarzystwa Jzykoznawczego

    Polskie Towarzstwo Jzkoznawcze obchodzi dwa rodzaje jubileuszw. Jednenawizuj do rocznic zjazdu zaocielskiego we Lwowie 1925, drugie bior za pod-staw kolejn liczb naszego corocznego spotkania. Poniewa bwa lata, jak np.w czasie wojn 1939-1945 i naszego wasnego stanu wojennego 1981-1983, e niewolno nam bo dziaa publicznie, okrge rocznice przesta zachodzi na siebie.Moglim przeto trz lata temu uroczcie otworz zjazd LX, a dzisiaj obchodzimjubileusz 80-lecia naszego stowarzszenia.

    Nie jestem w tm wzgldzie wjtkiem. Wielki polski ruch spoeczn wokSolidarnoci wituje rocznic jej powstania (31 sierpnia 1980), oficjaln zakaz dzia-alnoci zwizan z proklamowaniem stanu wojennego (13 grudnia 1981), a potemzwcistwo (1989). Z tm e ta ostatnia rocznica jest obchodzona w cigu roku trz-

    krotnie: najpierw jest przpomnienie inauguracji Okrgego Stou (6 lutego), nastp-nie wborw do Sejmu tzw. kontraktowego (4 czerwca), wreszcie powstanie rzdusolidarnociowego (12 wrzenia).

    Jak z tego wida, okazji do witowania nam w Polsce nie brakuje. Dzieje si taknie tlko u nas. Wanie podczas naszego obecnego zjazdu Gazeta Wborcza opub-likowaa relacj z Roku Andersenowskiego w Danii pod znamiennm nagwkiemDo tch obchodw1. Czb i u nas bo ich za wiele?

    Wbrew temu, co utrzmuj niektrz komentatorz cia publicznego, uwaam,e nie. W kadm razie ja osobicie jestem jak najbardziej za rocznicami i jubileu-szami, poniewa za ich przczn umacnia si nasza zbiorowa tosamo. W kontak-

    tach spoecznch s one bowiem znakami o szczeglnej wrazistoci. S elementaminaszego biecego cia, to znacz prznale do wspczesnoci, ale maj oparciew historii. cz zatem dzie dzisiejsz z przeszoci. Przpominajc wdarzenia,ktre niegd znalaz si w centrum zbiorowej uwagi, przwodz nam znw przedocz fragment naszego rodowodu. Za ich przczn w nieustannm biegu codzien-nego cia znw czujem si bardziej sob, a gd rozejrzm si wok, upewniamsi, e jestem wrd swoich, zachowujcch si podobnie jak m.

    1 W. Szabowski,Do tych obchodw, Gazeta Wborcza, Wrocaw, 17 IX 2006, s.11.

  • 8/14/2019 biuletyn_62

    13/266

    16 ANTONI FURDAL

    W uroczstociach jubileuszowch wchodz zwkle na plan pierwsz wzgldpokoleniowe. Najchtniej obchodzi si 20- i 25-lecia. Generacja, ktra tamte wda-rzenia przea, ma je wci jeszcze przed oczma, a teraz ju si na og ustabilizo-

    waa i moe sobie pozwoli na chwil zadum nad przeszoci, a take tm, co sidzieje teraz.A jak jest z osiemdziesicioleciem? Bo m przecie dzi, tu, na tej sali obchodzi-

    m taki jubileusz. I cznim to z przejciem i czm w rodzaju dum, e to ju tlelat. A przecie nikt z nas nie moe pamita tamtch czasw.

    Wiem jednak, kto wted, w 1925 roku, zakada Polskie Towarzstwo Jzko-znawcze. Wszstkich, ktrz przjechali tamtej wiosn do Lwowa, mam na sn-nm, nieco starowieckim zdjciu, ktre zarzd dzisiaj powieli, ab ta skromna i miapamitka trafia do kadego z nas. S wrd nich take ludzie dobrze nam znani. Nie-ktrz z nich bli naszmi nauczcielami i mistrzami. Z niedowierzaniem, niekiedi wzruszeniem ogldam ich modziecze jeszcze twarze, odczuwam wdziczno,e wprowadzili nas w nieprzeniknion dla innch wiat faktw i praw, jakimi rz-dzi si jzk. To wanie dzisiejsze osiemdziesiciolecie cz tak odlege od sie-bie w czasie generacje jzkoznawcw i uwiadamia nam cigo naszego dziaaniaw tej jak nam si wdaje piknej, ale przecie nieatwej dziedzinie prac, jaka sistaa naszm udziaem.

    Trzeba jednak przzna, e sami pamitam te spor kawa dziejw PTJ-u. Dlamojego pokolenia bo wdarzeniem, gd obecn dzi na tej sali profesor WitoldMaczak zosta w 1954 roku sekretarzem Towarzstwa. Ta wrniajca go spordnas funkcja staa si naturalnie tlko jego osobistm udziaem, ale odczuwalim to,jakb splendor spn rwnie na nas, jego rwienikw i przjaci.

    Od tamtego czasu mino ju p wieku. Dzisiaj spogldam na minione lata nietlko z sentmentem ale i uwanie. Zreszt nie pierwsz raz. Kilka lat temu przeglddziejw Towarzstwa na jego 75-lecie przedstawi profesor Marian Kucaa. Co naj-bardziej uderza w jego sprawozdaniu, to chba niezwk wzrost liczb czonkwnaszego stowarzszenia w poowie lat pidziesitch.

    Nie wszsc pamitaj, e w naszm wiecznie ubogim kraju bo to zwizanez poszerzeniem dostpu do nauki, w tm do humanistki, m.in. za przczn utwo-rzenia szk pedagogicznch o programie uniwersteckim oraz powoania do ciazbiorowch pracowni w dziedzinie jzkoznawstwa, przede wszstkim lekskogra-ficznch. Wszdzie bo potrzeba wielu modch jzkoznawcw. Zskawsz due

    zaplecze personalne, Polskie Towarzstwo Jzkoznawcze z insttucji nieco elitar-nej stao si w niedugim czasie organizacj liczc kilkuset czonkw.

    Kolejne dziesiciolecia to chba najlepsz czas naszego Towarzstwa. Ustali si jego presti w wiecie nauki, a zjazd odbwane zawsze na wiosn, sta si do-rocznmi witami w naszm ciu akademickim. Za ich przczn pojawia sii zskiwa poparcie nowe metodologie lingwistczne, nawizwa si i utrwalakontakt midz jzkoznawcami z rnch regionw kraju, a od chwili, gd zjaz-d poczto organizowa nie tlko w Warszawie i Krakowie, nastpi wran rozwjorodkw regionalnch.

  • 8/14/2019 biuletyn_62

    14/266

    KILKA SW NA 80-LECIE PTJ 17

    Modszm spord nas pragniem te zwrci uwag, e w minionej dobie, na-wet w latach ideologicznch naciskw na nauk, nasze Towarzstwo zachowao nie-zaleno koncepcjn i organizacjn. Jest to zasuga naszch poprzednikw, zna-

    komitch polskich jzkoznawcw, ktrch autortet w kraju i za granic sprawia,e zawsze trzeba si bo z nimi licz. Dziki temu polskie jzkoznawstwo nie mu-siao przewa okoo 1989 roku adnch renesansw cz przeomw, a wszstko,co zawiera dobrze znan lingwistce wiatowej Biuletn PTJ, bdc kronik naszejdziaalnoci, zachowuje sw aktualno.

    Czm si kieruje nasza organizacja w swej prac, ju dzisiaj osiemdziesiciolet-niej? Jakie s najoglniejsze zasad postpowania w jej ramach? Mam oczwicienasz statut, kontrolowan i w miar potrzeb werfikowan na Walnch Zgromadze-niach co pewien czas. Ale statut jest tlko projekcj czego oglniejszego, zasad, kt-re przjmujem jako oczwiste.

    Ot wdaje si, e tm co dla nas najwaniejsze, jest demokratczno naszegoTowarzstwa. Wszsc czonkowie PTJ-u maj rwne obowizki i prawa. Nie pod-legaj werfikacjom, a rotacja nie dotcz modszej kadr, lecz odnosi si tlko dowadz Towarzstwa. Zwkli czonkowie s nietkalni, a ich inicjatw nie s niczmograniczone.

    Drug cech PTJ-u jest jego oglnopolsko. Statut przewiduje wprawdzie moli-wo tworzenia k miejscowch, ale praktka pokazaa, e w przpadku dscplinmetodologicznie tak cisej jak jzkoznawstwo, prz mniejszej liczbie czonkw niw niektrch innch stowarzszeniach specjalistcznch zachowanie jednego forumdskusjnego dla caego kraju jest bardziej korzstne. Kad z czonkw, bez wzgl-du na wiek i stopie naukow, ma prawo wstpi na corocznm zjedzie i wcz

    si w ten sposb w obrad naukowe od razu na poziomie oglnokrajowm.Dodajm prz sposobnoci, e ab obdwie powsze zasad mog b realizo-

    wane, zarzd organizuje zjazd w takiej porze roku, gd s dla uczestnikw dostp-ne dom studenckie. Nasi czonkowie s niestet i tak obcieni wsok skadk,a udzia w zjedzie jeszcze powiksza koszt, jakie trzeba ponosi, ab mie wiado-mo uczestniczenia w oglnopolskim ciu naukowm.

    Pora si zastanowi nad perspektwami na przszo. Nie wobraam sobie, bnasze Towarzstwo mogo si przesta intenswnie rozwija, ale eb si tak dzia-o, musz b odpowiednie warunki zewntrzne i nasze wasne, wewntrzorganiza-cjne. Najpierw te drugie, bo prz wszelkich ptaniach o przszo trzeba zaczna

    od siebie.Ot nie da si pomin milczeniem faktu, e presti PTJ-u ostatnio nieco si ob-

    ni. Wprawdzie na zjazdach wstpienia s ciekawe, a dskusje tocz si po daw-nemu, Biuletn nadal reprezentuje poziom wiatow, ale wielu znanch jzkoznaw-cw rzadziej si pojawia na naszch spotkaniach. Po dugich latach izolacji otwarsi nam drogi do innch krajw, do czonkostwa w organizacjach midznarodo-wch, do wkadw i smpozjw za granic. Bwa niedawno przpadki, e kto,zgosiwsz referat u nas i umieszczon w programie, nie przbwa na zjazd, bo muakurat wpado wstpienie gdzie indziej. Rozumiem oczwicie tak stuacj, alenutka rozczarowania pozostaje.

  • 8/14/2019 biuletyn_62

    15/266

    18 ANTONI FURDAL

    Niepokoi nas troch take inne zjawisko. Zdarzaj si wieo przjci czonko-wie, ktrz wpisawsz sobie do ankiet zawodowej cznn udzia w jednm zje-dzie PTJ, nie interesuj si wicej pracami naszego Towarzstwa. Ciesz nas, e jako

    gremium specjalistczne przdalim si niektrm modm lingwistom do czegow ich drodze naukowej, nie ukrwam jednak, e bob nam przjemniejsze staezainteresowanie nasz dziaalnoci.

    Prawd powiedziawsz mwi to tlko w swoim imieniu pewien niedostmona rwnie odczuwa, gd chodzi o udzia w zjazdach niektrch znanch uczo-nch, szczeglnie wrnionch niegd przez PTJ. Mam na mli przede wszst-kim czonkw honorowch i tch, ktrm w swoim czasie nasze Towarzstwo po-wierzo funkcj prezesw. Z wdzicznoci wspominam lata ich aktwnoci i nieukrwam, e pragnlibm ich widzie w miar moliwoci czciej na naszchspotkaniach.

    Zdajem sobie spraw, e gd chodzi o przszo naszego Towarzstwa, naj-waniejsza jest stuacja zewntrzna. Wie si ona z integracj europejsk, ktrazmienia dotchczasowe ukad spoeczne. Unia Europejska to z pewnoci znacznwzrost kontaktw, przekraczanie barier pastwowch, a przede wszstkim lepsza or-ganizacja nauki. Ten ostatni, tak wan dla nas punkt pociga za sob ptanie, czw dobrze zorganizowanm wiecie bdzie potrzeba tle bada naukowch, co do-tchczas. Cz regionalne w sensie kontnentalnm inicjatw bd si w prz-szoci tak samo licz, jak do tej por przedsiwzicia podejmowane w interesieposzczeglnch pastw? Cz zespo uczonch dsponujcch wikszmi rodkamina badania naukowe nie zechc nas w tm wrcza?

    Nie udm si, znalelim si w Unii Europejskiej jako ubodz krewni. cie

    naukowe jest regulowane przez politk lokaln i midznarodow finansami. Wt-pliwe, cz na nasze badania znajdzie si wicej pienidz. Klasczna ju insttu-cja sponsora z natur rzecz ma charakter subiektwn i dziaa wbirczo. Ju terazna naszch oczach upadaj regionalne towarzstwa naukowe. Jak bdzie w przszo-ci z towarzstwami specjalistcznmi, do ktrch zalicza si i Polskie TowarzstwoJzkoznawcze?

    Nie wiem. Z racji naszch tradcji, pragnienia suenia prawdzie i wasnej spo-ecznoci nie tlko jestem, ale te musim b optmistami. Zobowizuje nas dotego obchodzone wanie osiemdziesiciolecie. Ale te ptania bd si przed namipojawia w nadchodzcch latach i winnim si z nimi licz.

  • 8/14/2019 biuletyn_62

    16/266

    BULLETIN DE LA SOCIT POLONAISE DE LINGUISTIQUE, fasc. LXII, 2006ISSN 00323802

    JANUSZ S. BIEWarszawa

    Aparat pojciowy wybranych systemw przetwarzaniatekstw polskich

    Wprowadzenie

    Wopublikowanm wr. 1972 artkule Opewnych problemach przetwarzania j-zykw fleksyjnych na maszynach cyfrowych ([l]) przedstawiem pewne nietradcjnepojcia itermin. Jan Tokarski pisa otm wsposb nastpujc ([23], s. 184):

    Proponuje on pewn siatk poj utecznch w kontakcie z masznami, awic tpu em-pircznego, iprbuje je skonfrontowa zniektrmi pojciami ju istniejcmi w teoriilingwistcznej. Pojcia te powinn b jako roboczo nazwane, ale nazw te nie powinn

    b obcione wmiar moliwoci uwikaniami winn terminologi do tego nieprz-stosowan, std dziwno jego propozcji nie powinna b interpretowana jako niemot-wowane nowinkarstwo.

    Jednm zkluczowch poj jest niewtpliwie pojcie wrazu. WksiceZpo-granicza metodyki ijzykoznawstwa ([22]) Tokarski zwraca uwag na trudnoci, ja-kie pojcie to sprawia wnauczaniu szkolnm; trudnoci te zreszt istniej do dzisiaj,jak pokazuje to artku Lipiskiej iSaloniego: Uczymy wszkole posugiwa si ter-minem wsposb stopniowo coraz bardziej wieloznaczny, czyli coraz bardziej mtnie([9], s. 106). Tokarski pisa wszczeglnoci ([22], s. 3233, wrnienia moje)

    Innm krterium klasfikacjnm w r a z w jest krterium formalne, czli t p z a -s o b u f o r m, jakimi rozporzdza dan wraz. To krterium pozwala na atwe ibezspor-ne wodrbnienie np. rzeczownikw jako wrazw odmieniajcch si przez przpadki,ale nie przez rodzaje, oraz przmiotnikw jako wrazw odmieniajcch si przez prz-

    padki iprzez rodzaje. [...]Imiesow przmiotnikowe wedug tego krterium znalazb si wklasie przmiotni-kw, nie mwic ju oformach nieodmiennch, ktre musiab wej do klas wrazwnieodmiennch.

    We wspomnianm artkule argumentowaem, e takie rozumienie terminu wy-raz jest najbardziej waciwe. Wpniejszch swoich pracach ucilaem stopniowo,

  • 8/14/2019 biuletyn_62

    17/266

    20 JANUSZ S. BIE

    ojakie tp zasobu form chodzi, jednoczenie uzupeniajc imodfikujc termi-nologi. Prace te zosta podsumowane wksice [2], wktrej wprowadziem nowtermin na oznaczenie tak rozumianego wrazu, amianowicie neologizm-internacjo-

    nal izm f leksem (flexeme)por. [2], s. 16.Termin ten okaza si bardzo przdatn wpracach nad korpusem jzka polskie-go, prowadzonch wInsttucie Podstaw Informatki PAN, oktrch bdzie jeszczemowa niej. Jest on tam nie tlko wkorzstwan roboczo, ale znalaz si nawetw ttule jednej zpublikacji:AFlexemic Tagset for Polish ([15]), co wswobodnmtumaczeniu brzmiKlasyfikacja fleksemw wjzyku polskim.

    Wartkule [l] wprowadziem rwnie neologizm-internacjonalizm l e k s (ang.lex), traktowan jako reprezentacja specficznie rozumianego l e k s e m u.

    Obecnie sprbuj pokaza, e termin te cho rozumiane inaczej mog bz potkiem wkorzstane do opisu niektrch wspczesnch sstemw kom-puterowch przetwarzajcch jzk polski. Skoncentruj si na nastpujcch s-stemach:1 . PoMor (Polska Morfologia lubPolish Morphology), analizator morfologiczn

    Roberta Woosza, przedstawion w ksice [29]. cile rzecz biorc, Woosz jest tlko autorem danch lingwistcznch wkorzstwanch przez programHu Mor (High-speed Unication MORphology, por. [12]), opracowanego przezwgiersk rm Morphologic (http://www.morphologic.hu/ ). Jest on wkorzst-wan m.in. wpolsko-angielskim sowniku elektronicznm oferowanm przez trm ([13]). Jest to jeden znajwczeniejszch analizatorw morfologicznch dlajzka polskiego (b prezentowan wkuluarach konferencji Jzk i Technolo-gia w1995 r. wPoznaniu), ale informacje ojego budowie zosta przedstawione

    publicznie dopiero w r. 2000 wprac doktorskiej Woosza ([28]). Miaem okazjosobicie korzsta ztego programu, ale ze wzgldu na jego komercjn charak-ter robiem to wsposb ograniczon.

    2. M o r f e u s z, analizator morfologiczn Marcina Woliskiego, przedstawionw jego prac doktorskiej Komputerowa werykacja gramatyki widziskiego([26]). Morfeusz jest wpewnm sensie nastpc analizatora SAM ([21]), stwo-rzonego przez Krzsztofa Szafrana ponad 10 lat temu. Oba analizator s opartena opracowanm przez Saloniego indeksie Tokarskiego polskich form wrazo-wch ([24]), oba te s do celw badawczch dostpne bezpatnie w Internecie.Cho zosta opracowane na potrzeb analiz skadniowej ([3], [27]), oba sste-

    m znalaz te dodatkowe zastosowania, wszczeglnoci Morfeusz b inten-swnie wkorzstwan prz tworzeniu korpusu IPI PAN.

    3 . P o l i q a r p (POLyinterpretation Indexing Query and Retrieval Processor), w-ranowan program do przeszukiwania korpusu IPI PAN. Autorami programus Zgmunt Krnicki iDaniel Janus ([16]). Podobnie jak sam korpus, zosta onstworzon wlatach 20012004 wramach grantu KBN (nr rejestracjn 7T11C043 20) realizowanego pod kierunkiem Adama Przepirkowskiego, a obecniejest rozwijan wramach prac wasnch IPI PAN. Korpus iprogram Poliqarp sdostpne w Internecie na witrnie http: //korpus. pl dla wszstkich zaintereso-wanch. Zaoenia isposb korzstania zkorpusu s bogato udokumentowane

  • 8/14/2019 biuletyn_62

    18/266

  • 8/14/2019 biuletyn_62

    19/266

    22 JANUSZ S. BIE

    Potrzeba adiustacji wstpuje rwnie w przpadku tekstw elektronicznch.Su do tego wstawianie do tekstu tzw. znacznikw (ang. tags), ktre mog za-wiera bogate irnorodne informacje. Zasad budow iwkorzstania znacznikw

    okrelone s midz innmi przez takie standard, jak SGML (Standard GeneralizedMarkup Language) czy XML (Extensible Markup Language). Do celw lingwistcz-nch stosowane s takie ich adaptacje, jak rekomendacja TEI (Text Encoding Initia-tive) czy XCES (XML Corpus Encoding Standard).

    Dla przkadu, zdanie

    Pisze si oliteraturze jako kolekcji nazwisk albo prdw artstcznch.

    zKorpusu polszczyzny lat szedziesitych ([10]) potocznie nazwanego korpusemsownika frekwencjnego wformacie XCES ma posta:

    Pisze

  • 8/14/2019 biuletyn_62

    20/266

    APARAT POJCIOWy WyBRANyCH SySTEMW PRZETWARZANIA... 23

    prdwprdsubst:pl:gen: m3

    artystycznychartystycznyadj:pl:gen:m3:pos

    .

    .interp

    Warto podkreli, e wpraktce tak adnotowane tekst stanowi przede wszst-

    kim dane dla odpowiednich programw, wkonsekwencji utkownik oglda je juprzetworzone do bardziej cztelnej postaci.Wpraktce czsto mwim nie o cach tekstach, lecz oich pewnch fragmentach.

    W angielskojzcznej terminologii informatcznej cigi znakw, stanowice daneprzetwarzane przez program lub wchodzce wskad wnikw jego dziaania, nosznazw character stringlub po prostustring. Wpolskiej terminologii stosuje si nie-kied wtm znaczeniu termin acuch, ale osobicie zdecdowanie wol i od daw-na uwam terminu napis. Wkonsekwencji rwnie wtm artkule dowoln cigznakw dowolnej dugoci bdziem zawsze nazwa n a p i s e m. Jak jednak zo-baczm dalej, jeden zctowanch autorw uwa tego terminu wspecficznm

    odmiennm znaczeniu.W niniejszm artkule bdziem ctowa napis koczce si znakiem in-terpunkcjnm, dla wikszej przejrzstoci bdziem je wic wrazie potrzeb uj-mowa wznaki .

    3. Sowa i znaki interpunkcjne

    Na wstpie warto zauwa, esowo nie jest pojciem czsto lingwistcznm. Na potrzeb takich zastosowa, jak obliczanie opat za telegram lub ogoszeniadrobne, ju dawno zosta sformuowane preczjne definicje tego pojcia, ktre

    nie b jednak szerzej znane. Obecnie dla wikszoci utkownikw komputerwstwo ma bardzo konkretne znaczenie jest to fragment tekstu zaznaczan przezpodwjne pstrknicie msz; wwielu programach komputerowch s te dostp-ne skrt klawiaturowe dla polece tpu przesu kursor ojedno sowo do przodu,przesu kursor ojedno sowo do tu itd.

    Niebieska gramatka ([20]) definiuje sowo w nastpujc sposb:

    Cig liter pomidz ssiednimi spacjami bdziem nazwasowem.

    Definicja ta jest, moim zdaniem, ewidentnie bdna, nie wspomina bowiem o zna-kach interpunkcjnch jako ogranicznikach sw. agodniej na jej temat wpowiada

  • 8/14/2019 biuletyn_62

    21/266

    24 JANUSZ S. BIE

    si Woliski ([26], s. 50): Definicja sowa, cho przejrzsta, nie odpowiada wpeniintuicji jzkowej. Pisze on dalej:

    Wdaje si bowiem, e Autorz Skadni nie s skonni uwaa znakw apostrofu icz-nika za liter. Tmczasem wdaje si wgodne uznanie napisuLagrangea za jedno so-wo. Dotcz to rwnie napisw takich jakping-pongiPRL-u. Wniniejszej prac bdtraktowa je jako pojedncze sowa. Kolejnm problematcznm znakiem jest kropka,

    ktra wstpuje wtekcie wdwch funkcjach: jako znak interpunkcjn oraz jakoobowizkowa cz skrtu. Wtm drugim wpadku kropk traktuj jako czsowa.

    Nic dziwnego, e wopisie korpusu IPI PAN ([14], s. 1920) sowa rwnie s ro-zumiane

    [...] jako maksmalne cigi znakw niebdcch separatorami sw, gdzieseparatoramisw s odstp oraz znaki interpunkcjne zwczeniem dwizu, kropki bdcej czciskrtu oraz apostrofu wformach takich jakChomskyego i (de) lHospitala.

    Woosz wswojej prac definicj sowa zniebieskiej gramatki modfikuje na-stpujco ([29], s. 13)

    Przedmiotem analiz s sowa graficzne, rozumiane jako cigi liter midz dwoma spacja-mi lub znakami owartoci spacji.

    Pisze on dalej

    Do alfabetu wejd pewne znaki na prawach liter:a) apostrof w jzku polskim najczciej w rodku sowa, por. dellarte (SJPDor.),

    Kennedy ego, wjtkowo po spacji Solidarno 80;b) cfr pisane cznie ztradcjnmi literami alfabetu, por. 126p, F-16;c) ukonik (kreska ukona: /) pisan ztradcjnmi literami alfabetu, por. m/s (SPP);d) cznik, czli dwiz czasami pojawia si on wsposb ustabilizowan wsowach,ktrch czci nie funkcjonuj samodzielnie, por. tse-tse, cza-cza, tam-tamista (SJPDor.),

    inaczej ni majc wrane cech samodzielnego sowa czon polsko- wzoeniachtpupolsko-radziecki, ktre omwione zostan nieco dalej.

    Kropk Woosz traktuje identcznie, jak Woliski i Przepirkowski ([29],s. 1314):

    Nie zaliczm do liter znakw przestankowch ani znakw graficznch. Nale jednakuczni wjtek dla kropki wustabilizowanch skrtach. Cig znakwprof. opisan b-dzie jako poprawn iistniejc wpolszcznie, cigprofza nie bdzie rozpoznan.

    Inaczej mwic, dla Woosza napis prof. jest poprawnm sowem.Przjrzjm si teraz, jak termin napis i sowo definiuje Micha Rudolf (s. 13

    i 16)

  • 8/14/2019 biuletyn_62

    22/266

    APARAT POJCIOWy WyBRANyCH SySTEMW PRZETWARZANIA... 25

    Napisem nazwa bd dowoln sekwencj znakw (liter, cfr), b moe zawierajcdwiz, ktra stanowi samodzieln fragment tekstu, to jest zarwno przed ni, jak ipo niejznajduje si spacja, znak interpunkcjn lub granica wpowiedzenia.Sowo to napis niebdc znakiem interpunkcjnm, interpretowan bez uwzgldnianiakontekstu.

    Jak wida, napis u Rudolfa odpowiada wprzblieniu pojciu sowa uinnch auto-rw, natomiastsowo jest rozumiane wjeszcze inn sposb. Kropk traktuje Rudolfwcznie jako znak interpunkcjn, cho dskutuje jej dwuznaczno jako elementuskrtu igranic zdania (s. 6364). Ciekawe, e nie odnosi si on wprost do zjawiska,ktre Przepirkowski nazwa h a p l o l o g i k r o p k i ([14], s. 3637), czli j e d -n o c z e s n e g o penienia przez kropk funkcji oznaczenia skrtu ikoca zdania.

    Wwietle powszch ctatw nie ulega wtpliwoci, e wgodnie jest traktowajako samodzielne jednostki pewne napis zawierajce znaki nieliterowe. Nasuwa si

    jednak ptania, cz napis te musz b nazwane s o w a m i. Moim zdaniem, jestto niewskazane, poniewa jednostki te s bilateralne ([19]) wsensie [4], tzn. algort-m do ich rozpoznawania odwouj si do wasnoci nalecch do wszch piteropisu jzkowego.

    Uwaam wic, e terminsowo nale rozumie unilateralnie, jako podstawowejednostki nawigacji wewntrz tekstw edtowanch lub ogldanch za pomoc po-wszechnie stosowanch programw.

    Nie wszstkie program zachowuj si pod tm wzgldem jednakowo, ale istnie-je tendencja do ujednolicania interfejsw utkownika, co powoduje, e coraz wi-cej programw jest dostosowwane pod tm wzgldem do wspomnianego wczeniej

    standardu Unicode. Zgodnie ztm sowami s nie tlko cigi liter, ale iliczb, a tak-e napis literowo-liczbowe, np. 126p. Znak - dostpn bezporednio zklawiaturstanowi zawsze granic sowa, ale wsposb mniej lub bardziej skomplikowan mo-na wprowadzi znak oidentcznm wgldzie, lecz jednoznacznie wskazanej funk-cji: cznika, dwizu lub znaku minus; cznik prznajmniej przez niektre programbdzie traktowan jako element sowa. Apostrof zregu (niektre program dosto-sowuj interpretacj apostrofu do jzka tekstu) jest traktowan jako litera, czli ele-ment sowa, kropka zawsze jest tlko znakiem interpunkcjnm.

    4. Leks i leksem

    Mwic wuproszczeniu, leks to tekstowa reprezentacja l e k s e m u (leksem narazie rozumiem intuicjnie). Leks jest, podobnie jak napis isowo, cigiem znakw,ale jego granice nie s ju wznaczone arbitralnie (jak wprzpadku napisu) cz me-chanicznie (jak wprzpadku sowa). Rozpoznanie leksw wtekcie moe wmagawiedz lingwistcznej, aczasami izrozumienia tekstu. Wkonsekwencji bardziej pre-czjne okrelenie leksu brzmi nastpujco:

    Leks to taki napis, ktr wpewnm kontekcie moe stanowi reprezentacj pewnegoleksemu.

  • 8/14/2019 biuletyn_62

    23/266

    26 JANUSZ S. BIE

    Ze wzgldw technicznch jest wgodne cho nie niezbdne ab ca tekstmona bo traktowa jako cig leksw. Wmaga to zaliczenia do leksw rwnieznakw interpunkcjnch, co oczwicie wmaga odpowiedniego rozszerzenia po-

    jcia leksemu. Tak wanie jest to zrobione wkorpusie IPI PAN, do czego jeszczewrcim.Druga klasa leksw to leks powstae zpodziau niektrch sw, powstach

    w skutek pisowni cznej, jak okrelaj to zasad ortografii. Szczegowo na tentemat pisze Woosz ([29], s. 2934), stwierdzajc m.in., e takie sowa musz byanalizowane jako cigi zapisanych cznie dwu form wyrazowych, zktrych kadapodlega osobnej analizie. Woliski pisze susznie ([26], s. 51):

    Moe si wdawa, e form aglutnacjne czasownika by pojawiaj si jednie w kon-tekstach nacechowanch iniezbt czstch tekstowo ie wzwizku ztm mona je po-min wanalizie automatcznej. Jednak wpewnch kontekstach form takie wstpuj

    obligatorjnie, mianowicie wzdaniach wprowadzanch spjnikiem lub partku kocz-c si czstkby:..., gdyby naprawd mnie kocha.*...,gdyby naprawd mnie kochae.

    Poza tego tpu oczwistmi podziaami Woliski iPrzepirkowski traktuj jako zo-one za Tokarskim iSalonim rwnie form form czas przeszego itrbu prz-puszczajcego, tradcjnie opiswane jako sntetczne.

    Do tej samej klas leksw zalicz nale cignicia tpu do (por. Woosz [29],s. 29).

    Trzecia klasa leksw to napis zawierajce wicej ni jedno sowo. Zgodnie z in-

    nmi postulatami Woosza mona za leks uzna m.in. niektre napis zcznikiem,takie jakping-pong, tse-tse, cza-cza czPRL-u; tak wanie s one traktowane przezWoliskiego i w korpusie IPI PAN.

    Do tego tpu leksw mona rwnie zalicz burkinostki czli jednostki wie-lowrazowe pojcie wprowadzone przez Derwojedow i Rudolfa w artkule [8].Korzci ztakiego rozwizania ilustruje Rudolf przkadem sowa mimo, ktre w-stpujc samodzielnie jest przimkiem, ale moe b rwnie skadnikiem partku-o-przswka mimo to lub spjnika mimo e.

    Do tej klas zaliczam rwnie skrt pisane zkropk iliczb porzdkowe. Dospraw haplologii kropki wrcim pniej.

    Last but not least, czwarta klasa leksw to leks odpowiadajce pojednczm so-wom. Prawdopodobnie do tej wanie klas najwgodniej zalicza sowa zapostro-fem, traktujc apostrof po prostu jako liter.

    Dodatkowe komplikacje ilustruje ponisz przkad pokazujc to samo zdanieumieszczone wdwch kontekstach:

    Co przynis? Nic nie przynis.Co przynis? Przyniosem ksik.

    Drugi przkad jest rwnowan znaczeniowo zdaniu Co przyniose? , a wic so-wo Co skada si wnim zdwch leksw, podczas gd wprzkadzie pierwszm so-

  • 8/14/2019 biuletyn_62

    24/266

    APARAT POJCIOWy WyBRANyCH SySTEMW PRZETWARZANIA... 27

    wo to stanowi samodzieln leks. Segmentacja izolowanch zda nie moe b wicprzeprowadzona wsposb mechaniczn.

    Woglnm przpadku leks wtekcie nie ukadaj si wic wcig, ale zpowo-

    du takich wieloznacznoci segmantacjnch tworz tzw. ackliczn graf skierowa-n. Woliski sformuowa przkad, ktr pokazuje, e pewne wieloznacznoci napoziomie czsto sntaktcznm s nie do usunicia:

    Miaem mia.

    Oprcz takiej interpretacji, jak w przkadzie Cz mia pospan chodnik?Miaem mia., s te dwie inne, w ktrch pierwsz leks jest, lub nie jest rze-czownikiem:

    Mia+em mia.

    Cztelnic zaznajomieni zkorpusem IPI PAN zorientowali si ju zapewne, e proponowane przeze mnie pojcie l e k s u pokrwa si niemal cakowicie ze sto-sowanm wdokumentacji korpusu i co moe waniejsze, interfejsie utkownikaprogramu Poliqarp pojciem s e g m e n t u.

    Drugie interesujce nas pojcie, mianowicie leksem, w omawianch pracach defi-niowan jest niejawnie, ale wsposb bardzo preczjn dla kadego leksu wjegoopisie wskazan jest leksem, ktr jest przez dan leks reprezentowan. Wnajprost-szm przpadku wstarcz wtm celu wskaza form podstawow, bardziejskomplikowane przpadki omawia Woliski wartkule [25] (s. 43).

    5. Leks a wraz

    Jak pamitam, leks s cigami znakw pimiennch. Zgodnie z koncepcjprzedstawion wartkule [7] bdziem leks traktowa jako k s z t a t odpowied-nich wrazw. Zgodnie zterminologi wprowadzon wksice [2] i dodatkowo uza-sadnion m.in. wartkule [5] rozrniam wraz morfologiczne imorfosntaktcz-ne. Wniki analizatora Woosza blisze s pojciu wrazu morfologicznego, podczasgd wkorpusie IPI PAN mam do cznienia zwrazami morfosntaktcznmi.

    Przjrzjm si dokadniej fragmentowi korpusu wformacie XCES:

    Pisze

    pisafin:sg:ter:imperf

    LeksPisze ma tlko jedn interpretacj (disamb=1) wpostaci wrazu morfolo-gicznego onastpujcch wasnociach forma podstawowapisa wskazuje na odpowiedni leksem; klasa eksjnan wskazuje na tp eksemu nazwanform nieprzesz, co de-

    terminuje pozostae wasnoci morfosntaktczne:

  • 8/14/2019 biuletyn_62

    25/266

    28 JANUSZ S. BIE

    liczba pojedncza:sg; osoba trzecia:ter; aspekt niedokonan:imperf.

    Drugi przkad pokazuje, e kropka jest penoprawnm leksemem, ktr ma swo-j form podstawow (tego samego ksztatu) iswoj klas fleksjn znak inter-punkcjn: interp.

    .

    .interp

    Mona wic mwi ize wzgldw technicznch moe to b wgodne e ist-nieje odpowiadajc temu leksowi wraz morfologiczn ileksem.

    Wspomniana wczeniej haplologia kropki nie stanowi problemu kied trzeba jrozdwoi, pojawia si ona wwczas jeden raz jako ksztat wrazu interpunkcjne-go, adrugi raz wformie podstawowej odpowiedniego skrtu cz liczb porzdkowej([14], s. 2021, 36).

    6. Zakoczenie

    Rozwaania nad aparatem pojciowm nie s tlko czsto teoretczn dskusj.Im spjniejsz ibardziej elegancki jest ten aparat, tm atwiej jest zaprojektowa np.interfejs utkownika dla wszukiwarki korpusowej, atwiej go udokumentowa ia-

    twiej utkownikowi naucz si nim posugiwa. Jak wida po datach ctowanchpublikacji, tworzenie takiego aparatu nie jest procesem szbkim inie mona go jesz-cze uzna za zakoczon.

    Summar

    Several computer sstems are discussed. PoMor is a commercial product (mor-phological anaser and spelling checker) developed b Robert Woosz for Mor-pho-logic. Morfeusz is a morphologic analser developed b Marcin Woliski. Poliqarp(POLinterpretation Indexing Quer and Retrieval Processor) developed b Zgmunt

    Krnicki and Daniel Janus is used to search in acorpus of Polish (http://korpus.pl).Both Morfeusz and Poliqarp are freel available for reasearch purposes. The linguis-tic tools of Micha Rudolf are also mentioned.

    The paper advocates the use oflex instead ofwordorsegmentfor better precisionand clarit.

  • 8/14/2019 biuletyn_62

    26/266

  • 8/14/2019 biuletyn_62

    27/266

    30 JANUSZ S. BIE

    [17] Rudolf Micha (2003): Metod automatcznej analiz korpusu tekstw polskich: poz-skiwanie, wzbogacanie iprzetwarzanie informacji lingwistcznch 2003. Praca doktor-ska (promotor Marek widziski). Wdzia Polonistki, Uniwerstet Warszawski, War-szawa.

    [18] Rudolf Micha (2004): Metody automatycznej analizy korpusu tekstw polskich. Pozski-wanie, wzbogacanie iprzetwarzanie informacji lingwistcznch. Uniwerstet Warszaw-ski, Wdzia Polonistki: Warszawa 2004[2005].

    [19] Saloni Zgmunt (1996): Unilateralne ibilateralne podejcie do znakw jzka (natural-nego). J.J. Jadacki, W. Strawiski (eds.), Wwiecie znakw. Warszawa, s. 287294.

    [20] Saloni Zgmunt, widziski Marek (2001): Skadnia wspczesnego jzyka polskiego.Wdanie pite. Wdawnictwo Naukowe PWN, Warszawa.

    [21] Szafran Krzsztof (1997): Automatczne hasowanie tekstu polskiego,Polonica XVIII,pp. 5164, Krakw.

    [22] Tokarski Jan (1967):Zpogranicza metodyki ijzykoznawstwa. Pastwowe Zakad W-dawnictw Szkolnch, Warszawa.

    [23] Tokarski Jan (1972): Dialog czowiekmaszna cfrowa. Poszukiwanie wsplnego jz-ka.Prace Filologiczne, XXIII: 183185.

    [24] Tokarski Yan (200l): Schematyczny indeks a tergo polskich form wyrazowych. Opra-cowanie i redakcja Zgmunt Saloni. Wdanie drugie. Warszawa: Wdawnictwo NaukowePWN.

    [25] Woliski Marcin (2003): Sstem znacznikw morfosntaktcznch wkorpusie IPI PAN.Polonica XXIIXXIII, s. 3955,

    [26] Woliski Marcin (2004): Komputerowa werfikacja gramatki widziskiego. Niepubli-kowana praca doktorska. Insttut Podstaw Informatki PAN, Warszawa.

    [27] Woliski Marcin (2005): An efficient implementation of alarge grammar of Polish. 2ndLanguage & Technolog Conference: Human Language Technologies as aChallenge for

    Computer Science and Linguistics, April 2123, Pozna, Poland.[28] Woosz, Robert (2000): Efektwna metoda analiz i sntez morfologicznej wjzkupolskim. Niepublikowana praca doktorska (promotor Zgmunt Saloni), Wdzia Poloni-stki, Uniwerstet Warszawski, Warszawa.

    [29] Woosz, Robert (2004): Efektwna metoda analiz i sntez morfologicznej wjzkupolskim. Akademicka Oficna Wdawnicza EXIT: Warszawa.

  • 8/14/2019 biuletyn_62

    28/266

    BULLETIN DE LA SOCIT POLONAISE DE LINGUISTIQUE, fasc. LXII, 2006ISSN 00323802

    MAREK WIDZISKI, MICHA RUDOLFWarszawa

    Narzdzia informatyczne obsugi wielkich korpusw tekstw:wyszukiwarka Holmes

    1. Wstp

    Niniejsz artku wprowadza w problematk automatcznej analiz tekstw j-zka wsoce fleksjnego. Przedstawim w nim informacj o projekcie naukowo-ba-dawczm Zaawansowane narzdzia komputerowe do obsugi wielkich korpuswtekstw dla potrzeb lekskograficznch, realizowanm w Insttucie Jzka Pol-skiego Uniwerstetu Warszawskiego w latach 20012004. Produktem kocowmtego projektu jest program ujednoznaczniania morfologicznego wszukiwarkaHolmes. Stanowi ona porczne narzdzie przeszukiwania korpusu tekstw polskich,przede wszstkim dla celw lekskograficznch. Zaoenia teoretczne i moliwociwszukiwarki bd tu przedmiotem uwagi.

    2. Lingwistka korpusowa

    Lingwistka XXI wieku staje w obliczu wzwa automatcznego przetwarzaniawielkich korpusw tekstowch zapisanch na noniku elektronicznm. Wzwanieto, rzecz znamienna, jest natur praktcznej, nie teoretcznej. Skad komputerow,ktr w cigu ostatnich dekad weliminowa ostatecznie tradcjne techniki wdaw-nicze, oraz rwnoleg, bskawiczn rozwj pamici masowch prznis w efekcie

    gigantczne zbior empircznch danch jzkowch. Rczn dostp do tch zbio-rw jest, wobec ich rozmiarw, absolutnie niemoliw. Lingwistka wspczesna tozatem w znacznej mierze innieria korpusowa, a przetwarzanie tekstw jzka na-turalnego (NLP) zapewnia bt milionom informatkw na cam wiecie.

    Korpus tekstowe jako rdo informacji lingwistcznej wi si przede wszst-kim z lekskografi. Ab pozskanie tej informacji bo moliwe, potrzebne s na-rzdzia bilateralizacji, czli przechodzenia od poziomu sowa, jednostki unilateral-nej, do obiektw bilateralnch form wrazowch i leksemw. W wpadku jz-kw wsoce fleksjnch narzdzia te musz si opiera na wczerpujcm opisiegramatcznm takiego jzka. Poniewa problemem kluczowm jest rozwizwa-

  • 8/14/2019 biuletyn_62

    29/266

    32 MAREK WIDZISKI, MICHA RUDOLF

    nie homonimii, modu skadniow tego opisu jest rwnie istotn jak morfologicz-n. Narzdzia dehomonimizacji daj jako produkt kocow albo korpus znakowan(tagged corpus), albo wnik kwerend podzbir korpusu speniajc zadane przez

    utkownika warunki.Warto tu wspomnie, e jedno z pierwszch w wiecie przedsiwzi lingwistkikorpusowej miao miejsce w Polsce i polszczzn dotczo. W latach 19671971powsta w Uniwerstecie Warszawskim pmilionow zrwnowaon korpus znako-wan, ktr posu za baz empirczn sownika frekwencjnego jzka polskie-go. Znakowania dla ujednoznacznienia sw dokonwano rcznie, ale list frekwen-cjne zosta sporzdzone komputerowo. Sownik ukaza si najpierw w postaci pi-ciu tomw (w jedenastu woluminach) pod ttuem Sownictwo wspczesnego jzykapolskiego. Listy frekwencyjne Id Kurcz, Andrzeja Lewickiego, Jadwigi Sambor i Je-rzego Woronczaka (S-LF 19741977). Tom te wsz potem w postaci zbiorczejpod redakcj Zgmunta Saloniego jako Sownik frekwencyjny polszczyzny wspczes-nej (SFPW 1990).

    Oto przkadowa prbka korpusu SFPW (1990):DR*4

    nie ma znaczenia121. we66 snie nic41 nie ma znaczenia121..

    drogiemu koledze dobrze tak mOwic, dla62 pana121 moZe5

    nie miec znaczenia121. ale ja jestem czLowiekiem powa-

    Znym251, obdarzonym251 zaufaniem spoLeczenstwa121.. to9

    po64 co44 siE panu koledze w+ogOle cos41 sni501.. to41

    moja sprawa.. aha7, zaczynam rozumiec.. co44 pan111 ko-

    lega zaczyna rozumiec.. nic41, nic41.. niechZe drogi211

    pan111 kolega powie55..

    Jest to, wedug naszej wiedz, pierwsz korpus znakowan w historii polskiejlingwistki. Dostpn obecnie na wspczesnch nonikach informacji, zachowaatrakcjno (cho nie lekskograficzn) po dzi dzie (por. widziski 1996).

    3. Projekt naukowo-badawcz

    W latach 20012004 realizowan b w Insttucie Jzka Polskiego Uniwers-tetu Warszawskiego, we wspprac z Redakcj Sownikw PWN i na jej zamwie-nie, projekt Zaawansowane narzdzia komputerowe do obsugi wielkich korpu-

    sw tekstw dla potrzeb lekskograficznch (grant KBN 5 HO1D 019 20). Projek-tem kierowa Andrzej Markowski, gwnmi wkonawcami bli Marek widziskioraz Mirosaw Bako, ktr reprezentowa rwnolegle Redakcj Sownikw PWN.W pracach zespou badawczego uczestniczli Magdalena Derwojedowa, DorotaKopciska, Joanna Rabiega-Winiewska oraz Micha Rudolf, ktr odpowiada zaaspekt informatczne projektu. Jego dzieem jest cae oprogramowanie, w szcze-glnoci wszukiwarka Holmes.

    Zadaniem projektu bo przgotowanie oprogramowania do obsugi wielkichkorpusw tekstw polskich. Odbiorcami mieli b przede wszstkim lekskografo-wie. Dziki udziaowi Redakcji Sownikw PWN w projekcie czonkowie zespou

  • 8/14/2019 biuletyn_62

    30/266

    NARZDZIA INFORMATyCZNE OBSUGI WIELKICH KORPUSW... 33

    nie musieli podejmowa trudu budow korpusu od pocztku, jak to zwkle prakt-kuje si w lingwistce korpusowej. Redakcja umoliwia dostp do obszernch frag-mentw wasnego korpusu. Zrwnowaone jego wcinki o dugoci od 2 do 40 mln

    sw su jako podstawa dla prac programistcznch i testerskich.Korpus robocz mia dugo 1.9 mln sw (496 plikw, 34.5 MB), korpus do te-stowania ok. 40 mln sw (3468 plikw, 710 MB). Korpus zamkajc grant o du-goci ok. 7 mln sw obejmowa dwa podkorpus: podzbir zrwnowaonego Kor-pusu PWN o dugoci 3,6 mln (661 plikw, 68 MB) oraz niezrwnowaon korpusRzeczpospolita (3,4 mln (75 plikw, 63MB).

    Obsuga korpusu obejmowaa nastpujc kompleks zada: segmentacja tekstu na wpowiedzenia, analiza gramatczna sw (w tm: lematzacja), analiza gramatczna nieznanch sw na podstawie zakocze, ujednoznacznianie jakociowe.Przgotowwane oprogramowanie pomlane zostao jako narzdzie do prowa-

    dzenia zaawansowanch kwerend, a nie znakowania tekstu. Oznacza to, e nie cho-dzi o tagger, tlko disambiguator, czli narzdzie ujednoznaczniania morfologicz-nego: dehomonimizacji i desnkretzacji; w tekcie polskim ponad 40% sw to ho-moform (por. Awramiuk 1999, widziski, Derwojedowa i Rudolf 2004). Wnikiposzukiwania, majce posta odpowiednich podzbiorw korpusu, s dostpne na-tchmiast. Monografia Michaa Rudolfa Metody automatycznej analizy korpusu teks-tw polskich zdaje spraw z prac nad przetwarzaniem korpusu, rzucajc relacjono-wane przedsiwzicia na szerokie to wspczesnej lingwistki informatcznej (Ru-dolf 2004).

    4. Oprogramowanie

    Dla potrzeb grantu powsta midz innmi nastpujce program: ZDANIA NIEZNANE SLOWOTWORCA REGULy FREQWkorzstan te zosta powsta jeszcze przed rozpoczciem projektu program

    AMOR Joann Rabiega-Winiewskiej i Michaa Rudolfa; por. Rabiega-Winiewskai Rudolf (2003a).

    Program ZDANIA su segmentacji tekstu na wpowiedzenia, czli wraenia,ktre otwiera wielka litera (niepoprzedzona niczm lub poprzedzona znakiem ko-ca), a zamka znak koca (Saloni i widziski (2001: 4142)). Dziaanie programusprowadza si do odgadnicia waciwej interpretacji pewnch znakw interpunk-cjnch tpu kropki; kropka, jak wiadomo, wstpuje w tekcie polskim rwnie,midz innmi, jako skadnik niektrch skrtw. Por. Rudolf (2004: 5771).

    Program AMOR jest narzdziem analiz morfologicznej. Opart jest on na zbu-dowanm specjalnie sowniku gramatcznm. Interpretuje on wcztane sowo jako

  • 8/14/2019 biuletyn_62

    31/266

    34 MAREK WIDZISKI, MICHA RUDOLF

    nalece do okrelonego leksemu lub leksemw (lematzacja lub dehomonimizacjasaba) i przpisuje mu wszstkie moliwe pakiet parametrw morfologicznch (in-terpretacja morfologiczna lub desnkretzacja saba). AMOR opiera si na morfolo-

    gii gbokiej Zgmunta Saloniego, woonej m.in. w podrczniku Saloniego i wi-dziskiego (2001: 84231); por. te Saloni 1992 i Tokarski 1993. Szczegow opiszaoe teoretcznch programu podan jest w artkuach Rabiega-Winiewskieji Rudolfa (2003b) oraz Rabiega-Winiewskiej (2004) oraz w ctowanej monografiiRudolfa (2004: 2942). Zbir znacznikw morfologicznch obejmuje 435 wartoci,gdzie dan znacznik jest n-tk indeksw morfologicznch tpu wykrzyknik; li-czebnik, dopeniacz, rodzaj* (gdzie rodzaj* oznacza warto dowol-n); czasownik, 2, lp, rozk, ndk itp.

    Program NIEZNANE oraz SLOWOTWORCA su interpretacji gramatcznejsw, ktrch AMOR nie rozpoznaje, a wic takich, dla ktrch wnik lematzacjijest niepomln (odpowiednich jednostek nie ma w sowniku). Pierwsz z nich ko-rzsta z list zakocze sw polskich (Tokarski 1993), stawiajc hipotez charakte-rstki fleksjnej lub odgadujc cz postulujc leksem. Drugi program przeprowa-dza analiz derwacjn odcina afiks lub pseudoafiks i prbuje przeksztacaform pochodn na form podstawow; por. Rudolf (2004: 4355), Rabiega-Winiewska (w druku).

    Program FREQ oblicza frekwencj jednostek tekstowch.Program REGULy korzsta z wnikw pozskanch przez podane wej progra-

    m. Jest on waciwm narzdziem ujednoznacznienia. Omwi go dokadniej w na-stpnm punkcie.

    Cae to oprogramowanie wkorzstwane jest przez aplikacj Sherlock, pracu- jc w rodowiskach Linux, DOS oraz Windows. Wizualizacj wnikw umoli-wia aplikacja Holmes w rodowisku Windows. Wniki podawane s midz innmiw postaci plikw HTML.

    5. Ujednoznacznianie morfologiczne

    Przez ujednoznacznienie rozumiem tutaj desnkretzacj mocn i dehomonimi-zacj mocn, innmi sow rozpoznanie waciwej form wrazowej i waciwegoleksemu. Snkretzm to rwnoksztatno form wrazowch wewntrz jednego lek-

    semu (dziewczyny dziewczyna: (1) dopeniacz liczb pojednczej, (2) mianow-nik, (3) biernik lub (4) woacz liczb mnogiej), homonimia rwnoksztatno formrnch leksemw (wiec (1) wiecalub (2) wieci).

    W procesie automatcznego ujednoznaczniania danego tekstu generuje si naj-pierw dla wszstkich sw tego tekstu zbir wszstkich moliwch interpretacji mor-fologicznch, czli przeprowadza desnkretzacj sab i dehomonimizacj sab.Nastpnie zbir ten prbuje si ogranicz poprzez odrzucanie interpretacji niewa-ciwch. Chodzi o to, b w ideale dla danego wstpienia homoform pozostawijedn interpretacj:

  • 8/14/2019 biuletyn_62

    32/266

    NARZDZIA INFORMATyCZNE OBSUGI WIELKICH KORPUSW... 35

    Znam tamte dziewczyny. Szukaj go zewiec.dop,lp WIECAmian,lm wieci

    bier,lmwo,lm

    Istniej rne metod ujednoznaczniania mocnego. Wszstkie one, mwic intui-cjnie, wmagaj jakich danch dodatkowch. Zwkle przeciwstawia si sobie dwatp takich metod: ilociowe i jakociowe. Pierwsze wkorzstuj rozmaite modelestatstczne odpowiedni program ujednoznaczniajc, wtrenowan na oznakowa-nm rcznie zbiorze tekstowm, ma odnajdwa najbardziej prawdopodobne inter-pretacje (znaczniki) dla sw analizowanego korpusu. W sprawie metod statstcz-nch odesa mona do studiw ukasza Dbowskiego (2001), (2003).

    Projekt referowan tutaj wkorzstuje jednak metod drugiego tpu. Metod ja-

    kociowe opieraj si na zbiorze szczegowch regu lingwistcznch, ktre sta-nowi zapis subtelnch obserwacji czsto dstrbucjnch. S one zazwczaj kon-tekstowe. W artkule widziskiego, Derwojedowej i Rudolfa (2004) postulowanopodejcie prmitwnie skadniowe do problemu ujednoznacznienia. Nie zakadasi tam analiz skadniowej (parsowania) chodzi tlko o szukanie wkadnikwopozcji w najbliszm ssiedztwie, ujmowanm czsto morfologicznie. Propagato-rem metod lingwistcznej na gruncie jzkw sowiaskich jest Karel Oliva (por.Oliva 2003).

    Oto przkad takich regu:

    (1) regua Dwie finitywne formy czasownika musz by rozdzielone przecin-kiem lub spjnikiem.(2) regua Do blisko przed form miejscownika wystpuje albo inny miej-

    scownik, albo jeden zprzyimkw na, w, o, przy, po.(3) regua Sowo nie, jeli nie wystpuje po przyimku, jest form partykuy

    nie.(4) regua Sowo musijest form czasownika musie.(5) regua Przymiotnik inastpujcy po nim rzeczownik s uzgodnione pod

    wzgldem przypadka, rodzaju iliczby.

    Zaproponowano 110 regu lingwistcznch z zadanm rcznie stopniem nieza-

    wodnoci. S wrd nich regu oglne np. (1) i (2), lekskalne przkad (3), fre-kwencjne przkad (4) i heurstczne przkad (5). Regu s stosowane od naj-bardziej niezawodnej do najmniej niezawodnej. Regu heurstczne, mniej pewne,wczane s wwczas, gd nie poskutkowa poprzednie. U Rudolfa (2004: 93103)znale mona kilkadziesit takich regu z ilustracj empirczn.

    6. Jak dziaa Sherlock

    Opiswana tu aplikacja jest narzdziem wszukiwania jednostek tekstowchspeniajcch zadane warunki. Tekst do przeszukiwania musi b najpierw przetwo-

  • 8/14/2019 biuletyn_62

    33/266

    36 MAREK WIDZISKI, MICHA RUDOLF

    rzon za pomoc zestawu przedstawionch wczeniej programw. W wniku dziaa-nia tch programw otrzmuje si czciowo ujednoznacznion tekst z informacjamimorfologicznmi, ktr moe b nastpnie przeszukiwan wedug rnch krte-

    riw. Zasadwprowadzania kwerend przedstawim w nastpnm punkcie.Przetwarzan tekst zostaje najpierw posegmentowan na wpowiedzenia (doko-nuje tego program ZDANIA). Poniewa Sherlockoperuje na plikach Korpusu PWN,jest moliwo ujawniania lokalizacji pozskiwanch wpowiedze.

    Nastpuje teraz etap analiz morfologicznej. Program AMOR przpisuje po-szczeglnm sowom zbior interpretacji morfologicznch. Program NIEZNANEoraz SLOWOTWORCA prbuj odgadn interpretacje sw, ktre nie zosta roz-poznane przez program AMOR. Tekst oznakowan bdzie teraz obiektem przeszu-kiwa.

    W kocu wcztwane s i sortowane regu lingwistczne (program REGULy).Dla kadego wpowiedzenia regu s stosowane w kolejnoci ich niezawodnoci.

    Jeeli ktra z regu doprowadzi do usunicia pewnej interpretacji, caa procedurarozpoczna si od pocztku. Proces kocz si w momencie, gd adna z regu niepozwala na usunicie z danego wpowiedzenia dodatkowch interpretacji.

    Wniki s zapamitwane w postaci plikw dla programw Sherlock(kwerend)i FREQ (statstka). Danch ilociowch utkownik moe sobie zacz w pro-gramie Sherlock oznacza to jednie tle, e wniki nie bd wpisane, a jedniezliczone.

    Pokam teraz, jak funkcjonuj podane wej regu.Ponisza regua:

    REGUA Dwie finitywne formy czasownika musz by rozdzielone przecinkiemlub spjnikiem.

    pozwala weliminowa interpretacj homoformpowstanie w wpowiedzeniu Szcze-glnie grone wydawao si powstanie wTarnowskich Grach wroku 1534.[Sucho-dolski Bogdan Dzieje kultur polskiej] jako form wrazowej o opisie czasow-nik, 3, lp, rodzaj*, przyszy, ozn, dk. Poprzedzajce j sowo wy-dawao, ktre ma jednoznaczn interpretacj czasownikow, nie jest w aden sposbodseparowane od podejrzewanego o czasownikowo sowa powstanie. Dziki tejregule moliwa jest waciwa lematzacja jednostkipowstanie: powsTanie.

    Kolejna regua jest skutecznm narzdziem rozwizwania snkretzmw, w ja-

    kie uwikan jest miejscownik w polszcznie:REGUA Do blisko przed form miejscownika wystpuje albo inny miejscow-

    nik, albo jeden zprzyimkw na, w, o, przy, po.

    Formszybkocio opisie rzeczownik, miejscownik znajdujem tlkow pierwszm spord poniszch trzech przkadw:

    A w tym pooeniu, przy takiej szybkocipewna mier. [ukrowski WojciechKamienne tablice:118].Okrelenie szybkociskadowych jest zadaniem interpolatora. [various Proble-m:110]

  • 8/14/2019 biuletyn_62

    34/266

    NARZDZIA INFORMATyCZNE OBSUGI WIELKICH KORPUSW... 37

    Pracuje nad projektem samolotu poruszajcego si z szybkoci bliskszybkocidwiku, Sonic Cruiserem. [various Rzeczpospolita:264]

    Nastpna regua:

    REGUA Sowo nie, jeli nie wystpuje po przyimku, jest form partykuy nie.

    pozwala skutecznie rozwizwa homonimi sowa nie, ktrego obie interpretacje,partkuowa i zaimkowa, s tekstowo czste:

    Balladnie pisze si po to, by wnie wierzono. [Sapkowski Andrzej Miecz prze-znaczenia:144]

    W powszm przkadzie dla pierwszego wstpienia sowa nie wkluczona jestinterpretacja zaimkowa jako form poprzimkowej zaimka trzecioosobowego.

    Formua podana niej jest nieformalnm zapisem intuicji regu lekskalnej.

    W zbiorze 110 regu lingwistcznch s dwie takie regu o bardzo wsokiej i w-sokiej niezawodnoci. Kada z nich ma list interpretacji, ktre s nieprawdopodob-ne bd mao prawdopodobne i ktre nale usun. Na przkad:

    REGUA Sowo musijest form czasownika musie.

    Prawdopodobiestwo interpretacji sowa musi jako bdcego form wrazowleksemu przmiotnikowego muszy, z opisem przymiotnik, mianownik,lm, mos, jest znikome; mona t interpretacj odrzuci.

    Wreszcie regua ostatnia:

    REGUA Przymiotnik i nastpujcy po nim rzeczownik s uzgodnione podwzgldem przypadka, rodzaju iliczby.

    zastosowana do analiz wpowiedzeniaIstniej skuteczne metody, gwnie che-miczne, zwalczania chorb iszkodnikw rolin, a tym samym ograniczania szkd.[Fereniec Jan Zars ekonomiki i organizacji rolnictwa: 284], pozwala wklu-cz interpretacj sowa skuteczne jako form o opisie mianownik, lp lubbiernik, lp (bo ssiad, sowo metody, ma inn opis) oraz sowa metody jakoform dopeniacz,lp (z tego samego powodu).

    7. Holmes

    Przedstawim wrwkowo skadni polece dla wszukiwarki Sherlock. Jakwspomnielim wej, Holmes to jej interfejs graficzn dla rodowiska Windows.Jego okno wglda nastpujco (rs. 1).

    Utkownik moe wprowadzi od jednego do czterech warunkw prostch. Jestsiedem tpw takich warunkw:

    sowo: poszukiwanie zadanego ksztatu ortogracznego; take znaku inter-punkcjnego;

    leksem: poszukiwanie dowolnej form wrazowej zadanego leksemu;

  • 8/14/2019 biuletyn_62

    35/266

    38 MAREK WIDZISKI, MICHA RUDOLF

    wzorzec: poszukiwanie sowa zadanego przez napis szkieletow, gdzie ? brakujc znak, * brakujc cig znakw, b moe, pust;

    charakterystyka eksyjna: poszukiwanie form wrazowej o zadanm opi-sie morfologicznm, niekoniecznie dokadnm ani penm; w warunku moeb alternatwa wartoci (znak + midz wartociami) lub negacja (znak !przed wartoci);

    uzgodnienie (tlko w warunku zoonm): poszukiwanie sowa reprezentuj-cego form wrazow uzgodnion w zakresie zadanch parametrw eksj-nch ze sowem z poprzedniego warunku;

    nie sowo: poszukiwanie ksztatu ortogracznego rnego od zadanego; nie leksem: poszukiwanie form wrazowch leksemw rnch od zadane-go.

    Wbraniu tpu warunku su kolumna druga okna; w trzeciej wpisuje si zada-n warto. Specjalne okno pozwala wbra odpowiednie wartoci charakterstkifleksjnej (rs. 2).

    Rs. 2

    Rs. 1

  • 8/14/2019 biuletyn_62

    36/266

    NARZDZIA INFORMATyCZNE OBSUGI WIELKICH KORPUSW... 39

    Warunki zoone formuuje si jako koniunkcj warunkw prostch. Oto prz-kad zaptania formuujcego warunek zoon (rs. 3).

    Utkownik szuka fraz nominalnej opartej na formie wrazowej leksemu koT,po ktrej bezporednio wstpuje forma przmiotnikowa.

    Pierwsza kolumna okna pozwala okreli kontekst dla jednostki poszukiwanejw kolejnch warunkach drugim, trzecim lub czwartm. Warunki te mog dot-cz:

    sowa nastpnego, sowa poprzedniego; tego samego sowa; sowa ssiedniego (czli poprzedniego lub nastpnego); sowa obok (zakres: dwa sowa w prawo i dwa w lewo) lub w pobliu (zakres:

    czter sowa w prawo i czter w lewo); sowa dalej (do koca wpowiedzenia) lub wczeniej (od pocztku wpowie-

    dzenia); dowolnego sowa.Utkownik moe te modfikowa sposb wbierania wnikw i metod pre-

    zentowania. Su temu okna Opcje i Zaawansowane (to drugie tutaj pomijam)(rs. 4).Ograniczeniu iloci przkadw i zrnicowaniu jakociowemu danch su trz

    pierwsze opcje. Dwie kolejne pozwalaj kontrolowa sposb numerowania przka-dw oraz podawania informacji o rdle. Przedostatnia nie jest zbt istotna. Ostatniama sens lekskograficzn: umoliwia ograniczenie materiau ilustracjnego dla da-nej jednostki sownikowej poprzez zablokowanie wwietlania przkadw pozapierwszm speniajcm zadan warunek.

    Wniki maj posta pliku HTML (kwerenda dotcza charakterstki przy-swek) (rs. 5).

    Rs. 3

  • 8/14/2019 biuletyn_62

    37/266

    40 MAREK WIDZISKI, MICHA RUDOLF

    8. Zastosowania

    Wszukiwarka Holmes funkcjonuje ju trzeci rok w Redakcji Sownikw PWNjako narzdzie kwerend lekskograficznch. Nie jest to jednak jedne zastosowa-nie. W Insttucie Jzka Polskiego Uniwerstetu Warszawskiego korzstaj z niejniektrz pracownic naukowi, studenci, magistranci i doktoranci. Obroniono kilkaprac magisterskich wkorzstujcch Holmesa. Co najmniej dwie dsertacje doktor-

    Rs. 4

    Rs. 5

  • 8/14/2019 biuletyn_62

    38/266

    NARZDZIA INFORMATyCZNE OBSUGI WIELKICH KORPUSW... 41

    skie, ktre wanie powstaj, opieraj si na materiale empircznm Korpusu PWNi Korpusu Rzeczpospolita, przegldanm prz pomoc tego narzdzia.

    Warto pokaza kilka przkadowch zapta.

    [ 1] charakterystyka przyimek[ 2] nastpny leksem godzina[ *] tylko pierwsze wystpienie leksemu w warunku pierwszym

    Otrzmam list 18 przimkw, ktre wprowadzaj leksem godzina: s toprzimki od, w, po, o, za, ponad, na, pRzed, do, pRzez, z, dLa, co, poza,koo, bez, midzy. Jest to informacja istotna dla lekskografa szukajcego da-nch do informacji skadniowej o leksemie godzina albo dla gramatka, ktr zaj-muje si, powiedzm, frazami lunmi czasowmi.

    [ 1] charakterystyka rzeczownik[ 2] nastpny leksem o[ 3] nastpny charakterystyka przymiotnik, miejscownik[ 4] nastpny charakterystyka rzeczownik, miejscownik

    W siedmiomilionowm korpusie Holmes znalaz 2603 zdania zawierajce wra-enie o strukturze dziewczyna oniebieskich oczach, modnej przed trzdziestoma latna pograniczu skadni i kultur jzka.

    [ 1] leksem bowiem[ 2] poprzedni sowo ,

    Dowiadujem si, e spjnikbowiem, na 2985 wstpie w 7-milionowm kor-pusie, poprzedzon jest przecinkiem ortograficznm w 265 przkadach. Potwier-dza to trwanie we wspczesnej polszcznie osobliwoci skadniowej tego spjnika,ktr stuuje si wewntrz zdania skadowego podrzdnego, nie za w pozcji ini-cjalnej, jako pierwsze sowo tego zdania.

    [ 1] wzorzec anty*[ 2] nastpny charakterystyka rzeczownik+przymiotnik[ *] tylko pierwsze wystpienie leksemu w warunkudrugim

    Holmes wrzuca list form rzeczownikowch lub przmiotnikowch z prefik-

    sem rozpocznajcch si od cigu literanty-. Obok odgadni chbionch, takichjakantyk, antykwariusza cz antylop, znajdujem na niej kanddatwna leksemz prefiksem anTy- na przkad anTyuTopia, anTykonsTyTucyjny cz an-TykaToLicyzm.

    [ 1] charakterystyka liczebnik_zbiorowy[ 2] nastpny charakterystyka rzeczownik[ 3] ten sam nie leksem dziecko

    Wszukiwanie dao nam 153 wpowiedzenia z konstrukcjami z liczebnikiemtpu dwoje i fraz nominaln rn od opartej na formie leksemu dziecko. Wcza-

  • 8/14/2019 biuletyn_62

    39/266

    42 MAREK WIDZISKI, MICHA RUDOLF

    jc opcj [ *] (pierwsze wstpienie), dostaniem list 57 leksemw rzeczowniko-wch majcch czliwo z takim liczebnikiem.

    9. Zakoczenie

    XXI wiek jest stuleciem lingwistki informatcznej. Oznacza to, e przetwarza-nie tekstw jzkw naturalnch, ktre stanowi oczwist potrzeb chwili, pozosta-nie pierwszoplanowm zadaniem dla lingwistw przez dziesiciolecia. Polszczznajest dzi dobrze opisana gramatcznie. Niestet, stopie zaawansowania przedsi-wzi technicznch wkorzstujcch t wiedz nie zadowala. Tm wiksza jest po-trzeba podejmowania prac z krguNLPnad polszczzn.

    W roku 2004 dobieg koca inn projekt naukowo-badawcz z tej dziedzin Anotowan korpus pisanego jzka polskiego z dostpem przez Internet (z uwzgld-nieniem zastosowa w innierii lingwistcznej) kierowan przez Adama Prze-pirkowskiego w Insttucie Podstaw Informatki Polskiej Akademii Nauk. Prznison w efekcie wszukiwark Poliqarp (por. Przepirkowski 2004). Aplikacje tpuHolmesa cz Poliqarpa bd si niewtpliwie rozwija; bd te powstawa nowe,wkorzstujce rne metod rozwizwania homonimii.

    Artku niniejsz jest gosem oddanm za metodami lingwistcznmi. Jest dlanas rzecz niewtpliw, e droga do otrzmania optmalnch narzdzi dezambigua-cji korpusu tekstw polskich wiedzie przez wnikliw, subteln analiz dstrbucjn przez poszukiwanie wkadnikw kontekstowch wszstkich opozcji w zbiorzejednostek tekstowch polszczzn.

    Summar

    Large text corpora management requires sophisticated computational tools. Forhighl inflecting languages like Polish homonm is a challenge computer menhave to face; in Polish texts, ever 42nd word per 100 is grammaticall ambigu-ous. A search engine Holmes, designed b Micha Rudolf, works as a disambiguator,rather than a tagger. It operates on texts which are morphologicall marked beforeb special programs. After the user keboards her quer Holmes examines sets oftags for each word, rejecting as man improper interpretations as possible. Holmesmakes use of linguistic, not statistical methods of disambiguation. It is based upon a

    number of rules formalizing various contextual restrictions on words. Quer resultsare obtainable online.

    Bibliografia

    Awramiuk, Elbieta (1999): Systemowo polskiej homonimii midzyparadygmatycznej. Biastok: Wdawnictwa Uniwerstetu w Biamstoku.

    Dbowski, ukasz (2001): Tagowanie i dezambiguacja. Przegld metod i oprogramowania. Raport techniczny 934, Warszawa: Insttut Podstaw Informatki PAN.

  • 8/14/2019 biuletyn_62

    40/266

    NARZDZIA INFORMATyCZNE OBSUGI WIELKICH KORPUSW... 43

    Dbowski, ukasz (2003): A reconfigurable stochastic tagger for languages with complex tagstructure. [w:]Proceedings of Morphological Processing of Slavic Languages EACL03;Budapest, 6370.

    Oliva, Karel (2003): Linguistics-based PoS-tagging of Czech: disambiguation ofse as a testcase. [w:]Investigations into Formal Slavic Linguistics. Contributions of the Fourth Eu-ropean Conference on Formal Description of Slavic Languages FDSL IV, held at Pots-dam University, November 2830th, 2001. Red. Peter Kosta i in.; Frankfurt am Main: Pe-ter Lang GmbH., 299314.

    Przepirkowski, Adam (2004):Korpus IPI PAN. Wersja wstpna. Warszawa: Insttut Pod-staw Informatki PAN.

    Rabiega-Winiewska, Joanna (2004): Podstaw lingwistczne automatcznego analizatoramorfologicznego AMOR. Poradnik Jzykowy 10, 5978.

    Rabiega-Winiewska, Joanna (w druku): A new classification of Polish derivational affixes. [w:]Investigations into Formal Slavic Linguistics. Contributions of the Fourth Euro-pean Conference on Formal Description of Slavic Languages FDSL V, held at Leipzig

    University, November 2628th, 2003; Frankfurt am Main: Peter Lang GmbH.Rabiega-Winiewska, Joanna, Rudolf, Micha (2003a): AMOR program automatcznej

    analiz fleksjnej tekstu polskiego. Biuletyn Polskiego Towarzystwa JzykoznawczegoLVIII, 175186.

    Rabiega-Winiewska, Joanna, Rudolf, Micha (2003b): Towards a bi-modular automatic ana-lzer of large Polish corpora. [w:]Investigations into Formal Slavic Linguistics. Contri-butions of the Fourth European Conference on Formal Description of Slavic Languages

    FDSL IV, held at Potsdam University, November 2830th, 2001. Red. Peter Kosta i in.;Frankfurt am Main: Peter Lang GmbH. 363372.

    Saloni, Zgmunt (1992): Rgorstczn opis polskiej deklinacji przmiotnikowej. [w:]Filologia Polska. Prace Jzykoznawcze 16; Gdask: Wdawnictwo Uniwerstetu Gda-

    skiego, 215228.Saloni, Zgmunt, widziski, Marek (2001): Skadnia wspczesnego jzyka polskiego. Warszawa: Wdawnictwo Naukowe PWN, Wd. V.

    widziski Marek, Derwojedowa Magdalena, Rudolf Micha (2003): Dehomonimizacja i de-snkretzacja w procesie automatcznego przetwarzania wielkich korpusw tekstw pol-skich. Biuletyn Polskiego Towarzystwa Jzykoznawczego LVIII, 175186.

    Tokarski, Jan (1993): Schematyczny indeks a tergopolskich form wyrazowych. Opracowanie iredakcja Zgmunt Saloni. Warszawa: Wdawnictwo Naukowe PWN.

    S-LF (197477): Ida Kurcz, Andrzej Lewicki, Wadsaw Masowski*, Jadwiga Sambor, Je-rz Woronczak: Sownictwo wspczesnego jzyka polskiego. Listy frekwencyjne. T. I-V.

    Warszawa: Polska Akademia Nauk Insttut Bada Literackich [*: T. III].SFPW (1990): Ida Kurcz, Andrzej Lewicki, Jadwiga Sambor, Krzsztof Szafran, Jerz Wo-

    ronczak: Sownik frekwencyjny polszczyzny wspczesnej. Red. Zgmunt Saloni. Kra-kw: Polska Akademia Nauk Insttut Jzka Polskiego.

    widziski, Marek (1996): Wasnoci skadniowe wypowiednikw polskich. Warszawa:Dom Wdawnicz ELIPSA.

  • 8/14/2019 biuletyn_62

    41/266

    BULLETIN DE LA SOCIT POLONAISE DE LINGUISTIQUE, fasc. LXII, 2006ISSN 00323802

    MAGORZATA MARCINIAK, AGNIESZKA MyKOWIECKAWarszawa

    Powierzchniowe przetwarzanie skadniowe na potrzeby automa-tycznej ekstrakcji informacji z raportw medycznych

    1. Wprowadzenie

    Dostpno wielkich zbiorw danch wraonch w postaci tekstowej spowo-dowaa powstanie zapotrzebowania na program komputerowe uatwiajce automa-tczne wdobwanie z nich konkretnch informacji. Jedn z pierwszch tego tpuaplikacji dziaajcch na tekstach w jzku polskim prezentujem w niniejszm art-kule. Celem prac bo wdobcie z krtkich notatek, doczanch przez lekarz dozdj mammograficznch, maksmalnie wielu istotnch z medcznego punktu wi-dzenia informacji oraz przedstawienie ich w sposb ustrukturalizowan, tak b mo-

    na bo je nastpnie zapisa w bazie danch. Uzskane informacje mog b przed-miotem dalszch bada, zwaszcza analiz statstcznch. Podobne projekt b re-alizowane dla jzka angielskiego (Hahn i inni, 2002, Hripcsak i inni, 2002), jednaknie s nam znane tego tpu prb podejmowane dla danch w jzku polskim.

    W ekspermencie wkorzstano okoo 2000 raportw mammograficznch po-chodzcch z 3 rnch rde.

    Raport przetwarzane s za pomoc sekwencji wspecjalizowanch programw,a kocowm wnikiem jest wpeniona baza danch, ktrej schemat odpowiadauproszczonemu modelowi dziedzin.

    2. Przetwarzanie ptkie tekstw krtki opis sstemu SProUT

    Wkorzstanie jzka naturalnego jako rodka komunikacji midz ludmi opie-ra si na rozumieniu sensu sszanch bd cztanch tekstw. Niestet, komputero-we metod analiz jzka nie s jeszcze na tle zaawansowane, b nawet w przbli-eniu naladowa ten proces. Z tego wzgldu, ab w sposb automatczn odszukacho cz zawartch w tekcie informacji, stosuje si obecnie techniki polegaj-ce na wszukiwaniu w tekcie fragmentw pasujcch do zdefiniowanch uprzed-nio wzorcw. Odpowiednie wraenia mog zawiera warunki dotczce pojawie-nia si w tekcie okrelonch sw, ich konkretnch form cz wartoci wbranch

  • 8/14/2019 biuletyn_62

    42/266

    46 MAGORZATA MARCINIAK, AGNIESZKA MyKOWIECKA

    cech (na przkad kategorii gramatcznej). Opisane ograniczenia mog dotcz za-rwno szukanch elementw, jak i tch wstpujcch w ich ssiedztwie. Poniewastosujc t metod nie analizujem cach zda, nie musim opiswa dokadnie ich

    skadni, a informacje semantczne moem ogranicz tlko do tch nas interesuj-cch. Dziki temu uzskujem szbki czas dziaania programu i unikam przkado-wo problemu tworzenia przez analizator skadniowe (np. GFJP (widziski, 1992),ktrej implementacja jest opisana w prac (Woliski, 2005)) zbt wielu rozbiorw(bd braku jakiejkolwiek analiz). Oczwicie taka wrwkowa analiza niesieniebezpieczestwo mlnej interpretacji wrwanego z kontekstu fragmentu i dlategostosujc t metod trzeba licz si z popenianiem bdw, a zaimplementowan s-stem musi podlega dokadnej werfikacji na danch testowch.

    Scharakterzowane powej pokrtce zadanie nazwane jest ekstrakcj informa-cji i stanowi obecnie jeden z najczciej realizowanch celw sstemw przetwa-rzajcch tekst w jzku naturalnm. Technika wkorzstwana do ekstrakcji in-formacji zwana jest parsowaniem powierzchniowm (ang. shallow parsing), gdanalizie poddawane s jednie fraz budowane wok istotnch dla dziedzin swkluczowch. W prezentowanm ekspermencie do realizacji zadania ekstrakcji in-formacji wkorzstan zosta sstem SProUT (Drodski i inni, 2004) opraco-wan w DFKI w Saarbrcken. Jest on przstosowan do wspprac z 11 jzkami,w tm z polskim (Piskorski i inni, 2004). Do sstemu mona docza komponentjzkowe takie, jak: tokenizator, analizator morfologiczne, tager oraz sownikidziedzinowe i tm samm dostosowa go do kolejnch jzkw i konkretnch zasto-sowa. W szczeglnoci, do analiz morfologicznej tekstw polskich wkorzstanzosta program morfologiczn Morfeusz (Woliski, 2006). SProUT cz technik

    automatw skoczonch rozpoznajcch wraenia regularne z formalizmem unifi-kacjnm, ktr ma wbudowan cis kontrol tpw.

    3. Jako danch

    Jednm z problemw, z jakim przszo si zmierz prz realizacji opiswane-go projektu, jest niska edtorska jako analizowanch tekstw. Opis zdj mam-mograficznch to notatki przeznaczone do cztania zarwno przez samego pacjentajak i ewentualnie przez innego lekarza, a mimo to nie s pisane starannie i zawierajwiele bdw tpograficznch. Przkadowe bd to czste pomijanie znakw dia-

    krtcznch cz niestandardowe ucie interpunkcji. W szcze