Zastosowanie Text Mining do analizy struktury treści artykułów … · 2016. 10. 3. · Ludosław...

14
LUDOSLAW DRELICHOWSKI, DANIEL ZWIERZCHOWSKI ZASTOSOWANIE TEXT MINING DO ANALIZY STRUKTURY TRECI ARTYKULÓW POLSKOJZYCZNYCH PUBLIKACJI „STUDIA I MATERIALY” POLSKIEGO STOWARZYSZENIA ZARZDZANIA WIEDZ Streszczenie W artykule przedstawiono wykorzystanie narzdzi text mining do bada moli- woci wydobywania wiedzy z artykułów polskojzycznych wydawnictwa „Studia i Ma- teriały” Polskiego Stowarzyszenia Zarzdzania Wiedz. Przedstawiono pojcie text mining i przybliono baz danych wykorzystan w badaniu. Dokonano analizy klasteryzacji pierwszego i drugiego stopnia, ukazujc w ten sposób rezultaty grupow- ania artykułów poprzez identyfikacj ich treci. Slowa kluczowe: zarzdzanie wiedz, text mining, klasteryzacja, statystyka, publikacje naukowe 1. Wprowadzenie Zarzdzanie wiedz doczekalo si dziesitek definicji próbujcych przedstawi jej istot. Autorzy definicji klad ny nacisk na aspekty generowania wiedzy. J. O. Paliszkiewicz zespolila najczstsze aspekty zarzdzania wiedza w jedn definicj. Autorka za zarzdzanie wiedz uznaje „systematyczny i zorganizowany proces lokalizowania, pozyskiwania, transferu, wykorzystywania i zachowywania wiedzy, wykorzystujcy odpowiednie technologie i rodowisko kulturowe, którego celem jest wzrost wyniku dzialalnoci przedsibiorstwa” [6, 9]. Pozyskiwanie i wydobywanie nowej wiedzy z baz danych tekstowych, które stanowi przed- miot bada stanowi obszerny zakres tworzenia wiedzy. Narzdzia programowe umoliwiaj pod- danie procesowi kolejnych faz przetworzenia zbiorów danych tekstowych w taki sposób, by uzy- skane wynikowe transformacje baz, umoliwialy efektywne wykorzystanie narzdzi analizy opro- gramowanych w danej metodzie [7, 8, 13]. Klasteryzacja polega na grupowaniu rekordów wedlug ich podobiestwa w celu otrzymania zbiorów klas w danej bazie danych. Podstawowym zastosowaniem klasteryzacji jest dostarczenie uytkownikowi pogldu na zawarto baz danych, automatyczne kategoryzowanie obiektów oraz wychwytywanie nieprawidlowoci w analizowanych danych. Ten sposób wyodrbniania struktur odpowiednich grup obiektów identyfikowanych poprzez podobiestwo zawartoci treci dokumen- tów staje si najbardziej interesujc procedur analizy text mining [4, 5]. Narzdzia do analiz tekstu (text mining) umoliwiaj pozyskiwanie przydatnych informacji z rónych dokumentów. Pomagaj w odkrywaniu wczeniej nieznanych wspólzalenoci midzy danymi oraz powiza midzy anali- zowanymi strukturami, które stanowi w pracy artykuly naukowe [1, 2, 3]. Niniejsza praca stanowi kontynuacj bada naukowych opublikowanych w anglojzycznych tomach Studies & Proceedings of Polish Association for Knowledge Management [1, 2, 10]. Prze-

Transcript of Zastosowanie Text Mining do analizy struktury treści artykułów … · 2016. 10. 3. · Ludosław...

  • LUDOSŁAW DRELICHOWSKI, DANIEL ZWIERZCHOWSKI

    ZASTOSOWANIE TEXT MINING DO ANALIZY STRUKTURY TRE�CI ARTYKUŁÓW POLSKOJ�ZYCZNYCH PUBLIKACJI „STUDIA I MATERIAŁY”

    POLSKIEGO STOWARZYSZENIA ZARZ�DZANIA WIEDZ�

    Streszczenie

    W artykule przedstawiono wykorzystanie narz�dzi text mining do bada� mo�li-wo�ci wydobywania wiedzy z artykułów polskoj�zycznych wydawnictwa „Studia i Ma-teriały” Polskiego Stowarzyszenia Zarz�dzania Wiedz�. Przedstawiono poj�cie text mining i przybli�ono baz� danych wykorzystan� w badaniu. Dokonano analizy klasteryzacji pierwszego i drugiego stopnia, ukazuj�c w ten sposób rezultaty grupow-ania artykułów poprzez identyfikacj� ich tre�ci.

    Słowa kluczowe: zarz�dzanie wiedz�, text mining, klasteryzacja, statystyka, publikacje naukowe

    1. Wprowadzenie

    Zarz�dzanie wiedz� doczekało si� dziesi�tek definicji próbuj�cych przedstawi jej istot�. Autorzy definicji kład� ró�ny nacisk na aspekty generowania wiedzy. J. O. Paliszkiewicz zespoliła najcz�stsze aspekty zarz�dzania wiedza w jedn� definicj�. Autorka za zarz�dzanie wiedz� uznaje „systematyczny i zorganizowany proces lokalizowania, pozyskiwania, transferu, wykorzystywania

    i zachowywania wiedzy, wykorzystuj�cy odpowiednie technologie i �rodowisko kulturowe, którego celem jest wzrost wyniku działalno�ci przedsi�biorstwa” [6, 9].

    Pozyskiwanie i wydobywanie nowej wiedzy z baz danych tekstowych, które stanowi� przed-miot bada� stanowi� obszerny zakres tworzenia wiedzy. Narz�dzia programowe umo�liwiaj� pod-danie procesowi kolejnych faz przetworzenia zbiorów danych tekstowych w taki sposób, by uzy-

    skane wynikowe transformacje baz, umo�liwiały efektywne wykorzystanie narz�dzi analizy opro-gramowanych w danej metodzie [7, 8, 13].

    Klasteryzacja polega na grupowaniu rekordów według ich podobie�stwa w celu otrzymania zbiorów klas w danej bazie danych. Podstawowym zastosowaniem klasteryzacji jest dostarczenie

    u�ytkownikowi pogl�du na zawarto� baz danych, automatyczne kategoryzowanie obiektów oraz wychwytywanie nieprawidłowo�ci w analizowanych danych. Ten sposób wyodr�bniania struktur odpowiednich grup obiektów identyfikowanych poprzez podobie�stwo zawarto�ci tre�ci dokumen-tów staje si� najbardziej interesuj�c� procedur� analizy text mining [4, 5]. Narz�dzia do analiz tekstu (text mining) umo�liwiaj� pozyskiwanie przydatnych informacji z ró�nych dokumentów. Pomagaj�w odkrywaniu wcze�niej nieznanych współzale�no�ci mi�dzy danymi oraz powi�za� mi�dzy anali-zowanymi strukturami, które stanowi� w pracy artykuły naukowe [1, 2, 3].

    Niniejsza praca stanowi kontynuacj� bada� naukowych opublikowanych w angloj�zycznych tomach Studies & Proceedings of Polish Association for Knowledge Management [1, 2, 10]. Prze-

  • Ludosław Drelichowski, Daniel Zwierzchowski Zastosowanie Text Mining do analizy struktury tre�ci artykułów polskoj�zycznych publikacji

    „Studia i Materiały” Polskiego Stowarzyszenia Zarz�dzania Wiedz�

    46

    prowadzone badanie w wy�ej wymienionych artykułach opierało si� na analizie 9 tomów angloj�-zycznych, wykorzystuj�c w tym celu oprogramowanie Rapid Miner (Rapid-I) [11]. Niniejszy bada-nie nale�y traktowa, jako rozwini�cie poprzednich publikacji naukowych. Przeprowadzono analiz�tre�ci tomów polskoj�zycznych i zawartych w nich artykułów, wykorzystuj�c licencjonowane opro-gramowanie Enterprise Miner (SAS) sfinansowane w ramach projektu RCI II1. Przeprowadzone

    badanie text mining pozwala na identyfikacji pewnych zale�no�ci i rozbie�no�ci wyst�puj�cych po-mi�dzy dwoma lub wieloma ró�nymi obiektami badawczymi. Istnieje mo�liwo� wykorzystania wielu ró�nych narz�dzi text mining do bada� ró�nych mo�liwo�ci wydobywania wiedzy z baz da-nych tekstowych. Rodzaje danych �ródłowych mog� stanowi ró�nego typu specjalizowane i uni-wersalne bazy i hurtownie danych analizowane z punktu widzenia okre�lonych merytorycznych i metodycznych zastosowa�.

    W artykule przedstawiono ogóln� charakterystyk� SAS Enterprise Miner, opisano materiał ba-dawczy i metod� bada�. Zaprezentowano analiz� rezultatów zastosowa� text mining przedstawiaj�c statystyk� wyrazów oraz interpretacj� wyników klasteryzacji I i II stopnia.

    2. Charakterystyka oprogramowania SAS Enterprise Miner

    Program SAS Enterprise Miner słu�y do procesu analiz data mining, pozwalaj�c mi�dzy innymi na opisanie modeli analitycznych bazuj�cych na du�ej ilo�ci danych. Oprogramowanie SAS daje si� zastosowa do zło�onych problemów, dzi�ki zintegrowanemu procesowi wspieranemu przez ob-szerny zbiór narz�dzi. Program wykorzystuje graficzne �rodowisko, dzi�ki któremu mo�na budowa

    odpowiednie diagramy procesu przepływu danych. Takie rozwi�zanie pozwala odpowiednio skró-ci czas potrzebny na budow� modeli i przyspiesza dokonywanie analiz. Program SAS Enterprise Miner jest opracowany w taki sposób by wykorzysta w jak najwi�kszym zakresie technologie in-tegracji danych, analityki i narz�dzi raportuj�cych [12].

    SAS Text Miner nie jest oddzieln� aplikacj�, stanowi cz�� programu SAS Enterprise Miner. W najnowszej wersji dostarcza bogatego zestawu narz�dzi lingwistycznych oraz modelowania ana-litycznego słu��cych do odkrywania, ekstrakcji oraz syntezy wiedzy pochodz�cej z wielu dokumen-tów tekstowych. Po przekształceniu tekstu tematy i kompozycje s� identyfikowane, jako wyra�ne zwi�zki. Tak opisane dokumenty mo�na ł�czy w stosowne grupy gotowe do analiz eksploracyjnych lub modelowania. Interaktywna eksploracja pozwala na odnajdowanie wcze�niej nieznanych wzor-ców w zbiorach dokumentów i zastosowanie ich bezpo�rednio w modelach predykcyjnych, maksy-malizuj�c w ten sposób warto� zdobytej wiedzy ze wszystkich �ródeł informacji. Rozwi�zanie to pozwala na oszcz�dno�ci finansowe i ograniczanie zasobów dzi�ki automatyzacji czasochłonnych zada� zwi�zanych z czytaniem i rozumieniem tekstów. Analiza tre�ci odbywa si� przez SAS Text Miner (stanowi rozszerzenie do SAS Enterprise Miner), korzysta on z metod statystycznych i obli-

    czeniowych w nim zaimplementowanych [12].

    Analiza text mining w du�ej mierze zale�y od szybko�ci przetwarzania danych limitowanej moc� obliczeniow� jednostki, na której zainstalowane jest oprogramowanie SAS.

    1 Program finansowany ze �rodków Europejskiego Funduszu Rozwoju Regionalnego w ramach „Realizacji II etapu Regio-nalnego Centrum Innowacyjno�ci”.

  • 47

    Rysunek 1. Okno projektowe programu SAS Enterprise Miner

    �ródło: opracowanie własne.

    3. Statystyki ogólne

    Analizie text mining poddanych zostało 49 tomów polskoj�zycznych. Wszystkie tomy zostały przyporz�dkowane do kolejnej liczby od 1 do 49 (ostatni tom 49 jest tak naprawd� 62 wydanym przez Stowarzyszenie).

    Ł�czna liczba artykułów ze wszystkich polskoj�zycznych tomów wynosi 1 010. Mieszcz� si�one na 12 077 stronach. Całkowita ilo� wyrazów wynosi 3 545 833, stanowi to 23 750 391 znaków bez spacji.

    Najmniejszym obj�to�ciowo, bior�c pod uwag� liczb� stron jest: • tom 7 (91 stron), przeło�yło si� to na 9 artykułów, • tom 28 (98 stron), 9 artykułów,

    • tom 12 (115 stron), 7 artykułów.

    Najwi�kszym z kolei jest: • tom 48, 31 artykułów mie�ci si� na 395 stronach, • tom 37 (390 stron), 30 artykułów,

    • tom 4 (375 stron), 31 artykułów.

    �rednio w ka�dym tomie znajduje si� ponad 20 artykułów, ka�dy tom posiada 246 stron, stanowi to 72 363 wyrazów i 484 701 znaków bez spacji.

    Struktur� ilo�ci artykułów wyst�puj�cych w poszczególnych tomach przedstawia poni�szy wy-kres (rys. 2). Zauwa�y mo�na tutaj pewn� zale�no�, �e z roku na rok liczba artykułów w poszczególnych tomach systematycznie wzrasta.

    Studies & Proceedings of Polish Association for Knowledge Management Nr 64, 2013

  • Ludosław Drelichowski, Daniel Zwierzchowski Zastosowanie Text Mining do analizy struktury tre�ci artykułów polskoj�zycznych publikacji

    „Studia i Materiały” Polskiego Stowarzyszenia Zarz�dzania Wiedz�

    48

    Rysunek 2. Struktura liczby artykułów w poszczególnych tomach

    �ródło: opracowanie własne.

    4. Najcz��ciej wyst�pujce wyrazy

    Program SAS Enterprise Miner pozwala na przeprowadzenie pełnej statystyki wyrazów wyst�-puj�cych w analizowanych dokumentach. Do przeprowadzenia pełnej statystyki nale�y dokona:

    • wst�pnej analizy tekstu polegaj�cej na przetworzeniu zbioru dokumentów w jedn� baz�danych,

    • persowania, czyli tworzenie struktury tekstu,

    • filtrowanie zbioru, usuwanie zb�dnych znaków i cz��ci mowy. Do dyspozycji oddano wiele opcji, które mog� wpłyn� na ostateczne wyniki statystyki wyra-

    zów. Posługuj�c si� stop list� mo�na wykluczy cz�� niepotrzebnych słów, program pozwala tak�e na okre�lenie, z jakich cz��ci mowy nale�y uzyska wyniki (czasowniki, rzeczowniki, przysłówki). Ko�cowe wyniki mo�na sortowa na wiele ró�nych sposobów, pocz�wszy od wyst�powania wyra-zów, przypisania wyrazów do odpowiednich tomów, ko�cz�c na odpowiednich atrybutach.

    !

    �"

    �#

    $"

    �%

    !

    $$

    $$

    #

    $�

    $�

    �$

    $$

    $&

    $�

    $'

    $'

    �#

    ('

    �(

    ('

    !

    �%

    $"

    ('

    $&

    $(

    $$

    ('

    $$

    $'

    (�

    �)

    �#

    �$

    ((

    $'

    �!

    �#

    �#

    $#

    $$

    $)

    �&

    $!

    $#

    $&

    (�

    �$

    ��

    ��

    ��

    ��

    ��

    ��

    ��

    ��

    ��

    ��

    ��

    ��

    ��

    ��

    ��

    ��

    ��

    ��

    ��

    ��

  • 49

    Rysunek 3. Statystyka wyrazów wszystkich artykułów

    �ródło: opracowanie własne.

    Rezultaty przeprowadzonego badania (rys. 3) ukazuj� 10 najcz��ciej wyst�puj�cych wyrazów w 1 010 artykułach, w statystyce brane s� pod uwag� tylko rzeczowniki. Badanie ukazuje, �e naj-cz��ciej wyst�puj�cym wyrazem jest „system”, słowo to wyst�puje a� 17 820 razy w 869 artykułach. Drugim najcz��ciej wyst�puj�cym wyrazem jest „proces”, wyst�powanie na poziomie 10 679 razy, czyli o ponad 7 000 mniej ni� słowo na pierwszym miejscu. Co ciekawe wyraz „proces” wyst�puje w 895 tomach, czyli w wi�kszej ilo�ci ni� słowo „system”.

    5. Statystyki autorów

    Statystyka autorów ukazuje jak du�� baz� danych stanowi� wszystkie tomy polskoj�zyczne. Do grona autorów wszystkich artykułów nale�y zaliczy 894 osób. Nale�y tutaj zwróci uwag�, �e bardzo du�� ilo� artykułów pisał wi�cej ni� jeden autor. Zdarzały si� artykuły pisane przez dwie, trzy, cztery a nawet pi� osób.

    Najwi�ksz� ilo� opublikowanych artykułów w tomach polskoj�zycznych Polskiego Stowarzy-szenia Zarz�dzania Wiedz� uzyskał L. Drelichowski, 26 publikacji. Na kolejnych miejscach sklasy-fikowano J. Studzi�skiego 18 publikacji, A. Straszaka 16 publikacji, R. Budzi�skiego 15 publikacji.

    Autorzy, którzy napisali wi�cej ni� jeden artykuł stanowi� 27% grup� osób, reszta, czyli 73% to autorzy, którzy opublikowali tylko po jednym artykule w polskoj�zycznych tomach Polskiego Stowarzyszenia Zarz�dzania Wiedz�.

    6. Klasteryzacja I stopnia

    W ka�dym klastrze znajduje si� odpowiednia grupa artykułów podobnych do siebie. Pierwsze badanie polegało na wydzieleniu 25 ró�nych tematycznie klastrów.

    Klaster 1 – Artykuły z zakresu in�ynierii zarz�dzania wiedz�, koncentruj�ce si� mi�dzy innymi na atrakcyjno�ci inwestowania w metody zarz�dzania wiedz� w agrobiznesie. Przedstawienie mo-deli i systemów zarz�dzania wiedz�. Zarz�dzanie wiedz� w pracach badawczo rozwojowych. Za-stosowanie analiz data i text mining. Komputerowe wspomaganie zarz�dzania projektami badaw-czymi. Zarz�dzanie wiedz� w organizacji, jako czynnik zmian modeli biznesowych. Klaster ten jest trzeci pod wzgl�dem wielko�ci, znajduje si� w nim 68 artykułów.

    Studies & Proceedings of Polish Association for Knowledge Management Nr 64, 2013

  • Ludosław Drelichowski, Daniel Zwierzchowski Zastosowanie Text Mining do analizy struktury tre�ci artykułów polskoj�zycznych publikacji

    „Studia i Materiały” Polskiego Stowarzyszenia Zarz�dzania Wiedz�

    50

    Klaster 2 – Artykuły z zakresu systemów informatycznych, wykorzystania Internetu czy te�dotycz�ce gospodarki elektronicznej. Ukazanie systemów informatycznych we współczesnych pro-blemach ekologii i ochrony �rodowiska wodnego w krajach unii UE. Struktury informacyjne przy-kładowego procesu monta�u w zintegrowanym systemie informatycznym IFS Applications. Przed-stawienie subiektywnej i obiektywnej oceny systemu informatycznego na przykładzie firmy sprze-

    da�y wysyłkowej. Bezpiecze�stwa w handlu elektronicznym. Integracji kompleksowej karty wyni-ków w systemie informatycznym zarz�dzania. Klaster ten jest drugi pod wzgl�dem wielko�ci, znaj-duj� si� w nim 104 artykuły.

    Klaster 3 – Artykuły z zakresu poj� matematycznych. Nieparametryczne metody statystycz-nego sterowania procesami (SPC). Modelowanie zapyta� i bazy reguł w regułowym j�zyku zapyta�z wykorzystaniem logiki rozmytej. Oceny stopnia wykorzystania technologii informatycznych

    w przedsi�biorstwach według województw z zastosowaniem metod statystycznych. Statystyka pu-bliczna w kształtowaniu społecze�stwa informacyjnego. Weryfikacja przez symulacj� modelu ma-tematycznego systemu produkcyjnego z priorytetami dynamicznymi. Do wy�ej wymienionego kla-stra zostało przypisanych 26 artykułów.

    Klaster 4 – Artykuły z zakresu pracy, gospodarki i zarz�dzania jako�ci�. Identyfikacja proce-sów przedsi�biorstwa odzie�owego na potrzeby budowy modelu rachunku kosztów działa�. Zało-�enia do budowy modelu symulacyjnego poda�y zasobów siły roboczej na rynku pracy. Przegl�d i ocena mierników rozwoju społeczno-gospodarczego. Badanie dojrzałych systemów zarz�dzania jako�ci�. Systemy informatyczne wspomagaj�ce zarz�dzanie �rodowiskiem w przedsi�biorstwach chemicznych. Rola audytów w systemie zarz�dzania jako�ci�, studium przypadku. Do wy�ej wy-mienionego klastra nale�ało 25 artykułów.

    Klaster 5 – Artykuły z zakresu zintegrowanych systemów zarz�dzania, modelowania systemów i procesów. Dobór kryteriów oceny efektywno�ci wdro�e� systemów zintegrowanych do wspoma-gania zarz�dzania przedsi�biorstwami. Model planowania e-działalno�ci w małych i �rednich przed-si�biorstwach. Wybrane aspekty modelowania procesów biznesowych. Mechanizmy funkcjonowa-nia organizacji wirtualnych w uj�ciu strukturalnym i procesowym. Proefektywno�ciowe perspek-tywy spojrzenia na wdro�enie zintegrowanego systemu zarz�dzania. Do wy�ej wymienionego kla-stra nale�ały 33 artykuły.

    Klaster 6 – Artykuły z zakresu marketingu. Zastosowanie teorii zbiorów przybli�onych do oceny preferencji klientów marketingowej hurtowni danych. Metoda klasyfikacji klientów operatora

    telefonii komórkowej w analizie zjawiska rezygnacji. Metody analityczne w działaniach marketin-

    gowych z wykorzystaniem serwisów wyszukiwawczych. Monitorowanie kanałów dystrybucji ko-

    munikatów marketingowych w Internecie. Do wy�ej wymienionego klastra na nale�ało 26 artyku-łów.

    Klaster 7 – Artykuły z zakresu rolnictwa i agrobiznesu. Zasoby pracy oraz zatrudnienie miesz-ka�ców wsi na Białorusi. Przygotowanie teoretyczne absolwentów studiów rolniczych. Powi�zania gospodarczo-informacyjne pomi�dzy rolnikami a organizacjami i podmiotami istotnymi dla gospo-darki �ywno�ciowej. Wiedza, jako czynnik rozwoju polskiego agrobiznesu. Diagnoza stanu przed-si�biorstw sektora rolno-produkcyjnego w zakresie wykorzystania technik komputerowych. Narz�-dzia ułatwiaj�ce przygotowanie planów rozwoju gospodarstw w opinii doradców kujawsko-pomor-skiego o�rodka doradztwa rolniczego i współpracuj�cych z nimi rolników. Do wy�ej wymienionego klastra nale�ały 42 artykuły.

  • 51

    Klaster 8 – Artykuły z zakresu techniki informacyjno-komunikacyjnej. System komunikacyjny MHS dla EDI, jako składnik globalnej infrastruktury informacyjnej. Systemy zarz�dzania zasobami teleinformatycznymi. Identyfikacja ła�cucha warto�ci biur informacji gospodarczej (BIG) w Polsce. Informacja i wiedza w kształtowaniu racjonalno�ci działa� przedsi�biorstwa poprzez outsourcing. Zarz�dzanie informacj� w przedsi�biorstwach gospodarki opartej na wiedzy. Macierzowa metoda analizy struktury systemu informacyjnego. Do wy�ej wymienionego klastra nale�ały 24 artykuły.

    Klaster 9 – Artykuły z zakresu edukacji i konkurencji. Finansowanie tworzenia i przekazywa-nia wiedzy w systemie edukacji. Strategia przodownictwa kosztowego w walce z konkurencj�. Bu-dowa portalu internetowego dla organizacji studenckiej AIESEC Pozna�. Komputerowe wspoma-ganie edukacji personalizowanym e-learningiem. Definicje i standardy repozytorium wiedzy zbu-

    dowanego dla potrzeb prowadzenia procesu nauczania. Liniowa realizacja modeli dynamiki stoso-

    wanych w komputerowych dynamicznych systemach nauczania. Metody pomiaru edukacyjnej war-

    to�ci dodanej. Do wy�ej wymienionego klastra nale�ało 35 artykułów. Klaster 10 – Artykuły z zakresu ekonomii i finansów. Zastosowanie metod sztucznej inteligen-

    cji do identyfikacji czynników ekonomicznych. Produktywno� i efektywno� przedsi�biorstwa. Kompresja danych a ekonomiczna efektywno� systemu przechowywania danych. Aspekty ekono-miczne zarz�dzania wiedz� w organizacji na bazie „distance seminar”. Przegl�d zastosowa� sztucz-nych sieci neuronowych w ekonomicznych problemach klasyfikacji. Procesy konwergencji i dywe-

    rgencji ekonomicznej. Do wy�ej wymienionego klastra nale�ało 29 artykułów. Klaster 11 – Artykuły z zakresu procesów zarz�dzania produkcj�. Model informacyjno-decy-

    zyjny zarz�dzania procesem produkcyjnym. Szkolenia w systemie zapewnienia jako�ci. Algorytm KANBAN w zintegrowanym systemie zarz�dzania produkcj�. Systemy informatyczne zarz�dzania ła�cuchami dostaw. System kontrolingu determinant� sukcesu przedsi�biorstwa. Rynek systemów wspomagaj�cych zarz�dzanie wydajno�ci� przedsi�biorstwa. Innowacyjno� przedsi�biorstw a sys-tem zarz�dzania jako�ci� – wyniki bada�. Do wy�ej wymienionego klastra nale�ało 18 artykułów.

    Klaster 12 – Artykuły z zakresu gospodarki wodno-�ciekowej i zarz�dzania przedsi�bior-stwami wodoci�gowo kanalizacyjnymi. Czynniki wpływaj�ce na spadek zu�ycia wody z wodoci�-gów w Polsce. Zastosowanie analizy skupie� do uporz�dkowania danych o wielko�ci zawiesin wy-st�puj�cych w wodach i �ciekach. Zastosowanie danych z monitoringu w systemie zarz�dzania miej-sk� sieci� wodoci�gow�. Model neuronowy do prognozowania poboru wody w sieci wodoci�gowej. Optymalizacja i sterowanie miejskiej sieci wodoci�gowej na podstawie modeli matematycznych. Hybrydowy system klasyfikuj�cy w inteligentnym wspomaganiu zarz�dzania sieci� wodoci�gow�. Podej�cia stosowane we wspomaganiu sterowania sieci� wodoci�gow�. Do wy�ej wymienionego klastra nale�ało 28 artykułów.

    Klaster 13 – Artykuły z zakresy administracji, samorz�dów, bud�etów i problematyki funkcjo-nowania Unii Europejskiej. Wspomaganie procesu integracji e-urz�du samorz�dowego. Metoda po-dwójnych preferencji w wielokryterialnym problemie decyzyjnym oceny wniosków w ramach pro-

    gramu operacyjnego innowacyjna gospodarka 2007–2013. Wykorzystanie �rodków programu ope-racyjnego kapitał ludzki do rozwoju mechanizmów zarz�dzania wiedz� w przedsi�biorstwie – ana-liza przypadku. Partnerstwo publiczno-prywatne, jako �ródło finansowania przedsi�wzi� inwesty-cyjnych jednostek samorz�du terytorialnego. Koncepcja zarz�dzania strategicznego w jednostce sa-morz�du terytorialnego – aspekty finansowe. Do wy�ej wymienionego klastra nale�ały 53 artykuły.

    Klaster 14 – Artykuły z zakresu innowacji. Znaczenie innowacji w rozwoju małych i �rednich przedsi�biorstw. Technologie informatyczno – ł�czno�ciowo – transportowe szans� przy�pieszenia

    Studies & Proceedings of Polish Association for Knowledge Management Nr 64, 2013

  • Ludosław Drelichowski, Daniel Zwierzchowski Zastosowanie Text Mining do analizy struktury tre�ci artykułów polskoj�zycznych publikacji

    „Studia i Materiały” Polskiego Stowarzyszenia Zarz�dzania Wiedz�

    52

    konkurencyjno�ci i innowacyjno�ci w Polsce wielkich szybko�ci. Zastosowanie programowania dy-namicznego i sieci neuronowych dla sektora bada� naukowych i rozwoju. Przyspieszenie kreatyw-no�ci i innowacyjno�ci w Polsce poprzez zwi�kszanie zastosowa� automatyki, informatyki i cyber-netyki. Innowacyjne sposoby wzrostu małych i �rednich podmiotów gospodarczych. Współczesne rozwi�zania w zakresie modelowania systemów nauczania hybrydowego. Zarz�dzanie finansami gminy z wykorzystaniem innowacji bankowych. Do wy�ej wymienionego klastra nale�ało 31 arty-kułów.

    Klaster 15 – Artykuły z zakresu zarz�dzania ryzykiem. Zarz�dzanie ryzykiem zwi�zanym z dopasowaniem systemu ERP do organizacji. Zarz�dzanie ryzykiem operacyjnym, do�wiadczenia sektora bankowego. Analiza technik stosowanych do gromadzenia informacji o ryzyku w przedsi�-wzi�ciach z bran�y IT. Analiza mo�liwo�ci zastosowania technik wspieraj�cych zarz�dzanie ryzy-kiem w procesach realizacji projektów informatycznych. Piramida ryzyk w przedsi�biorstwie. Po-miar ryzyka IT w przedsi�biorstwie. Do wy�ej wymienionego klastra nale�ało 13 artykułów.

    Klaster 16 – Artykuły z zakresu inteligentnych systemów zarz�dzania. Metody inteligentne w personalizacji. Interaktywne wspomaganie wielokryterialnego wyboru decyzji. Czynniki deter-

    minuj�ce wymogi dla wiedzy stosowanej w dynamicznych inteligentnych systemach nauczania. Do-bór struktury modeli matematycznych procesów w bazie wiedzy dynamicznych inteligentnych sys-

    temów nauczania. Informatyka i inteligentne zarz�dzanie dla potrzeb �rodowiska do rozwi�zywania jego problemów. Informatyka i inteligentne zarz�dzanie w globalnym wysoko zinformatyzowanym �wiecie ludzi oraz globalnej gospodarce rynkowej opartych na wiedzy. Do wy�ej wymienionego klastra nale�ało 11 artykułów.

    Klaster 17 – Artykuły z zakresu konsumentów i �ywno�ci. Potrzeby informacyjne młodych konsumentów �ywno�ci w zarz�dzaniu wiedz�. Analiza zachowa� klientów a wzrost konkurencyj-no�ci przedsi�biorstw. Zasady przebudowy ła�cucha i sieci dostaw na przykładzie najlepszych prak-tyk europejskich w obszarze �ywno�ci. Procesy integracyjne sieci producentów �ywno�ci w wybra-nych krajach UE w �wietle zaspakajania aspiracji konsumentów. Mi�dzyregionalna sie integracji producentów i dystrybucji �ywno�ciowych produktów ekologicznych. Aktywno� zakupowa klien-tów w sieci i jej determinanty. Do wy�ej wymienionego klastra nale�ało 64 artykułów.

    Klaster 18 – Artykuły z zakresu jako�ci systemów informacji. System jako�ci a potrzeby infor-macyjne przedsi�biorstwa. Analiza wykorzystania technologii e-learningowej w przedsi�biorstwie. Kapitał społeczny – poj�cie nowe czy zapomniane. Internet a zmiany poziomu wykorzystania me-diów informacyjnych w gospodarstwach indywidualnych w latach 2002 i 2008. Rola semantyki

    w nowoczesnych systemach informacyjnych e-biznesu. Praktyka zastosowa� strategii zarz�dzania jako�ci� w przedsi�biorstwach. Do wy�ej wymienionego klastra nale�ały 33 artykuły.

    Klaster 19 – Artykuły z zakresu bankowo�ci, finansów i rachunkowo�ci. Problemy oceny wi-tryn bankowo�ci elektronicznej dla klienta indywidualnego wybranych banków w Polsce. Problemy eksploatacji i kierunki rozwoju systemu informatycznego rachunkowo�ci w Uniwersytecie Techno-logiczno-Przyrodniczym w Bydgoszczy. Zarz�dzanie kontami bankowymi na przykładzie aplikacji wykorzystuj�cej standard OFX. Mierniki oceny u�yteczno�ci indywidualnej bankowo�ci elektro-nicznej w Polsce w połowie 2008 roku. Uwzgl�dnienie czynników kryzysu finansowego w ocenie jako�ci usług bankowo�ci elektronicznej. Do wy�ej wymienionego klastra nale�ało 50 artykułów.

    Klaster 20 – Artykuły z zakresu energii, ochrony �rodowiska. Model systemu wspomagania decyzji o lokalizacji odnawialnych �ródeł energii. Niepewno� prognoz w modelowaniu propagacji

  • 53

    zanieczyszcze� atmosferycznych. Metoda wyznaczania strategii redukcji emisji zanieczyszcze� ga-zowych oparta na programowaniu dynamicznym. Wpływ niepewno�ci danych emisyjnych na do-kładno� prognoz zanieczyszcze� atmosferycznych. Wspomaganie decyzji rozdziału �rodków na redukcj� emisji zanieczyszcze� gazowych w długim horyzoncie czasowym. Symulacja handlu po-zwoleniami na emisje z wykorzystaniem modelu dla systemu wieloagentowego. Do wy�ej wymie-nionego klastra nale�ały 22 artykuły.

    Klaster 21 – Artykuły z zakresu słu�by zdrowia. Wykorzystanie pakietów LIMDEP i GRETL do modelowania wynagrodze� personelu słu�by zdrowia w powiatach województwa �l�skiego. Bu-d�et zadaniowy, jako alternatywa bud�etu tradycyjnego w placówkach ochrony zdrowia. Kształto-wanie warunków realizacji strategii e-zdrowie w województwie łódzkim w latach 2007–2013.

    Przedsi�biorczo� na rynku usług medycznych w procesie przekształce� organizacyjnych i własno-�ciowych w Polsce. Wybrane czynniki maj�ce wpływ na funkcjonowanie podmiotów �wiadcz�cych usługi zdrowotne. Analiza konsumpcji leków w Polsce i wybranych krajach. Wybrane aspekty za-

    rz�dzania kapitałem ludzkim w jednostkach słu�by zdrowia. Prewencja działa� mobbingowych w �rodowisku zakładów opieki zdrowotnej. Klaster ten koncentruje 141 artykułów, które dotycz�kompleksowej problematyki ekonomiki i organizacji ochrony zdrowia i stanowi najbardziej liczne

    zgrupowanie artykułów naukowych.

    Klaster 22 – Artykuły z zakresu macierzy, kwantyfikatorów, zbiorów rozmytych, optymaliza-cji podejmowanych decyzji. Funkcja przynale�no�ci zbioru rozmytego – metody konstrukcji i inter-pretacji. Kontekstowy układ współrz�dnych nierównoległych – droga do nieregularnych modeli roz-mytych. Wykrywanie rozmytych wzorców w trendach dla potrzeb prognozowania regułowego. Sy-

    mulacyjna metoda wyznaczania parametrów niezawodno�ciowych systemu przesyłowego o zale�-nych elementach. Procesy wspomagania decyzji w zakresie utrzymania ruchu i eksploatacji maszyn.

    Wspomaganie podejmowania decyzji w zakresie wyboru systemu zarz�dzania dokumentami. Do wy�ej wymienionego klastra nale�ało 40 artykułów.

    Klaster 23 – Artykuły z zakresu bezpiecze�stwa publicznego i kryzysu. Analiza systemowa bezpiecze�stwa cyberprzestrzeni pa�stwa. Infrastruktura krytyczna w modelu bezpiecze�stwa pu-blicznego. Analiza systemowa bezpiecze�stwa sieci logistycznych. Zarz�dzanie regionalnymi zaso-bami logistycznymi w sytuacjach kryzysowych. Zastosowanie technologii GIS we wspomaganiu

    zarz�dzania bezpiecze�stwem publicznym z uwzgl�dnieniem potrzeb. Nowoczesny pakiet oprogra-mowania zabezpieczaj�cego komputerowe stacje robocze, jako element strategii bezpiecze�stwa na wy�szych uczelniach w Polsce. Do wy�ej wymienionego klastra nale�ało 18 artykułów.

    Klaster 24 – Artykuły z zakresu logistyki i transportu. System symulacyjny wspomagaj�cy ocen� projektów infrastrukturalnych w transporcie. Modelowanie procesów logistycznych w przed-si�biorstwie wirtualnym. Infrastruktura logistyczna na przykładzie firmy transportowo-spedycyjnej. Ocena postrzeganej jako�ci pracy słu�b utrzymania ruchu w uj�ciu dostawca-klient wewn�trzny. Stan techniczny i wyposa�enie pojazdów samochodowych a bezpiecze�stwo ruchu drogowego. Me-toda oceny informatycznych systemów wspomagaj�cych słu�by utrzymania ruchu. Elektroniczne procedury przetargowe w polskim systemie zamówie� publicznych. Do wy�ej wymienionego kla-stra nale�ało 36 artykułów.

    Klaster 25 – Artykuły z zakresu mechaniki. Wpływ cech konstrukcyjnych sekcji obudowy zmechanizowanej na sił� przesuwu w trakcie dostawiania sekcji i przeno�nika. Optymalizacja kon-strukcji zł�cza ciernego z klinem oporowym. Wst�pna analiza uszkodze� elementów górniczej ko-

    Studies & Proceedings of Polish Association for Knowledge Management Nr 64, 2013

  • Ludosław Drelichowski, Daniel Zwierzchowski Zastosowanie Text Mining do analizy struktury tre�ci artykułów polskoj�zycznych publikacji

    „Studia i Materiały” Polskiego Stowarzyszenia Zarz�dzania Wiedz�

    54

    rytarzowej obudowy podatnej, na podstawie bada� ankietowych. Analiza porównawcza optymal-nych logicznych drzew decyzyjnych i indukcyjnych drzew systemu DeTreex w optymalizacji dys-

    kretnej układów maszynowych. Badania stanu dynamicznego linii produkcyjnej HOR 6002. Adap-

    tacyjna metoda uczenia maszynowego w systemach klasyfikacji i sortowania przesyłek pocztowych.

    Komputerowe wspomaganie zarz�dzania systemem eksploatacji na przykładzie form produkcyj-nych do wibroprasowania prefabrykatów betonowych. Do wy�ej wymienionego klastra nale�ało 41 artykułów.

    Wykres poni�ej przedstawia kształtowanie si� ilo� artykułów w poszczególnych klastrach (rys. 4).

    Wariant

    klastra

    0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0

    7 03 6 2 9 5 0 3 5 2 8 6 8 9 4 7 1 1 8 8 8 41 1 7 7 0

    Ilo� arty-kułów

    Wariant klastra

    0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5

    8 04 6 5 3 6 2 4 5 9 8 8 3 1 3 1 4 3 0 2 41 0 8 6 1

    Ilo� artykułów

    Wariant klastra

    0 1 2 3 4 5 6 7 8 9 0

    2 8 5 8 0 6 6 4 2 3 5 0 6 1 2 1 07 8 8 9

    Ilo� artykułów

    Rysunek 4. Porównanie ilo�ci artykułów przy 30, 25 i 20 klastrach

    �ródło: opracowanie własne.

    W ka�dym z 25 klastrów znajduje si� odpowiednia liczba publikacji podobnych do siebie. Wy-�ej wymienione badanie nie odnosiło si� tylko do sprawdzenia ilo�ci artykułów w 25 klastrach. Przeprowadzono te� badanie dla 20 i 30 klastrów. Przeprowadzenie badania przy 25 grupach kla-strów pozwoliło na uzyskanie bardzo miarodajnych wyników. Przy badaniu na 20 klastrach artykuły

    zostaj� rozło�one bardzo symetrycznie. Z kolei badanie na 30 klastrach powoduje, i� artykuły dziel�si� bardzo nierównomiernie.

    Zauwa�y mo�na podział tematyczny klastrów na oddzielne 3 grupy. W pierwszej przedsta-wione s� artykuły z zakresy systemów informacyjnych i zarz�dzania wiedz�. Druga grupa to arty-kuły o zró�nicowanej tematyce i znacznym podobie�stwie metodyki bada�. Trzeci� grup� stanowi�artykuły tematyczne zwi�zane z dziedzinami mechaniki i transportu.

  • 55

    7. Klasteryzacja II stopnia

    Klasteryzacji II stopnia poddane zostały 4 najwi�ksze klastry. Klaster 1 (68 artykułów), klaster 2 (104 artykuły), klaster 17 (64 artykułów), oraz klaster 21 (141 artykułów). Kolejny stopie� klaste-ryzacji pozwala na znalezienie dodatkowych informacji i powi�za� pomi�dzy artykułami.

    Klaster 1: Klaster nr 1 – Jest to klaster grupuj�cy 19 artykułów z zakresu in�ynierii zarz�dzania wiedz�

    i biznesu.

    Klaster nr 2 – Klaster grupuj�cy artykuły z zakresu metod i systemów zarz�dzania wiedz�. Znajduje si� tutaj 15 artykułów.

    Klaster nr 3 – Wyst�piły tu artykuły z zakresu systemów sztucznej inteligencji. Do wy�ej wymie-nionego klastra nale�ało 12 artykułów.

    Klaster nr 4 – Klaster 4 grupuje artykuły z zakresu agrobiznesu i bada� rozwojowych. 14 artykułów składa si� na wy�ej wymieniony klaster.

    Klaster nr 5 – Artykuły z zakresu systemów informacyjnych zarz�dzania. Do klastra nale�ało 8 artykułów.

    Klaster 2: Klaster nr 1 – Klaster grupuj�cy 29 artykułów z zakresu systemów zarz�dzania wiedz� oraz artykuły

    zwi�zane z e-wiedz�. Klaster nr 2 – Jest to klaster grupuj�cy 15 artykułów z zakresu zintegrowanych systemów informa-

    cyjnych.

    Klaster nr 3 – Wyst�piły tutaj 25 artykułów z zakresu systemów informatycznych oraz artykuły odnosz�ce si� do baz danych.

    Klaster nr 4 – Zgrupowane w tym klastrze 22 artykułów z zakresu metodyki zarz�dzania i elektroniki.

    Klaster nr 5 – Wyst�piło tu 13 prac z zakresu projektowania systemów zarz�dzania, obiegu i przetwarzania informacji.

    Klaster 17: Klaster nr 1 – Wyst�piły tu prace dotycz�ce badania zachowa� konsumentów, problemów konsump-

    cji �ywno�ci. Do wy�ej wymienionego klastra nale�ało 12 artykułów. Klaster nr 2 – Zgrupowane w tym klastrze 14 artykułów dotyczyło szeroko rozumianego rynku

    �ywno�ci, jego warto�ci oraz produkcji �ywno�ci. Klaster nr 3 – Klaster 3 ujmuje problematyk� z zakresu prowadzenia przedsi�biorstwa

    i konkurencyjno�ci. 16 artykułów składa si� na wy�ej wymieniony klaster. Klaster nr 4 – Klaster grupuj�cy 13 artykułów z zakresu obsługi internetowej, zarz�dzania

    i przetwarzania informacji.

    Klaster nr 5–9 artykułów z zakresu zaspokajania potrzeb klientów oraz wykorzystania ekologicznej

    �ywno�ci. Omawiany klaster II stopnia grupuje wyra�nie problematyk� gospodarki �ywno�ciowej Klaster 21:

    Klaster nr 1 – Klaster grupuj�cy artykuły z zakresu zarz�dzania słu�b� zdrowia i działalno�ci� szpi-tali. Do wy�ej wymienionego klastra zalicza si� 25 artykułów.

    Klaster nr 2 – Wyst�piły tu prace (27 artykułów) z zakresu urynkowienia publicznego sektora słu�by zdrowia i odnosz�ce si� do wyst�puj�cych konsekwencji ilo�ci personelu.

    Studies & Proceedings of Polish Association for Knowledge Management Nr 64, 2013

  • Ludosław Drelichowski, Daniel Zwierzchowski Zastosowanie Text Mining do analizy struktury tre�ci artykułów polskoj�zycznych publikacji

    „Studia i Materiały” Polskiego Stowarzyszenia Zarz�dzania Wiedz�

    56

    Klaster nr 3 – Zgrupowane w tym klastrze 23 artykuły dotyczyły stanu finansów szpitali, zastoso-

    wania systemów bud�etowania a tak�e strategii szpitali. Klaster nr 4 – Klaster nr 4 grupuje 42 artykuły z zakresu, jako�ci opieki zdrowotnej i odpowiedzial-

    no�ci słu�by zdrowia wobec pacjenta. Klaster nr 5 – Wyst�piły tu 24 artykuły z zakresu Human Resource i kształtowania funduszu wyna-

    grodze� w szpitalach. Ten najbardziej liczny klaster grupuje artykuły prezentuj�ce ró�ne aspekty ekonomiczne

    i organizacyjne funkcjonowania i transformacji zakładów opieki zdrowotnej.

    8. Podsumowanie

    Istnieje mo�liwo� wykorzystania wielu ró�nych narz�dzi text mining do bada� zapewniaj�-cych wydobywanie wiedzy z baz danych tekstowych. Rodzaje danych �ródłowych mog� stanowi

    ró�nego typu specjalizowane i uniwersalne bazy i hurtownie danych analizowane z punktu widzenia okre�lonych merytorycznych i metodycznych zastosowa�. Mo�e by równie� celowe kontynuowa-nie bada� dotycz�cych szerszej charakterystyki tre�ci publikacji wydawnictwa „Studia i Materiały” Polskiego Stowarzyszenia Zarz�dzania Wiedz�.

    Wykorzystuj�c licencjonowane oprogramowanie Enterprise Miner (SAS), przeprowadzono analiz� tre�ci tomów polskoj�zycznych i zawartych w nich artykułów. Badanie text mining pozwala na ukazanie pewnych zale�no�ci polegaj�cych na wyodr�bnianiu klastrów reprezentuj�cych zbli-�one tematycznie tre�ci publikacji i kolejnych numerów klastrów o rosn�cej ich rozbie�no�ci tema-tycznej i metodycznej.

    Dokonana analiza klasteryzacji ukazuje rezultaty grupowania artykułów poprzez identyfikacj�ich tre�ci. Przeprowadzone badania ukazały jak rozległa jest merytorycznie i metodycznie tematyka wszystkich artykułów wchodz�cych w skład tomów polskoj�zycznych Polskiego Stowarzyszenia Zarz�dzania Wiedz�. W bezie danych stanowi�cej 1010 artykułów nie wystarczyło przeprowadzi

    klasteryzacji I stopnia. Z 25 klastrów wybrano 4 najliczniejsze klastry i poddano je powtórnej kla-

    steryzacji. Dopiero II poziom badania pozwolił na pełn� ocen� artykułów. Klasteryzacja polega na zestawieniu wyst�puj�cych wyrazów i przyporz�dkowanie najbardziej do siebie podobnych artyku-łów do odpowiednich zbiorów. Podobie�stwo tre�ci artykułów wynika z jednorodno�ci merytorycz-nej problematyki badawczej. Przykładem mo�e by struktura klastra 21 zawieraj�cego artykuły z za-kresu słu�by zdrowia. Klasteryzacja II stopnia pozwoliła z kolei na wyodr�bnienie klastrów doty-cz�cych spraw finansowych i bud�etowych czy problemów jako�ci wyst�puj�cych w ochronie zdro-wia. Klaster 17 precyzyjnie identyfikuje tematyk� artykułów dotycz�cych ró�nych aspektów gospo-darki �ywno�ciowej.

    Nale�y zwróci uwag� na fakt, �e poprzez definiowanie ró�nych parametrów w programie SAS Enterprise Miner wyniki w procesie klasteryzacji mog� od siebie bardzo odbiega. Przeprowadzenie klasteryzacji I stopnia wyró�niaj�cych 25 klastrów doprowadziło do niesymetrycznego pogrupowa-nia artykułów, które wymagały wprowadzenia klasteryzacji II stopnia. �wiadczy to o celowo�ci zastosowania metod dwustopniowej klasteryzacji niezb�dnej dla bardziej precyzyjnej identyfikacji struktury analizowanych baz danych.

  • 57

    Dalsze prace badawcze dotycz�ce mo�liwo�ci wydobywania wiedzy z baz danych tekstowych z zastosowaniem narz�dzi text mining, powinny ewoluowa w kierunku zapewnienia mo�liwo�ci automatycznego wspomagania tworzenia abstraktów przy zró�nicowaniu kryteriów ich generowa-nia.

    9. Literatura

    [1] Drelichowski L., Siwiec J., Application of text mining for analysis and knowledge clustering

    published in scientific journal studies and proceedings of the Polish Association for Knowledge

    Management, PSZW, z. 58, Bydgoszcz 2012.

    [2] Drelichowski L., Bobek S., Bojar W., Ch�sy W., Cilski B., Czechumski W., Feoli E., Fronczak E., Ganis P., Graul C., Gruden T., Gvozdenovi M., Kołodziejski M., Lewandowski R., Łagodzi�ski M., Oszu�cik G., Siwiec J., Sternad S., Wawrzyniak K., Zarzycki H. (2012), Meth-odological aspects and case studies of Business Intelligence applications tools in Knowledge

    Management, PSZW, z. 59 Bydgoszcz 2012.

    [3] Gaizauskas R., Saggion H., „Multi-Document Summarization by Cluster/Profile Relevance

    and Redundancy Removal, Proceedings of the HLT/NAACL Document Understanding Work-

    shop”, Boston 2004.

    [4] Gulczy�ski M., „Techniki „odkrywania wiedzy” (data mining) oraz ich zastosowania”, Zeszyt nr 2 Studia i Materiały, PSZW, Bydgoszcz 2004.

    [5] Han J., Fu Y., Wang W., Chiang J., Gong W., Koperski K., Li D., Lu Y., Rajan A., Stefanovic

    N., Xia B., Zaiane O.R., „DBMiner: A System for Mining Knowledge in Large Relational

    Databases”, Proc. Int'l Conf. Data Mining and Knowledge Discovery, Portland, Oregon,

    August 1996.

    [6] Mikuła B., „Geneza, przesłanki i istota zarz�dzania wiedz�, [w:] Zarz�dzanie wiedz� w organizacji”, pod red. nauk. K. Perechudy, PWN, Warszawa 2005.

    [7] Morzy T., „Eksploracja danych", Nauka 3/2007, Biuro Upowszechniania i Promocji Nauki

    Kancelarii PAN.

    [8] Morzy T., „Odkrywanie asocjacji: Algorytmy i struktury danych”, O�rodek Wydawnictw Naukowych, 2004.

    [9] Paliszkiewicz J. O., „Zarz�dzanie wiedz� w małych i �rednich przedsi�biorstwach – koncepcja oceny i modele”, Wydawnictwo SGGW, Warszawa 2007.

    [10] Polskie Stowarzyszenie Zarz�dzania Wiedz�: http://www.pszw.edu.pl/. [11] Rapid-I: http://rapid-i.com/content/view/181/.

    [12] SAS Institute: http://www.sas.com/offices/europe/poland/.

    [13] Wi�niewski A., „Inferencyjna logika pyta� a scenariusze rozwi�zywania problemów badawczych”, Pozna� 2003.

    Studies & Proceedings of Polish Association for Knowledge Management Nr 64, 2013

  • Ludosław Drelichowski, Daniel Zwierzchowski Zastosowanie Text Mining do analizy struktury tre�ci artykułów polskoj�zycznych publikacji

    „Studia i Materiały” Polskiego Stowarzyszenia Zarz�dzania Wiedz�

    58

    APPLICATION OF TEXT MINING TO ANALYSIS THE STRUCTURE OF ARTICLES POLISH-LANGUAGE PUBLICATION OF „STUDIES & PROCEDNINGS”

    POLISH ASSOCIATION FOR KNOWLEDGE MANAGEMENT

    Summary

    This paper presents the use of text mining tools to study the various possibilities of extracting knowledge from the Polish-language articles published in "Studies and Research" Polish Association for Knowledge Management. Discussed the concept of text mining and brought closer to the database used in the study. An analysis of the clustering of first and second degree, thus showing results of grouping articles by identifying their contents.

    Keywords: knowledge management, text mining, clustering, statistics, scientific publications

    Ludosław Drelichowski

    Daniel Zwierzchowski

    Wydział Zarz�dzania Uniwersytet Tecnologiczno-Przyrodniczy w Bydgoszczy

    ul. Fordo�ska 430, 85-790 Bydgoszcz e-mail: [email protected]