AUTOREFERAT · Tytuł rozprawy: „Data stream mining algorithms based on hybrid ... Drzewa...

Załącznik 2A

do Wniosku o przeprowadzenie postępowania habilitacyjnego w

dziedzinie nauk technicznych w dyscyplinie informatyka

AUTOREFERAT

dr inż. Maciej Jaworski

Politechnika Częstochowska

Wydział Inżynierii Mechanicznej i Informatyki

Instytut Inteligentnych Systemów Informatycznych

Częstochowa, 2018

1. Dane osobowe

Imię i nazwisko: Maciej Jaworski

Adres: Politechnika Częstochowska,

Wydział Inżynierii Mechanicznej i Informatyki,

Instytut Inteligentnych Systemów Informatycznych,

ul. Armii Krajowej 36, 42-200 Częstochowa

e-mail: [email protected]

telefon: +48 662014484

2. Posiadane dyplomy i stopnie naukowe

17.09.2015 Stopień doktora nauk technicznych w dyscyplinie informatyka

(obroniony z wyróżnieniem),

Politechnika Częstochowska,

Wydział Inżynierii Mechanicznej i Informatyki

Tytuł rozprawy: „Data stream mining algorithms based on hybrid

techniques” („Algorytmy eksploracji danych strumieniowych z

wykorzystaniem technik hybrydowych”)

25.11.2011 tytuł zawodowy magistra inżyniera informatyki,

Akademia Górniczo-Hutnicza w Krakowie,

Wydział Fizyki i Informatyki Stosowanej

18.12.2009 tytuł zawodowy magistra fizyki,

Uniwersytet Jagielloński,

Wydział Fizyki, Astronomii i Informatyki Stosowanej

3. Informacje o dotychczasowym zatrudnieniu w jednostkach naukowych

2015 – obecnie: adiunkt naukowy,



Instytut Inteligentnych Systemów Informatycznych.

2010 – 2015: doktorant,



Katedra Inżynierii Komputerowej (od 2012 Instytut Inteligentnych

Systemów Informatycznych).

4. Wskazanie osiągnięcia* wynikającego z art. 16 ust. 2 ustawy z dnia 14

marca 2003 r. o stopniach naukowych i tytule naukowym oraz o

stopniach i tytule w zakresie sztuki (Dz. U. 2016 r. poz. 882 ze zm. w Dz.

U. z 2016 r. poz. 1311.)

4.1 Tytuł osiągnięcia naukowego

Sieci neuronowe i drzewa decyzyjne w zagadnieniach eksploracji

strumieni danych.

4.2 Publikacje wchodzące w skład osiągnięcia naukowego

[1] Maciej Jaworski, Piotr Duda, Leszek Rutkowski, 2018, New Splitting Criteria for

Decision Trees in Stationary Data Streams, IEEE Transactions on Neural Networks

and Learning Systems, vol. 29, no 6, pp. 2162-2529, lista A – 45 pkt, IF=6,11, udział

80%

[2] Maciej Jaworski, Piotr Duda, Leszek Rutkowski, Patryk Najgebauer, Miroslaw

Pawlak, 2017, Heuristic Regression Function Estimation Methods for Data Streams

with Concept Drift, Lecture Notes in Computer Science, Springer, vol. 10246, pp.

726-737, udział 80%

[3] Maciej Jaworski, 2018, Regression Function and Noise Variance Tracking Methods

for Data Streams with Concept Drift, International Journal of Applied Mathematics

and Computer Science, vol. 28, no. 3, pp. 559-567, lista A – 25 pkt, IF = 1,69, udział

100%

[4] Maciej Jaworski, Patryk Najgebauer, Piotr Goetzen, 2018, Estimation of Probability

Density Function, Differential Entropy and Other Relative Quantities for Data Streams

with Concept Drift, Lecture Notes in Computer Science, Springer, vol. 10842, pp.

376-386, udział 80%

[5] Maciej Jaworski, Piotr Duda, Leszek Rutkowski, 2018, On Applying the Restricted

Boltzmann Machine to Active Concept Drift Detection, Proc. of the 2017 IEEE

Symposium Series on Computational Intelligence (SSCI), pp. 3512-3519, udział 80%

[6] Maciej Jaworski, Piotr Duda and Leszek Rutkowski, Concept Drift Detection in

Streams of Labelled Data Using the Restricted Boltzmann Machine, Proc. of the 2018

IEEE International Joint Conference on Neural Networks (IJCNN), pp. 2502-2508,

udział 80%

Tabela 4.1 Podsumowanie dotyczące cyklu publikacji wchodzących w skład osiągnięcia naukowego

Publikacja Udział

habilitanta

Udział pozostałych

autorów

Impact

Factor

Liczba

punktów

[1] 80% 10%, 10% 6,11 45

[2] 80% 5%, 5%, 5%, 5% - 15

[3] 100% - 1,69 25

[4] 80% 10%, 10% - 15

[5] 80% 10%, 10% - 15

[6] 80% 10%, 10% - 15

4.3 Omówienie celu naukowego ww. prac i osiągniętych wyników wraz z

omówieniem ich ewentualnego wykorzystania

Głównym przedmiotem badań w wyżej wymienionych pracach jest zagadnienie

eksploracji strumieni danych. Są to potencjalnie nieskończone ciągi danych, które często

docierają do systemu z olbrzymimi prędkościami. Ponadto, rozkład prawdopodobieństwa,

któremu podlegają dane, może ulegać zmianom w czasie, co w literaturze znane jest pod

angielskim terminem „concept-drift”. Te trzy wymienione cechy strumieni danych powodują,

że tradycyjne metody eksploracji danych statycznych nie mogą na ogół być stosowane w tym

przypadku bez wyraźnych modyfikacji. Algorytmy przeznaczone dla danych strumieniowych

muszą brać pod uwagę fakt, że niemożliwe jest przechowywanie wszystkich danych w

pamięci. Poza tym, algorytmy takie muszą działać odpowiednio szybko. Powszechne jest

podejście, że każda dana może zostać przetworzona przez algorytm co najwyżej raz.

Eksploracji danych jest bardzo szeroką dziedziną, obejmującą różne zagadnienia analizy

danych, takich jak uczenie nadzorowane (klasyfikacja lub regresja) czy estymacja funkcji

gęstości. W tym celu wykorzystuje się różne narzędzia maszynowego uczenia się. W wyżej

wymienione pracach wykorzystywane są drzewa decyzyjne oraz sztuczne sieci neuronowe,

odpowiednio zmodyfikowane tak, aby można jest było zastosować do danych

strumieniowych. Drzewa decyzyjne zostały zastosowane w zagadnieniu klasyfikacji danych,

natomiast sieci neuronowe w regresji oraz estymacji gęstości. Ponadto sieci neuronowe w

postaci Maszyn Boltzmanna zostały w dwóch pracach wykorzystane jako narzędzie do

wykrywania zmian rozkładu danych.

[1] New Splitting Criteria for Decision Trees in Stationary Data Streams

Praca ta dotyczy zastosowania drzew decyzyjnych w klasyfikacji danych strumieniowych.

Najbardziej krytycznym elementem każdego algorytmu indukcji drzew decyzyjnych jest

wybór atrybutu do podziału w każdym rozważanym węźle. Wyboru dokonuje się w oparciu o

wybraną miarę jakości podziału. Wartość miary zależy od próbki danych zgromadzonych w

rozważanym węźle oraz od potencjalnie wybranego atrybutu. Do podziału węzła wybierany

jest atrybut maksymalizujący miarę jakości podziału. W przypadku strumieni danych

dodatkowym problemem jest podjęcie decyzji, czy aktualna liczba danych w węźle jest

wystarczająca do dokonania podziału. Decyzje te podejmuje się w oparciu o tzw. kryteria

podziału. W pracy, po raz pierwszy w literaturze, wyróżniliśmy dwa typy kryteriów podziału.

Kryteria pierwszego typu gwarantują, że z założonym prawdopodobieństwem atrybut

wybrany na podstawie próbki danych jest atrybutem, który maksymalizuje jednocześnie

wartość oczekiwaną miary podziału. Kryteria drugiego typu natomiast skutkują wyborem

atrybutu, który z założonym prawdopodobieństwem jest taki sam, jak gdyby wybór został

dokonany na podstawie całego, nieskończonego strumienia danych. Kryteria drugiego typu

zostały zaproponowane w literaturze stosunkowo niedawno. Przy szacowaniu błędu

popełnianego przy liczeniu wartości miary dla próbki danych wymagają uwzględnienia biasu.

W omawianej pracy zaproponowanych zostało kilka kryteriów dla dwóch miar jakości

podziału: tzw. zysku Giniego oraz miary opartej o błąd klasyfikacji. Do wyznaczenia

kryteriów została zastosowana nierówność McDiarmida, które w przypadku błędu

klasyfikacji jest tożsama z nierównością Hoeffdinga. Co ważne, wszystkie kryteria zostały

uzasadnione matematycznie i opierają się na udowodnionych w pracy twierdzeniach. Ponadto

został zaproponowany szereg tzw. kryteriów hybrydowych, łączących ze sobą kryteria dla

poszczególnych miar. W przypadku kryteriów hybrydowych początkowo sprawdzamy

kryterium dla pierwszej miary (np. zysk Giniego). Jeśli kryterium nie jest spełnione, to

sprawdzamy kryterium dla następnej miary (np. miary opartej o błąd klasyfikacji).

Eksperymenty numeryczne wykazały, że drzewa decyzyjne z kryteriami hybrydowymi

wykazują większe dokładności klasyfikacji niż drzewa decyzyjne z odpowiednimi kryteriami

„pojedynczymi”. W pracy porównano także eksperymentalnie drzewa o kryteriach

hybrydowych z drzewami Hoeffdinga, które zostały uznane za heurystyczne. Dodatkowo

wykonane zostały symulacje z drzewami, dla których oszacowanie występujące w kryterium

podziału równe jest połowie oszacowania występującego w drzewach Hoeffdinga. Te ostatnie

okazały się zapewniać najwyższe wartości dokładności, co pokazuje, że otrzymane na

podstawie analiz teoretycznych kryteria są dość „grube”. Warto więc prowadzić dalsze prace

badawcze w tym temacie, gdyż może to skutkować w przyszłości opracowaniem bardziej

dokładnych, i jednocześnie uzasadnionych teoretycznie, drzew decyzyjnych do eksploracji

danych strumieniowych.

[2] Heuristic Regression Function Estimation Methods for Data Streams with Concept

Drift

W pracy tej przebadane zostało zagadnienie estymacji zmiennej w czasie funkcji regresji.

Metodą bazową, która została wykorzystana do opracowania algorytmów, są tzw. Uogólnione

Regresyjne Sieci Neuronowe. W sieciach tych do śledzenie funkcji regresji wykorzystuje się

tzw. funkcje jądrowe. Co więcej, sieci te można aktualizować w sposób rekurencyjny, nadają

się więc do danych strumieniowych. Istniejące w literaturze sieci neuronowe tego typu

pozwalają na śledzenie zmiennych w czasie funkcji regresji dla ściśle określonych typów

zbieżności oraz dla odpowiedniego tempa zmian. Sieci te są uzasadnione teoretycznie. W

niniejszej pracy podjęliśmy próbę zaimplementowania heurystycznych algorytmów, które

można byłoby stosować do różnych typów zmian. Przyjęta została oczywista zasada, że dane

starsze powinny mieć mniejszy wpływ na estymator funkcji niż dane, które zostały

przetworzone później. W tym celu zaproponowano dwie metody. Pierwsza z nich stosuje tzw.

okna przesuwne. W tym podejściu tylko określona liczba ostatnich danych jest

wykorzystywana do konstrukcji estymatora funkcji regresji w danym czasie. W drugiej

metodzie stosowany jest tzw. „czynnik zapominania”. Wkład poszczególnych danych do

estymatora jest eksponencjalnie zmniejszany wraz z przetwarzaniem kolejnych danych. Im

starsza dana, z tym mniejszą wagą jest brana pod uwagę przy konstrukcji estymatora. W

zaproponowanych metodach nowością jest podejście do ustalania szerokości funkcji

jądrowych używanych w estymatorze. W tradycyjnych Uogólnionych Regresywnych Sieciach

Neuronowych szerokość funkcji jądrowych jest funkcją potęgową liczby przetworzonych

elementów. W przypadku okien przesuwnych liczba danych po przekroczeniu rozmiarów

okna jest stała, stałą więc też pozostaje szerokość funkcji jądrowych. Dla metody z

czynnikiem zapominania trudno jest mówić o konkretnej liczbie danych tworzących

estymator. Można natomiast wyznaczyć odpowiednik tej liczby, będący liczbą rzeczywistą,

który jest sumą wag wszystkich danych wchodzących w skład estymatora.

[3] Regression Function and Noise Variance Tracking Methods for Data Streams with

Concept Drift

Praca ta jest rozszerzeniem poprzednio omawianych metod. Przebadano zaproponowane

metody estymacji zmiennych funkcji regresji dla nowych danych. Ponadto zaproponowano

metody estymacji wariancji szumu, również stosując Uogólnione Regresywne Sieci

Neuronowe jako metodę bazową. Należy nadmienić, że w przypadku funkcji regresji

estymator jest tak naprawdę ilorazem dwóch estymatorów. Estymator w mianowniku jest

estymatorem funkcji gęstości. Jest on kombinacją liniową odpowiednich funkcji jądrowych.

Estymator w liczniku estymuje natomiast iloczyn funkcji gęstości i funkcji regresji. Jest on

kombinacją liniową funkcji jądrowych mnożonych przez wartości funkcji. W przypadku

estymatorów wariancji szumu zaproponowano analogiczne podejście. Estymator w

mianowniku dalej pozostaje estymatorem gęstości. Natomiast w liczniku estymator jest

kombinacją liniową funkcji jądrowych pomnożonych przez kwadraty odchyleń wartości

funkcji od średniej. Do wyznaczania wartości średniej stosowane są omawiane wcześniej

estymatory funkcji regresji. Tak jak poprzednio, zaproponowano heurystyczne estymatory

wariancji szumu w dwóch formach, tzn. z wykorzystaniem okien przesuwnych oraz czynnika

zapominania.

[4] Estimation of Probability Density Function, Differential Entropy and Other Relative

Quantities for Data Streams with Concept Drift

W tej pracy podjęta została tematyka estymacji zmiennych w czasie funkcji gęstości

prawdopodobieństwa. Jest to zagadnienie uczenia nienadzorowanego, w odróżnieniu od

wcześniej omawianych zagadnień klasyfikacji i regresji, które należą do uczenia

nadzorowanego. Jako metodę bazową wykorzystano Probabilistyczne Sieci Neuronowe. W

sieciach tych estymator gęstości można rozumieć jako kombinację liniową odpowiednich

funkcji jądrowych, których środkami są kolejno przychodzące dane. Probabilistyczne Sieci

Neuronowe także mogą być aktualizowane w sposób rekurencyjny, co czyni je stosowalnymi

do strumieni danych. Aby poszerzyć spektrum możliwych typów zmian, z którymi mogłyby

sobie radzić Probabilistyczne Sieci Neuronowe, zaproponowaliśmy dwie heurystyczne

modyfikacje, analogiczne do estymatorów regresji omawianych przy okazji poprzednich prac.

Jedna modyfikacja wprowadza do estymatora okna przesuwne, natomiast druga dodaje do

estymatora czynnik zapominania. Otrzymane estymatory funkcji gęstości zostały następnie

wykorzystane do skonstruowania estymatorów pewnych miar, które charakteryzują rozkład

prawdopodobieństwa. Są to entropia różnicowa oraz kwadratowa różnicowa entropia

Renyi’ego. Zastały także zaproponowane estymatory miar różnic między dwoma rozkładami

prawdopodobieństwa, tzn. dywergencja Cauchy’ego-Schwarza oraz kwadrat różnicy między

dwoma rozkładami. Wszystkie wspomniane estymatory konstruowane są z wykorzystaniem

estymatora funkcji gęstości oraz numerycznego całkowania metodą trapezów.

[5] On Applying the Restricted Boltzmann Machine to Active Concept Drift Detection

W pracy analizowana była możliwość zastosowanie tzw. Ograniczonych Maszyn Boltzmanna

do wykrywania zmian w rozkładzie danych. Jeśli chodzi o metody radzenia sobie ze

zmiennymi rozkładami danych, w algorytmach eksploracji strumieni danych stosowane są

głównie dwa podejścia. W pierwszym z nich mechanizm reagowania na zmiany jest

wbudowany w sam algorytm. W drugim podejściu algorytm wymaga zewnętrznego

narzędzia, które w razie wykrycia zmiany da algorytmowi właściwemu sygnał, iż należy

dokonać przebudowy aktualnego modelu. Niniejsza praca jest właśnie próbą zaproponowania

takiego narzędzia detekcji zmian. Ograniczona Maszyna Boltzmanna jest dwuwarstwową

siecią neuronową (zawiera warstwy widzialną i ukrytą), zdolną do uczenia się rozkładu

przychodzących danych. Dokładne uczenie się Maszyny Boltzmanna metodą gradientów jest

praktycznie niemożliwe, jednak dzięki zastosowaniu tzw. metody „Contrastive Divergence”

można znajdywać dość szybko przybliżone wartości gradientów funkcji kosztu. Dzięki temu

możliwe było zastosowanie tej metody w przypadku strumieni danych. Na początku

zakładamy, że strumień danych jest stacjonarny (nie wykazuje zmian rozkładu). W tej fazie

Maszyna Boltzmanna uczy się rozkładu danych. Następnie nauczona sieć zostaje

wykorzystywana do monitorowania potencjalnych zmian rozkładu. Wykorzystano dwa

wskaźniki, tzn. energię swobodną oraz błąd rekonstrukcji. Jeśli rozkład danych w strumieniu

nie zmienia się względem danych, na których sieć się uczyła, wtedy wartości obu

wskaźników utrzymują się na stałym, niskim poziomie. W przypadku nastąpienia zmian

wskaźniki rosną. Może to zostać wykorzystane jako sygnał do przebudowy właściwego

modelu danych. W celu ułatwienia monitorowania zaproponowano także metodę

inkrementalnego wyznaczania trendu zmian. Wykorzystano zwykłą metodą regresji liniowej

wzbogaconej o czynnik zapominania, gdzie zmienną objaśniającą jest czas, a zmienną

objaśnianą wartość używanego wskaźnika. Symulacje numeryczne wykazały, że Ograniczone

Maszyny Boltzmanna mogą zostać zastosowane w roli detektorów zmian zarówno nagłych

jak i stopniowych.

[6] Concept Drift Detection in Streams of Labelled Data Using the Restricted Boltzmann

Machine

Niniejsza praca jest kontynuacją pracy poprzedniej, w której Ograniczona Maszyna

Boltzmanna została zastosowana jako detektor zmian w rozkładzie danych strumieniowych.

Do Ograniczonej Maszyny Boltzmanna dodano jednak trzecią warstwę typu „softmax”,

połączona tylko z warstwą ukrytą. W warstwie tej tylko jeden neuron w danej chwili może

zostać aktywowany (wartościami warstwy „softmax” są więc wektory typu „one-hot”).

Warstwa umożliwia uczenie się rozkładu danych, które oprócz atrybutów zawierają także

informacje o klasie (są zaetykietowane, tak jak w przypadku zagadnienia klasyfikacji

danych). Podobnie jak w poprzedniej pracy zastosowano metodę uczenia „Contrastive

Divergence”, odpowiednio zmodyfikowaną tak, aby dodatkowo umożliwić uczenie się wag

pomiędzy warstwą ukrytą a warstwą „softmax”. Wykorzystano także dwa wskaźniki do

monitorowania zmian rozkładu, tzn. błąd rekonstrukcji oraz energię swobodną. Ponadto

zastosowano inną metodę śledzenia trendu zmian. Mechanizm z czynnikiem zapominania

zastąpiono oknem przesuwnym, które pozwala dynamiczniej reagować na zmiany w

rozkładzie danych.

5. Omówienie pozostałych osiągnięć naukowo – badawczych

Łączny dorobek publikacyjny habilitanta, z okresów przed i po uzyskania stopnia doktora,

stanowi 38 publikacji. W Tabeli 5.1 przedstawiono rozkład liczby publikacji na publikacje

poszczególnych typów.

Tabela 5. 1 Łączny dorobek habilitanta z okresów przed i po uzyskaniu stopnia doktora

Rodzaj publikacji Liczba publikacji

Publikacje zamieszczone w czasopismach Journal Citation Reports 9

Pozostałe publikacje z bazy Web of Science 20

Pozostałe publikacje 9

Razem 38

Dane bibliograficzne wg. bazy Web of Science, stan na 31.10.2018:

Liczba cytowań: 399 (319 bez autocytowań)

h-index: 12

5.1 Dorobek naukowo – badawczy przed uzyskaniem stopnia naukowego

doktora

Praca habilitanta przed uzyskaniem stopnia naukowego doktora skupiała się głównie wokół

dwóch wątków badawczych: klasyfikacji danych strumieniowych z wykorzystaniem drzew

decyzyjnych oraz grupowania danych strumieniowych. Najbardziej rozwinięty został

pierwszy z wymienionych wątków i był on głównym tematem rozprawy doktorskiej. W

przypadku algorytmów indukcji drzew decyzyjnych dla danych strumieniowych kluczowym

elementem są tzw. kryteria podziału. Pozwalają one stwierdzić, czy z założonym

prawdopodobieństwem atrybut wybrany do podziału rozważanego węzła na podstawie

dotychczas zgromadzonej próbki danych będzie także maksymalizował wartość oczekiwaną

miary jakości podziału. W literaturze najszerzej rozważanym kryterium podziału było

kryterium uzyskane z wykorzystaniem nierówności Hoeffdinga. Habilitant wraz z zespołem

badawczym wykazał jednak, że podejście to jest niewłaściwe, gdyż nierówność Hoeffdinga

nie może zostać zastosowana dla nieliniowych miar jakości podziału, takich jak zysk

informacji czy zysk Giniego. Zaproponowane zostały nowe narzędzia do wyznaczania

kryteriów podziału, tzn. nierówność McDiarmida (będąca uogólnieniem nierówności

Hoeffdinga na szerszą klasę funkcji) oraz aproksymację gaussowską. Dla wspomnianych miar

jakości podziału wyznaczone zostały kryteria podziału, poparte udowodnionymi

twierdzeniami matematycznymi. Zaproponowana została także nowa, dotychczas nigdy nie

stosowana w kontekście danych strumieniowych, miara jakości podziału bazująca na błędzie

klasyfikacji. Dla tej miary uzyskane zostało kryterium podziału z wykorzystaniem

aproksymacji gaussowskiej, również poparte odpowiednim twierdzeniem. Ponadto po raz

pierwszy została zaproponowana idea kryteriów hybrydowych, w ramach których sprawdzane

są kolejno po sobie kryteria dla dwóch różnych miar jakości podziału. W symulacjach

numerycznych okazało się zgodnie z przewidywaniami, że drzewa decyzyjne z hybrydowymi

kryteriami uzyskują znacznie lepsze dokładności klasyfikacji niż drzewa z kryteriami

„pojedynczymi”. Poza pracą doktorską, obronioną z wyróżnieniem, wyniki uzyskane w

ramach omówionych badań zostały także opublikowane w wielu prestiżowych czasopismach

naukowych, tzn. IEEE Transactions on Knowledge and Data Engineering, Information

Sciences oraz IEEE Transactions on Neural Networks and Learning Systems. Za cykl tych

publikacji habilitant otrzymał wraz z zespołem Nagrodę Zespołową I stopnia Rektora

Politechniki Częstochowskiej. W ramach drugiego wątku badawczego, tzn. algorytmów

grupowania danych strumieniowych, zaproponowano dwa algorytmy. Są one modyfikacją

znanych algorytmów grupowania danych, tj. Fuzzy C-Means oraz Probabilistic C-Means. W

zaproponowanych metodach dane przetwarzane są blokami. Po każdym bloku otrzymywane

są centra klastrów (grup) wraz z wagami równymi sumie stopni przynależności danych

wchodzących w skład danego klastra. Następnie wagi te są zmniejszane przez czynnik

zapominania i wraz z kolejnym blokiem danych biorą udział w kolejnym grupowaniu.

5.2 Dorobek naukowo – badawczy po uzyskaniu stopnia naukowego

doktora

5.2.1 Inne prace opublikowane po uzyskaniu stopnia doktora

Na dorobek publikacyjny habilitanta po uzyskaniu stopnia doktora składa się 15 prac, z czego

6 z nich wchodzi w skład przedstawianego osiągnięcia naukowego

Tabela 5.2: Dorobek publikacyjny habilitanta po uzyskaniu stopnia doktora

Rodzaj publikacji Liczba publikacji

Publikacje zamieszczone w czasopismach Journal Citation Reports 5

Pozostałe publikacje z bazy Web of Science 7

Pozostałe publikacje 3

Razem 15

Całkowita liczba cytowań po otrzymaniu stopnia doktora (od 2016 roku): 293.

Do najistotniejszych, spośród publikacji niebędących częścią przedkładanego osiągnięcia

naukowego, zaliczam następujące artykuły

Piotr Duda, Maciej Jaworski, Leszek Rutkowski, 2018, Convergent Time-Varying

Regression Models for Data Streams: Tracking Concept Drift by the Recursive Parzen-

Based Generalized Regression Neural Networks, International Journal of Neural Systems,

vol. 28, no. 02, 1750048

Praca dotyczy nieparametrycznych metod estymacji funkcji regresji w środowisku

niestacjonarnym, z wykorzystaniem funkcji jądrowych Parzena. Estymatory mogą być

aktualizowane dana po danej w sposób rekurencyjny, co odpowiada wymogom stawianym

przez strumienie danych. W pracy analizowane są dwa rodzaje niestacjonarności danych.

Pierwszą z nich jest niestacjonarność rozkładu prawdopodobieństwa szumu (przy stacjonarnej

funkcji regresji). Przyjmuje się, że zmianie ulega wariancja tego rozkładu. W pracy

udowodniono dwa twierdzenia, które przedstawiają warunki, jakie muszą zostać spełnione,

aby estymator funkcji regresji był zbieżny do właściwej funkcji kolejno według

prawdopodobieństwa oraz z prawdopodobieństwem 1. Kolejnym rozważanym rodzajem

niestacjonarności jest jednoczesna zmienność zarówno szumu jak i samej funkcji regresji.

Analogicznie jak w poprzednim przypadku wyznaczone zostały warunki, przy których

estymator zbiega do funkcji według prawdopodobieństwa oraz z prawdopodobieństwem 1, co

również zostało udowodnione. Zaproponowane estymatory zostały porównane

eksperymentalnie z pokrewnymi heurystycznymi metodami, w których zastosowano

mechanizm zapominania oraz okna przesuwne

Piotr Duda, Maciej Jaworski, Leszek Rutkowski, 2017, Knowledge Discovery in Data

Streams with the Orthogonal Series-based Generalized Regression Neural Networks,

Information Sciences, vol. 460-461, pp. 497-518

W tej pracy do estymacji zmiennej w czasie funkcji regresji zastosowano szeregi ortogonalne.

W odróżnieniu od estymatora opartego na funkcjach jądrowych Parzena, estymator ten nie

wymaga definiowania siatki punktów w celu przechowywania jego aktualnych wartości.

Zamiast tego aktualizowana jest pewna liczba początkowych współczynników kombinacji

liniowej funkcji ortogonalnych. Pozwala to na wyliczenie w każdej chwili wartości

estymatora dla dowolnego punktu rozważanej dziedziny. Podobnie jak w poprzednio

omawianej pracy, rozważane były dwa typy niestacjonarności, tj. niestacjonarność samego

szumu oraz niestacjonarność zarówno funkcji regresji jak i szumu. Udowodniono także

odpowiednie twierdzenia matematyczne, ustanawiające warunki, jakie muszą zostać

spełnione, aby proponowany estymator zbiegał do rzeczywistej funkcji według

prawdopodobieństwa oraz z prawdopodobieństwem 1.

Lena Pietruczuk, Leszek Rutkowski, Maciej Jaworski, Piotr Duda, 2017, How to Adjust an

Ensemble Size in Stream Data Mining?, Information Sciences, vol. 381, pp. 46-54

Praca ta jest rozszerzeniem artykułu pt. “A method for automatic adjustment of ensemble size

in stream data mining“, zaprezentowanego podczas konferencji International Joint

Conference on Neural Networks w 2016 roku w Vancouver. Dotyczy ona klasyfikacji danych

strumieniowych z wykorzystaniem metod zespołowych. Praca udziela odpowiedzi na pytanie

w jaki sposób można optymalizować liczbę komponentów w zespole. Przykładowo, po

przetworzeniu kolejnego bloku danych tworzony jest nowy klasyfikator, który potencjalnie

może zostać włączony do zespołu. Aby podjąć decyzję, na danym bloku danych

przeprowadza się test dokładności osobno dla aktualnego zespołu oraz dla zespołu

zawierającego dodatkowo nowoutworzony komponent. Jeśli różnica dokładności spełnia

ustanowione z wykorzystaniem aproksymacji gaussowskiej odpowiednie kryterium, to

oczekujący komponent zostaje włączony do zespołu. W przeciwnym razie nowy komponent

zostaje odrzucony – nie ma potrzeby włączać go do zespołu, gdyż nie zmienia on istotnie

dokładności. Chociaż zaproponowany algorytm może funkcjonować dla dowolnego typu

klasyfikatorów będących komponentami, w eksperymentach numerycznych zastosowano

drzewa decyzyjne. Zaproponowano tutaj jednak kolejną modyfikację. Zamiast przypisywać

jedną wagę dla całego komponentu (drzewa decyzyjnego) wprowadzono osobne wagi dla

każdego z liści w każdym drzewie.

Piotr Duda, Maciej Jaworski, Lena Pietruczuk, Marcin Korytkowski, Marcin Gabryel,

Rafał Scherer, 2016, On the Application of Orthogonal Series Density Estimation for

Image Classification Based on Feature Description, Knowledge, Information and

Creativity Support Systems: Recent Trends, Advances and Solutions, Advances in

Intelligent Systems and Computing, Springer, vol. 364, pp. 529-540

W tej pracy nieparametryczne metody estymacji rozkładów gęstości zostały zastosowane w

zagadnieniu klasyfikacji obrazów. W literaturze istnieje grupa metod klasyfikacji obrazów

polegających na detekcji punktów kluczowych na obrazie. Najbardziej znanymi algorytmami

tej grupy są algorytmy SIFT oraz SURF. W wyniku działania tych algorytmów odnajdywane

są punkty charakterystyczne dla występujących na przetwarzanym obrazie obiektów.

Następnie, każdy punkt kluczowy jest opisywany specjalnym deskryptorem, czyli

wielowymiarowym wektorem liczb, zależnym od otoczenia danego punktu. Finalnie, na

obrazie znajdują się punkty kluczowe zarówno dla obiektu danej klasy jak i dla tła. W

zaproponowanej metodzie rozkład wartości deskryptorów danej klasy został zamodelowany

przez nieparametryczną metodę estymacji z wykorzystaniem szeregów ortogonalnych.

Następnie, w celu zaklasyfikowania nowego obrazu, rozkład wartości deskryptorów jest

porównywany z rozkładami bazowymi dla poszczególnych klas, otrzymanymi w procesie

uczenia. Dla każdej klasy ustalony został w sposób automatyczny próg, determinujący jaki

odsetek deskryptorów musi być zgodny z deskryptorami tej klasy.

5.2.2 Inne osiągnięcia naukowo badawcze po uzyskaniu stopnia doktora

Do innych osiągnięć naukowo-dydaktycznych habilitanta należą między innymi:

Kierowanie międzynarodowymi i krajowymi projektami badawczymi oraz udział w

takich projektach:

1. Algorytmy eksploracji strumieni danych z wykorzystaniem technik hybrydowych,

20.02.2015-19.02.2016, PRELUDIUM, Narodowe Centrum Nauki, kierownik

2. Nowe podejście do modelowania w niestacjonarnym środowisku, 01.10.2015-

29.12.2018, OPUS, Narodowe Centrum Nauki, wykonawca („post-doc”)

3. Rozwój metod głębokiego uczenia sieci neuronowych, 08.10.2018 – obecnie,

OPUS, Narodowe Centrum Nauki, wykonawca („post-doc”)

Aktywny udział w międzynarodowych konferencjach naukowych:

1. The 2018 International Joint Conference on Neural Networks (IJCNN), Rio de

Janeiro, Brazylia, 2018,

2. The 17th International Conference on Artificial Intelligence and Soft Computing

(ICAISC), Zakopane, Polska, 2018,

3. The 2017 IEEE Symposium Series on Computational Intelligence (IEEE SSCI

2017), Honolulu, Stany Zjednoczone Ameryki Północnej, 2017,





6. The 2016 International Joint Conference on Neural Networks (IJCNN),

Vancouver, Kanada, 2016

Współorganizacja workshopu: „Stream Data Mining" w ramach konferencji The 16th

International Conference on Artificial Intelligence and Soft Computing ICAISC 2017

Członkostwo w międzynarodowych i krajowych organizacjach naukowych:

1. Polskie Towarzystwo Sieci Neuronowych (PTSN): 2018 – obecnie,

2. Polska Grupa Maszynowego Uczenia Się (Polish-SIGML): 2013 – obecnie

Opieka naukowa nad doktorantem w charakterze promotora pomocniczego:

Paweł Staszewski, Wydział Inżynierii Mechanicznej i Informatyki, Politechnika

Częstochowska, otwarcie przewodu 21.06.2018, tytuł rozprawy: „Hybrydowe

struktury do segmentacji obrazów z wykorzystaniem metod głębokiego uczenia”

Wykonywanie recenzji prac naukowych dla następujących czasopism:

1. IEEE Transaction on Cybernetics

2. Journal of Applied Mathematics and Computational Mechanics

3. The Very Large Data Bases Journal

4. Journal of Experimental and Theoretical Artificial Intelligence

5.3 Osiągnięcia dydaktyczne i w zakresie popularyzacji nauki w okresie po

uzyskaniu stopnia naukowego doktora

Współorganizacja „Gry miejskiej” w ramach V edycji Projektu „Młodzi Kreatywni”

realizowanego z Urzędem Miasta Częstochowy, 2018, Częstochowa

Laboratoria pt. „Podstawy konstrukcji i programowania robotów z klocków LEGO

Mindstorms EV3” w ramach Częstochowskiego Uniwersytetu Młodzieżowego, 2017-

2018, Częstochowa

Wykłady popularyzatorskie nt. sztucznej inteligencji wraz z prezentacją możliwości

programowania robotów LEGO Mindstorms EV3 dla młodzieży ze szkół

częstochowskich, 2017-2018, Częstochowa

Zajęcia z programowania robotów LEGO Mindstorms EV3 w ramach warsztatów

„Devox4kids”, 2016, Radomsko

AUTOREFERAT · Tytuł rozprawy: „Data stream mining algorithms based on hybrid ... Drzewa...

Documents

Transcript of AUTOREFERAT · Tytuł rozprawy: „Data stream mining algorithms based on hybrid ... Drzewa...