AUTOREFERAT - wimii.pcz.pl · Dane Osobowe Imię i Nazwisko: Piotr Duda Adres: ... Leszek...

Załącznik 2A

do Wniosku o przeprowadzenie postępowania habilitacyjnego w

dziedzinie nauk technicznych w dyscyplinie informatyka

AUTOREFERAT

dr Piotr Duda

Politechnika Częstochowska

Wydział Inżynierii Mechanicznej i Informatyki

Instytut Inteligentnych Systemów Informatycznych

Częstochowa, 2018

1. Dane Osobowe

Imię i Nazwisko: Piotr Duda

Adres: Politechnika Częstochowska, Wydział Inżynierii Mechanicznej i Informatyki, Instytut Inteligentnych Systemów Informatycznych, ul. Armii Krajowej 36, 42-200 Częstochowa

e-mail: [email protected]

nr tel.: +48 504 667 493

2. Posiadane dyplomy i stopnie naukowe

2015 - Stopień doktora nauk technicznych w dyscyplinie informatyka (obroniony z wyróżnieniem), Politechnika Częstochowska, Wydział Inżynierii Mechanicznej i Informatyki, Tytuł rozprawy: „Data stream classification algorithms” („Algorytmy klasyfikacji danych strumieniowych”)

2009 - Tytuł zawodowy magistra nauk matematycznych,

Uniwersytet Śląski,

Wydział Matematyki, Fizyki i Chemii

3. Informacje o dotychczasowym zatrudnieniu w jednostkach naukowych/ artystycznych.

2015 – obecnie: adiunkt naukowy, Politechnika Częstochowska, Wydział Inżynierii Mechanicznej i Informatyki, Instytut Inteligentnych Systemów Informatycznych.

2010 – 2015: doktorant, Politechnika Częstochowska, Wydział Inżynierii Mechanicznej i Informatyki, Katedra Inżynierii Komputerowej (od 2012 Instytut Inteligentnych

Systemów Informatycznych).

4. Wskazanie osiągnięcia* wynikającego z art. 16 ust. 2 ustawy z dnia 14 marca 2003 r. o

stopniach naukowych i tytule naukowym oraz o stopniach i tytule w zakresie sztuki (Dz.

U. 2016 r. poz. 882 ze zm. w Dz. U. z 2016 r. poz. 1311.):

4.1 Tytuł osiągnięcia naukowego

Problemy klasyfikacji i regresji w analizie niestacjonarnych strumieni danych.

4.2 Publikacje wchodzące w skład osiągnięcia naukowego

1) Piotr Duda, Maciej Jaworski, Leszek Rutkowski, 2018, Convergent Time-Varying

Regression Models for Data Streams: Tracking Concept Drift by the Recursive Parzen-

mailto:[email protected]

Based Generalized Regression Neural Networks, International Journal of Neural Systems,

Vol. 28, Issue 02, 1750048, IF=4,58, udział: 80%

2) Piotr Duda, Maciej Jaworski, Leszek Rutkowski, 2018, Knowledge discovery in data

streams with the orthogonal series-based generalized regression neural networks,

Information Sciences, Vol. 460–461, pp. 497-518, IF=4,305, udział=80%

3) Lena Pietruczuk, Leszek Rutkowski, Maciej Jaworski, Piotr Duda, 2016, A method for

automatic adjustment of ensemble size in stream data mining, Neural Networks (IJCNN),

2016 International Joint Conference on, IEEE, pp. 9-15, udział=10%

4) Lena Pietruczuk, Leszek Rutkowski, Maciej Jaworski, Piotr Duda, 2017, How to adjust an

ensemble size in stream data mining?, Information Sciences, Vol. 381, pp. 46-54,

IF=4,305, udział=10%

5) Piotr Duda, Maciej Jaworski, Leszek Rutkowski, 2017, On ensemble components

selection in data streams scenario with reoccurring concept-drift, in prc. of 2017 IEEE

Symposium Series on Computational Intelligence (SSCI), IEEE, pp. 1821-1827, udział=80%

6) Piotr Duda, 2018, On Ensemble Components Selection in Data Streams Scenario with

Gradual Concept-Drift, Lecture Notes in Computer Science, Springer, Vol. 10842, pp 311-

320, udział=100%

7) Piotr Duda, Lena Pietruczuk, Maciej Jaworski, Adam Krzyzak, 2016, On the Cesàro-

Means-Based Orthogonal Series Approach to Learning Time-Varying Regression

Functions, Lecture Notes in Computer Science, Springer, Vol. 9693, pp. 37-48,

udział=70%

8) Piotr Duda, Maciej Jaworski, Leszek Rutkowski, 2018, Online GRNN-Based Ensembles for

Regression on Evolving Data Streams. In: Huang T., Lv J., Sun C., Tuzikov A. (eds)

Advances in Neural Networks – ISNN 2018. ISNN 2018. Lecture Notes in Computer

Science, vol 10878., pp 221-228, Springer, udział=80%

Tabela 1: Podsumowanie cyklu publikacji wchodzących w skład osiągnięcia naukowego

Publikacja Udział

habilitanta

Udział pozostałych

współautorów

Impact

Factor

Punkty

[1] 80% 10%, 10% 4,58 40

[2] 80% 10%, 10% 4,305 45

[3] 10% 70%,10%, 10% - 15

[4] 10% 70%,10%, 10% 4,305 45

[5] 80% 10%, 10% - 15

[6] 100% - - 15

[7] 70% 10%, 10%, 10% - 15

[8] 80% 10%, 10% - 15

4.3 Omówienie celu naukowego ww. prac i osiągniętych wyników wraz z omówieniem ich

ewentualnego wykorzystania.

Wraz ze wzrostem liczby wytwarzanych danych, zwiększa się zapotrzebowanie na coraz

sprawniejsze algorytmy umożliwiające ich analizę. Jednym z problemów, którym zajmują się

współcześnie badacze jest analiza tzw. strumieni danych. W podejściu tym zakładamy, że

dane są generowane i odczytywane na bieżąco. Oznacza to, że nie jesteśmy w stanie

przewidzieć jakie dane zostaną przesłane do sytemu nawet w najbliższej przyszłości. Pociąga

to za sobą szereg konsekwencji, takich jak np. niemożliwość ustalenia wielkości zbioru

uczącego. W efekcie projektant systemu analizującego ten typ danych musi wziąć pod uwagę

pewne ograniczania, nie uwzględniane w przypadku klasycznych metod uczenia

maszynowego. Można wskazać trzy najistotniejsze ograniczenia kładzione na algorytmy

przetwarzające strumienie danych, tj.:

- dane nie mogą być stale przechowywane. Wobec nieznanej wielkości strumienia należy

założyć, że jest on dowolnie duży. Algorytm musi być w stanie w jak najkrótszym czasie

zagregować informacje zawartą w bieżącej danej włączając ją w uczony model. Optymalnie

dana powinna zostać przetworzona tylko raz, przed pojawieniem się kolejnej;

- algorytm musi w być w stanie udzielić odpowiedzi w dowolnym momencie. W przypadku

systemów, w których dane mogą być produkowane nieustannie, nie możemy założyć a priori

tempa przychodzenia danych. Z tego powodu należy minimalizować czas jaki algorytm

potrzebuje do przetworzenia danych. Należy unikać czasochłonnych technik uczenia jak np.

uczenie epokowe czy techniki ewolucyjne;

- rozkład przychodzących danych może zmieniać się w czasie analizowania strumienia.

Różnice te mogą dotyczyć zarówno zmiennych objaśniających, jaki i zmiennej objaśnianej.

Zjawisko niestacjonarności danych w kontekście strumieni danych nazywa się concept-

driftem. Problem zaprojektowania systemu cechującego się odpowiednio szybką i dokładną

reakcją na zaistniałą niestacjonarność jest szczególnym wyzwaniem dla badaczy. Wymaga

on, aby algorytm był w stanie przebudować estymowany model w dowolnym momencie i

dostosować się do zaistniałych zmian.

Główny nacisk w przedstawianych pracach został położony na techniki uczenia

nadzorowanego, tj. klasyfikację i regresję. Cechą wspólną wszystkich prac zaliczonych do

osiągnięcia jest rozważanie systemów działających w niestacjonarnym środowisku.

1) Convergent Time-Varying Regression Models for Data Streams: Tracking Concept

Drift by the Recursive Parzen-Based Generalized Regression Neural Networks

Główny nacisk w omawianej pracy został położony na teoretyczną analizę

nieparametrycznych metod regresji z wykorzystaniem probabilistycznych sieci neuronowych

opartych o tzw. jądra Parzena. Metody nieparametryczne pozwalają na estymację szerszego

spektrum typu funkcji niż metody parametryczne. Jest to szczególnie istotne w analizie

strumieni danych wobec dowolności zmian jakie mogą zachodzić w strumieniu. Zastosowano

tu metodę regresji opartej na jądrach Parzena. Pozwala ona na przyrostowe uczenie

estymatora. Oznacza to, że stosowana metoda nie wymaga przechowywania uprzednio

zgromadzonych danych. Zamiast tego, w każdym ustalonym wcześniej punkcie w którym

chcemy badać wartość regresji, wartość estymatora jest obliczana jedynie na podstawie

nowo przybyłej danej oraz poprzednio ustalonej wartości.

W pracy rozważane są dwa rodzaje niestacjonarności.

- W pierwszym przypadku zadaniem jest estymacja stacjonarnej funkcji regresji, wobec

występowania niestacjonarnego szumu w danych przychodzących do systemu.

Niestacjonarność szumu jest wyrażona poprzez zmiany w rozkładzie prawdopodobieństwa z

jakiego szum jest generowany. W szczególności zakładamy, że zmianom może ulec wariancja

rozkładu (dopuszczamy, że może ona dążyć do nieskończoności). W omawianej pracy,

kolejno w twierdzeniach 1 i 2, przedstawione są warunki jakie muszą być spełnione, aby

zapewnić zbieżność prezentowanego estymatora według prawdopodobieństwa oraz z

prawdopodobieństwem 1.

- W drugim przypadku rozważanym zadaniem jest estymacja niestacjonarnej funkcji regresji,

wobec występowania niestacjonarnego szumu w danych przychodzących do systemu. W

omawianej pracy, kolejno w twierdzeniach 3 i 4, przedstawione są warunki jakie muszą być

spełnione, aby zapewnić zbieżność prezentowanego estymatora według

prawdopodobieństwa oraz z prawdopodobieństwem 1.

Praca zawiera również szereg przykładów (przykłady od 1 do 6) prezentujących kryteria

wyborów parametrów w przypadku wystąpienia różnych rodzajów niestacjonarności

(przyrostowej, powtarzającej się, mieszanej).

W ramach oceny działania proponowanych algorytmów przeprowadzono szereg symulacji w

oparciu o dane syntetyczne, demonstrujących zgodność otrzymywanych rezultatów z

przedstawioną analizą teoretyczną. Dodatkowo porównano omawiane algorytmy z

klasycznym estymatorem regresji dostosowanym do niestacjonarnego środowisko poprzez

zastosowanie mechanizmu okien przesuwnych oraz metody zapominania. Praca przedstawia

również możliwość zastosowania omawianych metod do rzeczywistych zadań takich jak,

śledzenia zależności pomiędzy zmieniającymi się kursami wymiany walut.

2) Knowledge discovery in data streams with the orthogonal series-based generalized

regression neural networks

Ta praca dotyczy zastosowania szeregów ortogonalnych jako narzędzia do estymacji funkcji

regresji w niestacjonarnym środowisku. Stosując estymator oparty na jądrach Parzena,

użytkownik jest w zmuszony badać wartość w każdym interesującym go punkcie z osobna. W

przypadku zastosowania szeregów ortogonalnych możliwe jest przyrostowe aktualizowanie

jedynie pewnych parametrów, które umożliwiają wyliczenie wartości estymowanej funkcji w

dowolnym punkcie dziedziny.

W artykule analizowane są dwa typy niestacjonarności: niestacjonarność zaszumienia danych

oraz zmieniająca się funkcja regresji. Kolejno w twierdzeniach 1 i 2 wykazana jest zbieżność

(według prawdopodobieństwa oraz z prawdopodobieństwem jeden) estymatora w

przypadku zmiennego zaszumienia, a w twierdzeniach 3 i 4 zbieżność (według

prawdopodobieństwa oraz z prawdopodobieństwem jeden) do zmieniającej się funkcji.

Praca zawiera również przykłady pokazujące jak w przypadku konkretnych typów zmian

dobierać parametry modelu. Poza analizą teoretyczną znaczenie każdego z tych parametrów

zostało również sprawdzone eksperymentalnie.

3) A method for automatic adjustment of ensemble size in stream data mining

Praca porusza problem tworzenia klasyfikatorów w kontekście strumieni danych. Jedną z

najpopularniejszych w literaturze oraz skutecznie działającą w praktyce metod jest tworzenie

zespołów klasyfikatorów. Ogólny schemat działania takich metod przebiega w następujących

krokach:

- na podstawie próbki, ostatnio przybyłych ze strumienia danych, uczony jest

klasyczny klasyfikator (zwany słabym klasyfikatorem),

- nowo utworzony słaby klasyfikator może zostać włączony do modelu,

- dla każdej nowo przybyłej danej klasa nadawana jest jako zagregowana odpowiedź

wszystkich komponentów zespołu.

Dla badaczy ciągle otwartym problem pozostaje ustalenie odpowiedniego kryterium

decydującego kiedy nowo utworzony słaby klasyfikator powinien zostać włączony do

zespołu, a kiedy z niego usunięty.

W omawianej pracy zaproponowana algorytm ASE (The Automatically Adjusting Size of

Ensemble Algorithm), który decyzję o włączeniu lub nie włączaniu nowego komponentu do

zespołu podejmuje na podstawie zaproponowanego testu statystycznego. Przyjęte kryterium

zapewnia, że nowy komponent wniesie istotny wkład w działanie zespołu nie tylko dla

bieżącej paczki danych, ale również dla całego strumienia. W celu umożliwienia algorytmowi

dostosowywania się do zachodzącego concept-driftu zaproponowano również test

decydujący kiedy dany komponent zespołu powinien być usunięty. Test wskazuje na

usunięcie słabego klasyfikatora jeżeli jego pozostawienie w zespole pogarsza w sposób

znaczący działanie zespołu dla całego strumienia. Omawiane testy zostały przedstawione w

pracy w postaci twierdzeń 1 i 2.

Działanie algorytmu ASE zostało sprawdzone eksperymentalnie dla różnych typów concept-

driftu (nagły oraz stopniowy) w różnym stopniu nasilenia. Otrzymane wyniki zostały

porównane z innymi popularnymi algorytmami klasyfikacji danych strumieniowych.

4) How to adjust an ensemble size in stream data mining?

Praca ta jest rozszerzeniem pracy “A method for automatic adjustment of ensemble size in

stream data mining“. Ponownie poruszany jest temat doboru komponentów do zespołu w

celu klasyfikacji danych strumieniowych. Zaproponowano algorytm DEEA (The Dynamically

Expanded Ensemble Algorithm ) w którym kolejno tworzone komponenty to drzewa

decyzyjne. Przedstawione jest kryterium pozwalające określić użytkownikowi w jakim

stopniu nowo utworzony słaby klasyfikator ma wpłynąć na dokładność całego zespołu.

Zaproponowano również nowe kryterium ważenia odpowiedzi uzyskanych z każdego

komponentu. Zamiast utrzymywać jedną wagę dla całego komponentu zaproponowano, aby

każdy liść posiadał własną.

Działanie algorytmu zostało potwierdzone poprzez przeprowadzenie licznych

eksperymentów na danych rzeczywistych, a otrzymane wyniki zostały porównane z

najpopularniejszymi algorytmami przetwarzania danych strumieniowych.

5) On ensemble components selection in data streams scenario with reoccurring

concept-drift

Szczególnym typem niestacjonarności rozważanym w pracach dotyczących analizy danych

strumieniowych jest występowanie powtarzającego się concept-driftu. Mówimy o tym typie

niestacjonarności w przypadku gdy wiemy, że dane będą generowane z kilku rozkładów

danych zmieniających się między sobą co jakiś, nieokreślony czas. Przykładem takiego

zjawisko może być sezonowość w danych. Omawiany artykuł dostosowuje algorytm ASE do

działania w takim środowisku.

Jednym z kluczowych mechanizmów każdego algorytmu zespołowego, jest sposób

podejmowania decyzji o usunięciu komponentu z zespołu. W algorytmie ASE, każdy jeden

komponent zespołu jest usuwany, jeżeli jego udział w podejmowaniu decyzji ma negatywny

wpływ na działanie całego zespołu. W przypadku powtarzających się zmian rozkładów

danych może to spowodować trwałe usunięcie z zespołu wiedzy, którą chcielibyśmy

przechować w celu wykorzystania jej w przyszłości.

W celu rozwiązania tego problemu zaproponowano algorytm ASE-TC (Automatically

Adjusting Size of Ensemble Algorithm with Temporal Changes), który modyfikuje kryterium

usunięcia komponentu z zespołu. W omawianej pracy zaproponowano dodanie

dodatkowego testu. W szczególności, porównywany jest rozkład odpowiedzi zespołu oraz

pojedynczego komponentu. W tym celu wykorzystywana jest dywergencja Kullbacka-

Leiblera (KLD). Jeżeli otrzymana wielkość KLD jest większa niż założony przez użytkownika

próg (oznaczony λ) wówczas, badany komponent nie zostanie usunięty z zespołu.

Działanie algorytmu zostało przebadane eksperymentalnie pod względem wielkości

wykorzystywanych paczek danych do uczenia komponentów, wielkość założonego progu λ

oraz głębokości drzew wykorzystywanych jako słabe klasyfikatory. Otrzymana dokładność

klasyfikacji została również porównana z innymi popularnymi metodami zespołowymi.

6) On ensemble components selection in data streams scenario with gradual concept-

drift

Jednym z czterech najpopularniejszych typów niestacjonarności omawianych w kontekście

danych strumieniowych jest stopniowy concept-drift. Mówimy o tym typie niestacjonarności

jeżeli częstotliwość pojawiania się danych generowanych z danego rozkładu zmniejsza się

stopniowo, natomiast dane pochodzące z nowego rozkładu pojawiają się coraz częściej.

Celem opisywanej pracy była próba usprawnienia działania algorytmu ASE, w przypadku

występowania stopniowego concept-driftu Algorytm ASE dopuszcza włączenie nowego

słabego klasyfikatora jedynie, jeżeli polepsza on w znaczącym stopniu działanie całego

zespołu. Ocena skuteczności działania zespołu odbywa się na tzw. zasadzie prequential

evaluation. Oznacza to, że nowo utworzony klasyfikator będzie oceniany dopiero na

podstawie kolejnej (względem tej na której był uczony) paczki danych. Możliwa jest zatem

sytuacja w której jedna paczka danych będzie zawierała w większości dane pochodzące z

nowego rozkładu, a w kolejnej paczce danych będą przeważały dane ze starego rozkładu. W

takiej sytuacji algorytm ASE nie pozwoli na zachowanie wiedzy, która może okazać się

użyteczna w przyszłości. W celu rozwiązania tego problemu zmodyfikowano kryterium

dodawania komponentów do zespołu, poprzez dodanie nowego testu. Porównywany jest w

nim rozkład odpowiedzi zespołu oraz pojedynczego komponentu na podstawie odległości

Hellingera. Otrzymana wielkość porównywana jest z wartością progową wskazaną przez

użytkownika.

Działanie algorytmu zostało przebadane eksperymentalnie pod względem wielkości

wykorzystywanych paczek danych do uczenia komponentów, wysokości założonego progu

oraz głębokości drzew wykorzystywanych jako słabe klasyfikatory.

7) On the Cesàro-Means-Based Orthogonal Series Approach to Learning Time-Varying

Regression Functions

W tym artykule została zaproponowana nieparametryczna metoda śledzenie niestacjonarnej

funkcji regresji oparta o metodę tzw. średnich Cesaro. Metoda ta pozwala na badanie

zbieżności szerszego spektrum szeregów ortogonalnych niż klasyczne metody. W artykule

przedstawiona jest zbieżność proponowanego algorytmu według prawdopodobieństwa.

Przeprowadzono również symulacje numeryczne z wykorzystaniem szeregów Furiera, w

szczególności, z użyciem tzw. jąder Fejera. Przeprowadzone symulacje potwierdziły zgodność

analizy teoretycznej z oczekiwanymi rezultatami.

8) Online GRNN-Based Ensembles for Regression on Evolving Data Streams

Analizowane w poprzednich pracach metody śledzenia niestacjonarnej funkcji regresji

umożliwiają śledzenie szerokiego spektrum zmian, nie są jednak w stanie skutecznie

zareagować na natychmiastową zmianę rozkładu danych. W celu usprawnienia ich działania

zaproponowano stworzenia zespołu uogólnionych regresyjnych sieci neuronowych.

Zaproponowany algorytm E-GRNN (Online GRNN-Based Ensembles) inicjuje po otrzymaniu

określonej liczby danych nowy estymator regresji. Wraz z napływem danych uaktualniane są

wszystkie komponenty zespołu. Po zebraniu całej paczki danych komponenty zespołu

podlegają ocenie. Odpowiedź zespołu zostaje ustalona jako średnia ważona wszystkich

estymatorów zgromadzonych w zespole. Wagi dla poszczególnych składowych zespołu

ustalane są jako odwrotność miary zwanej częścią niewyjaśnionej wariancji. Przeprowadzone

symulacje wykazały, że zastosowanie metody zespołowej polepsza uzyskiwane wyniki.

5. Omówienie pozostałych osiągnięć naukowo - badawczych.

Łączny dorobek publikacyjny habilitanta, z okresów przed i po uzyskania stopnia doktora,

stanowi 35 publikacji. W Tabeli 1 przedstawiono rozkład liczby publikacji na publikacje

poszczególnych typów.

Tabela 2: Wszystkie opublikowane publikacje

Rodzaj publikacji Liczba publikacji

Publikacje zamieszczone w czasopismach Journal Citation Reports 8

Pozostałe publikacje z bazy Web of Sience 19

Pozostałe publikacje 7

Razem 34

Dane bibliograficzne:

Liczba cytowani: 398 ( 325 bez autocytowań)

h-index: 12

5.1 Dorobek naukowo – badawczy przed uzyskaniem stopnia naukowego doktora.

W mojej pracy badawczej przed uzyskaniem stopnia naukowego doktora zajmowałem się

przede wszystkim zagadnieniem klasyfikacji statycznych danych strumieniowych (bez

występowania concept-driftu). Wraz z zespołem wykryliśmy błąd w jednym z

najpopularniejszych algorytmów analizy takich danych nazwanym drzewami Hoeffdinga.

Metoda ta pozwalała na tworzenie drzew decyzyjnych z statycznych strumieni danych.

Autorzy oryginalnej pracy, która posiadała setki cytowani, pokazują jak konstruować drzewa

decyzyjne bez konieczności wielokrotnego przetwarzania tych samych elementów.

Kluczowym elementem algorytmu było kryterium doboru atrybutu do dokonania podziału w

węźle drzewa decyzyjnego. Zaproponowano tam tzw. kryterium Hoeffdinga, które było

matematycznie uzasadniane z wykorzystaniem nierówności Hoeffdinga. Wykazaliśmy, jako

pierwsi na świecie, że zaproponowana metoda nie może być łączona z najpopularniejszymi

miarami jakości podziału, jak przyrost informacji, czy indeks Giniego. W cyklu prac

opublikowanych w czołowych czasopismach, takich jak IEEE Transaction on Knowledge and

Data Engineering i Information Sciences przedstawiliśmy własne kryteria, które mogą z

powodzeniem zastąpić kryterium Hoeffdinga. Tematyka ta była następnie przedmiotem

mojej rozprawy doktorskiej pt. „Data stream classification algoritms” (pol. „Algorytmy

klasyfikacji danych strumieniowych”). W rozprawie doktorskiej badano problem

uzasadnionego wyboru atrybutów do dokonywania podziałów w kolejnych węzłach drzewa

decyzyjnego przy potencjalnie nieskończonym zbiorze uczącym. Zaproponowane metody

pozwalają na sprawdzenie, czy atrybut najlepszy dla dostępnej próbki danych jest również

najlepszy dla całego strumienia danych. Decyzja jest podejmowana na poziomie istotności

ustalonym przez użytkownika. Stwierdzenie, że atrybut jest najlepszy do dokonania podziału

oznacza, że wartość miary jakości podziału jest najwyższa spośród wszystkich atrybutów. W

pracy analizowane są trzy miary jakości podziału: przyrost informacji, zysk indeksu Giniego

oraz zmniejszenie błędu klasyfikacji.

Tematyka rozprawy jest silnie związana z algorytmem drzew Hoeffdinga, który jest jednym z

najpopularniejszych narzędzi analizy danych strumieniowych. Metody przedstawione w

pracy pozwalają uzupełnić lukę, powstałą po wykryciu niepoprawności uzasadnienia

oryginalnego algorytmu drzew Hoeffdinga.

W pracy przedstawione zostały trzy nowe metody uzasadniające dobór odpowiedniego

atrybutu do dokonania podziału w węźle. Pierwsza metoda pozwala porównywać wartości

miar jakości podziału dla dwóch atrybutów w oparciu o nierówność McDiarmida. W drugiej

metodzie decyzja jest podejmowana na podstawie rozkładów wartości miar jakości

podziałów dla dwóch atrybutów, przybliżanych rozkładami normalnymi. Trzecia metoda

pozwala na wyznaczenie przedziałów ufności dla miar jakości podziału wszystkich atrybutów

oraz wskazuje optymalny atrybut, gdy te przedziały stają się rozłączne.

Zaproponowane metody, połączone z ideą drzew Hoeffdinga, pozwoliły na stworzenie

algorytmów generujących drzewa decyzyjne ze strumieni danych. W zależności od

zastosowanej metody są to, odpowiednio, drzewa McDiarmida, drzewa Gaussa oraz drzewa

przedziałowe.

Wszystkie algorytmy zostały ze sobą porównane zarówno teoretycznie, jak i

eksperymentalnie. Jak wykazały przeprowadzone symulacje, zaproponowane rozwiązania

mogą być z powodzeniem stosowane do analizy danych strumieniowych.

5.2 Dorobek naukowo – badawczy po uzyskaniu stopnia naukowego doktora

Na dorobek publikacyjny habilitanta po uzyskaniu stopnia doktora składa się 13 prac, z czego

8 z nich wchodzi w skład przedstawianego osiągnięcia naukowego

Tabela 3: Publikacje opublikowane po uzyskaniu stopnia doktora

Rodzaj publikacji Liczba publikacji

Publikacje zamieszczone w czasopismach Journal Citation Reports 4

Pozostałe publikacje z bazy Web of Sience 6

Pozostałe publikacje 3

Razem 13

Do najistotniejszych osiągnięć, które współtworzyłem po uzyskaniu stopnia naukowego

doktora, a nie są częścią przedkładanego osiągnięcia, zaliczam następujące artykuły

Maciej Jaworski, Piotr Duda, Leszek Rutkowski, New Splitting Criteria for Decision Trees in

Stationary Data Streams, IEEE transactions on neural networks and learning systems 29.6

(2018): 2516-2529.

Praca ta kontynuuje zganienia poruszane w mojej rozprawie doktorskiej. W artykule

poruszany jest problem uczenia drzew decyzyjnych na podstawie strumieni danych. Praca

zawiera głęboką analizę znaczenia wyboru konkretnej miary jakości podziału. Rozróżnione są

w niej dwa typy kryteriów wyboru najlepszego atrybutu do dokonania podziału w węźle

drzewa decyzyjnego. Pierwszy typ to kryteria zapewniające, z określonym

prawdopodobieństwem, że atrybut wybrany przez te kryteria maksymalizuje miarę jakości

podziału. Kryteria drugiego typu zapewniają, że wskazany atrybut będzie również najlepszy

dla całego strumienia. Praca wprowadza trzy nowe kryteria (dwa pierwszego typu oraz

jedno drugiego typu), oraz dodatkowo tzw. kryteria hybrydowe (wykorzystujące

równocześnie różne miary jakości podziału). W szczególności, przedstawiona jest w niej

miara jakości podziału oparta o błąd klasyfikacji. W literaturze miara ta jest stosunkowo

rzadko przytaczana w kontekście drzew decyzyjnych. Zauważyliśmy jednak, że posiada ona

cechy szczególnie korzystne w analizie strumieni danych. Kluczowym problemem w

konstrukcji drzew decyzyjnych ze strumieni danych jest minimalizacja liczby danych

koniecznych do podjęcia decyzji o wyborze najlepszego atrybutu. Drzewa tworzone przy

pomocy miary opartej na błędzie klasyfikacji posiadają tą własność, że na początku rozrost

drzewa jest bardzo szybki, po czym zostaje on zablokowany. Dzieje się tak ponieważ

zastosowanie tej miary nie daje możliwości dokonania podziału, który jedynie

porządkowałby dane, a nie zwiększał w sposób znaczący dokładności klasyfikatora. Wobec

tego zaproponowaliśmy połączenie kryterium porównującego przydatność atrybutu na

podstawie miary opartej na błędzie klasyfikacji z kryterium wykorzystującym zysk indeksu

Giniego.

Wykazano eksperymentalnie, że ciągle najpopularniejsze kryterium Hoeffdinga, nie ma

uzasadnienia nawet jako kryterium heurystyczne. W tym celu porównano dokładności

osiągane przez drzewa Hoeffdinga oraz drzewa uzyskane poprzez arbitralne zmniejszenie

stałej w kryterium Hoeffdinga.

Maciej Jaworski, Piotr Duda, Leszek Rutkowski, Patryk Najgebauer, Miroslaw Pawlak,

Heuristic Regression Function Estimation Methods for Data Streams with Concept Drift,

Lecture Notes in Computer Science, Springer, Cham, Vol. 10246, pp 726-737.

Praca dotyczy śledzenia funkcji regresji w niestacjonarnym środowisku. W szczególności

przedmiotem pracy była analiza heurystycznych metod umożliwiających zastosowanie

probabilistycznych sieci neuronowych w celu estymacji regresji wobec występowania

concept-driftu. W tym celu przebadano dwie metody, tj. okna przesuwne i mechanizm

zapominania. Metoda okien przesuwnych jest powszechnie stosowana w analizie strumieni

danych. Polega ona na przechowywaniu w pamięci jedynie pewnej liczby ostatnio przybyłych

danych. Oznacza to, że wraz z napływem nowej danej jest ona zachowywana w pamięci

kosztem najstarszej danej w obecnym oknie. Probabilistyczne sieci neuronowe posiadają

własności umożliwiającą aktualizowanie ich dana po danej, wobec tego nie wymagają one

ciągłego przeuczania modelu. Zmiany ograniczone są jedynie do wprowadzenia usunięcia

informacji związanej z najstarszą daną i dodania nowej. Mechanizm zapominania polega na

wymnażaniu, wraz z każdą kolejną daną, wcześniejszych wartość przez pewną stałą z

przedziału od 0 do 1. W konsekwencji znaczenie starych danych jest stale zmniejszane, a

dominującą rolę zachowują aktualne dane. Niewielka modyfikacja klasycznych

probabilistycznych sieci neuronowych umożliwia wprowadzenie do nich mechanizmu

zapominania.

Maciej Jaworski, Piotr Duda, Leszek Rutkowski, On applying the Restricted Boltzmann

Machine to active concept drift detection, in proc. of 2017 IEEE Symposium Series on

Computational Intelligence (SSCI), IEEE, pp. 3512-3519.

W tym artykule badaliśmy możliwości zastosowania restrykcyjnej maszyny Boltzmanna jako

detektora concept-driftu. Zadanie wykrywania concep-dryftu jest jednym z częściej

poruszanych problemów analizy danych strumieniowych. Dobrze działający detektor musi

optymalizować dwa kryteria. Po pierwsze musi być w stanie zaalarmować system w jak

najkrótszym czasie od wystąpienia niestacjonarności w strumieniu. Po drugie musi

minimalizować liczbę fałszywych alarmów, czyli sytuacji w których detektor informuje

system o zaistniałej zmianie pomimo, że w rzeczywistości ona nie nastąpiła.

Restrykcyjne maszyny Boltzmanna zawierają wiedzę o rozkładzie danych treningowych,

wobec czego mogą one być wykorzystane do sprawdzenia, czy nowo przybyła dane

pochodzą z poprzednio nauczonego rozkładu, czy też nie. W celu porównania rozkładu

nowych danych z wyuczonym rozkładem zastosowano dwie miary, tj. energię swobodną oraz

błąd rekonstrukcji. Wyniki symulacji wykazały przydatność proponowanej metody zarówno

w przypadku występowania nagłych zmian, jak i stopniowych.

Maciej Jaworski, Piotr Duda, Leszek Rutkowski, 2018, Concept Drift Detection in Streams of

Labelled Data Using the Restricted Boltzmann Machine, in proc. of IEEE International Joint

Conference on Neural Networks (IJCNN), Rio de Janeiro, Brazylia

Celem pracy jest ulepszenie działania ograniczonej maszyny Boltzmana w celu detekcji

concept-driftu. W tym celu do klasycznego schematu ograniczonej maszyny Boltzmana

dodano trzecią wartą typu softmax, która jest połączona jedynie z warstwą ukrytą.

Zauważono również, że sieć pozwala na przechowywanie informacji o klasie elementów (nie

jest konieczne tworzenie osobnej sieci dla każdej z klas). Sieć jest uczona poprzez

zmodyfikowaną metodę Contrastive Divergence, umożliwiającą nauczenie wag pomiędzy

warstwą ukrytą, a warstwą softmax. W celu śledzenia zmian zastosowano dwie miary

energię swobodną oraz błąd rekonstrukcji, które połączono z metodę okien przesuwnych.

Piotr Duda, et al., 2016, On the Application of Orthogonal Series Density Estimation for

Image Classification Based on Feature Description, Knowledge, Information and Creativity

Support Systems: Recent Trends, Advances and Solutions. Advances in Intelligent Systems

and Computing, Springer, Cham, vol 364, pp. 529-540

Praca ta dotyczyła wykorzystania nieparametrycznych metod estymacji gęstości do selekcji

punktów kluczowych obrazów w celu ich klasyfikacji. Tematyka klasyfikacji obrazów, bazując

na treści w nich zawartej, jest ciągle gorącym tematem w literaturze naukowej. Jednym z

podejść pozwalających analizować treści zawarte na obrazie była detekcja punktów

kluczowych obrazu oraz ich deskryptorów. W pracy uwzględniono punkty kluczowe

generowane przez jedne z najpopularniejszych dedykowanych do tego algorytmów SIFT i

SURF. W zależności od parametrów tych algorytmów generowana jest pewna liczba punktów

kluczowych. Dla każdego obrazu liczba ta może być inna. Obraz zawiera zarówno punkty

kluczowe obiektu charakterystycznego dla klasy, jak i punkty kluczowe innych obiektów

stanowiących zaszumienie. Idea proponowanego algorytmu polegała na porównywaniu

rozkładów wartości deskryptorów punktów kluczowych obrazów danej klasy z deskryptorami

punktów kluczowych rozważanego obrazu. Dla każdej klasy ustalany jest, w sposób

automatyczny, próg determinujący jaka część wartości wygenerowanych deskryptorów musi

się zgadzać z deskryptorami danej klasy w zbiorze uczącym.

5.3 Inne osiągnięcia naukowo badawcze po uzyskaniu stopnia doktora

5.3.1 Recenzje

W czasie od obrony doktoratu wykonywałem recenzje do różnych czasopism.

IEEE Transaction on Knowledge and Data Engineering, 2015-2018: 2 recenzje,

Expert Systems with Applications, 2015-2018: 3 recenzje,

Entropy, 2018: 1 recenzja,

IEEE Transaction on Neural Networks and Learning Systems, 2017-2018: 2 recenzje,

Pattern Recognition Letters, 2017-2018: 1 recenzja

Information System, 2017: 1 recenzja

5.3.2 Udział w projektach

a) Nowe podejście do modelowania w niestacjonarnym środowisku, 2015, Opus, Narodowe Centrum Nauki, wykonawca

5.3.3 Udział w konferencjach naukowych

a) IEEE International Joint Conference on Neural Networks (IJCNN), Vancouver, Kanada, 2016

b) The 15th International Conference on Artificial Intelligence and Soft Computing, Zakopane, Polska, 2016;

c) The 16th International Conference on Artificial Intelligence and Soft Computing

Zakopane, Polska, 2017;

d) The 2017 IEEE Symposium Series on Computational Intelligence, Honolulu, Stany

Zjednoczone Ameryki Północnej, 2017;

e) The 17th International Conference on Artificial Intelligence and Soft Computing,

Zakopane, Polska, 2018;

f) 15th International Symposium on Neural Networks, Mińsk, 2018

g) IEEE International Joint Conference on Neural Networks (IJCNN), Rio de Janeiro, Brazylia,

2018.

5.3.4 Wykaz dorobku dydaktycznego

Inteligencja obliczeniowa, wykład;

Podstawy sieci komputerowych

Programowanie stron internetowych

5.3.5 Pozostałe a) Pomoc przy organizacji konferencji „International Conference on Artificial Intelligence

and Soft Computing” w latach 2012, 2013, 2014, 2015, 2016, 2017, 2018;

b) Współorganizacja sesji specjalnej “Workshop: Stream Data Mining" w ramach

konferencji The 16th International Conference on Artificial Intelligence and Soft

Computing ICAISC 2017;

c) Udział w spotkaniach "Polskiej grupy badawczej systemów uczących się" (SIG-ML) od

2013 roku;

d) Współorganizacja VI spotkania grupy SIG-ML, Częstochowa, 14 kwietnia 2016

e) Członek Polskiego towarzystwa sieci neuronowych od 2018;

f) Udział w komisji rekrutacyjnej na Wydziale Inżynierii Mechanicznej i Informatyki,

Politechniki Częstochowskiej 2015-2018;

g) Promotor pomocniczy doktoranta Piotra Woldana, który otworzył przewód 21 czerwca

2018 roku na Wydziale Inżynierii Mechanicznej i Informatyki, tytuł rozprawy:

„Hybrydowe struktury uczenia głębokiego, wsparte technologią NLP w zastosowaniu do

systemów rekomendacyjnych”.

AUTOREFERAT - wimii.pcz.pl · Dane Osobowe Imię i Nazwisko: Piotr Duda Adres: ... Leszek...

Documents

Transcript of AUTOREFERAT - wimii.pcz.pl · Dane Osobowe Imię i Nazwisko: Piotr Duda Adres: ... Leszek...