AUTOREFERAT - wimii.pcz.pl · Dane Osobowe Imię i Nazwisko: Piotr Duda Adres: ... Leszek...
-
Upload
nguyenxuyen -
Category
Documents
-
view
223 -
download
0
Transcript of AUTOREFERAT - wimii.pcz.pl · Dane Osobowe Imię i Nazwisko: Piotr Duda Adres: ... Leszek...
Załącznik 2A
do Wniosku o przeprowadzenie postępowania habilitacyjnego w
dziedzinie nauk technicznych w dyscyplinie informatyka
AUTOREFERAT
dr Piotr Duda
Politechnika Częstochowska
Wydział Inżynierii Mechanicznej i Informatyki
Instytut Inteligentnych Systemów Informatycznych
Częstochowa, 2018
1. Dane Osobowe
Imię i Nazwisko: Piotr Duda
Adres: Politechnika Częstochowska, Wydział Inżynierii Mechanicznej i Informatyki, Instytut Inteligentnych Systemów Informatycznych, ul. Armii Krajowej 36, 42-200 Częstochowa
e-mail: [email protected]
nr tel.: +48 504 667 493
2. Posiadane dyplomy i stopnie naukowe
2015 - Stopień doktora nauk technicznych w dyscyplinie informatyka (obroniony z wyróżnieniem), Politechnika Częstochowska, Wydział Inżynierii Mechanicznej i Informatyki, Tytuł rozprawy: „Data stream classification algorithms” („Algorytmy klasyfikacji danych strumieniowych”)
2009 - Tytuł zawodowy magistra nauk matematycznych,
Uniwersytet Śląski,
Wydział Matematyki, Fizyki i Chemii
3. Informacje o dotychczasowym zatrudnieniu w jednostkach naukowych/ artystycznych.
2015 – obecnie: adiunkt naukowy, Politechnika Częstochowska, Wydział Inżynierii Mechanicznej i Informatyki, Instytut Inteligentnych Systemów Informatycznych.
2010 – 2015: doktorant, Politechnika Częstochowska, Wydział Inżynierii Mechanicznej i Informatyki, Katedra Inżynierii Komputerowej (od 2012 Instytut Inteligentnych
Systemów Informatycznych).
4. Wskazanie osiągnięcia* wynikającego z art. 16 ust. 2 ustawy z dnia 14 marca 2003 r. o
stopniach naukowych i tytule naukowym oraz o stopniach i tytule w zakresie sztuki (Dz.
U. 2016 r. poz. 882 ze zm. w Dz. U. z 2016 r. poz. 1311.):
4.1 Tytuł osiągnięcia naukowego
Problemy klasyfikacji i regresji w analizie niestacjonarnych strumieni danych.
4.2 Publikacje wchodzące w skład osiągnięcia naukowego
1) Piotr Duda, Maciej Jaworski, Leszek Rutkowski, 2018, Convergent Time-Varying
Regression Models for Data Streams: Tracking Concept Drift by the Recursive Parzen-
Based Generalized Regression Neural Networks, International Journal of Neural Systems,
Vol. 28, Issue 02, 1750048, IF=4,58, udział: 80%
2) Piotr Duda, Maciej Jaworski, Leszek Rutkowski, 2018, Knowledge discovery in data
streams with the orthogonal series-based generalized regression neural networks,
Information Sciences, Vol. 460–461, pp. 497-518, IF=4,305, udział=80%
3) Lena Pietruczuk, Leszek Rutkowski, Maciej Jaworski, Piotr Duda, 2016, A method for
automatic adjustment of ensemble size in stream data mining, Neural Networks (IJCNN),
2016 International Joint Conference on, IEEE, pp. 9-15, udział=10%
4) Lena Pietruczuk, Leszek Rutkowski, Maciej Jaworski, Piotr Duda, 2017, How to adjust an
ensemble size in stream data mining?, Information Sciences, Vol. 381, pp. 46-54,
IF=4,305, udział=10%
5) Piotr Duda, Maciej Jaworski, Leszek Rutkowski, 2017, On ensemble components
selection in data streams scenario with reoccurring concept-drift, in prc. of 2017 IEEE
Symposium Series on Computational Intelligence (SSCI), IEEE, pp. 1821-1827, udział=80%
6) Piotr Duda, 2018, On Ensemble Components Selection in Data Streams Scenario with
Gradual Concept-Drift, Lecture Notes in Computer Science, Springer, Vol. 10842, pp 311-
320, udział=100%
7) Piotr Duda, Lena Pietruczuk, Maciej Jaworski, Adam Krzyzak, 2016, On the Cesàro-
Means-Based Orthogonal Series Approach to Learning Time-Varying Regression
Functions, Lecture Notes in Computer Science, Springer, Vol. 9693, pp. 37-48,
udział=70%
8) Piotr Duda, Maciej Jaworski, Leszek Rutkowski, 2018, Online GRNN-Based Ensembles for
Regression on Evolving Data Streams. In: Huang T., Lv J., Sun C., Tuzikov A. (eds)
Advances in Neural Networks – ISNN 2018. ISNN 2018. Lecture Notes in Computer
Science, vol 10878., pp 221-228, Springer, udział=80%
Tabela 1: Podsumowanie cyklu publikacji wchodzących w skład osiągnięcia naukowego
Publikacja Udział
habilitanta
Udział pozostałych
współautorów
Impact
Factor
Punkty
[1] 80% 10%, 10% 4,58 40
[2] 80% 10%, 10% 4,305 45
[3] 10% 70%,10%, 10% - 15
[4] 10% 70%,10%, 10% 4,305 45
[5] 80% 10%, 10% - 15
[6] 100% - - 15
[7] 70% 10%, 10%, 10% - 15
[8] 80% 10%, 10% - 15
4.3 Omówienie celu naukowego ww. prac i osiągniętych wyników wraz z omówieniem ich
ewentualnego wykorzystania.
Wraz ze wzrostem liczby wytwarzanych danych, zwiększa się zapotrzebowanie na coraz
sprawniejsze algorytmy umożliwiające ich analizę. Jednym z problemów, którym zajmują się
współcześnie badacze jest analiza tzw. strumieni danych. W podejściu tym zakładamy, że
dane są generowane i odczytywane na bieżąco. Oznacza to, że nie jesteśmy w stanie
przewidzieć jakie dane zostaną przesłane do sytemu nawet w najbliższej przyszłości. Pociąga
to za sobą szereg konsekwencji, takich jak np. niemożliwość ustalenia wielkości zbioru
uczącego. W efekcie projektant systemu analizującego ten typ danych musi wziąć pod uwagę
pewne ograniczania, nie uwzględniane w przypadku klasycznych metod uczenia
maszynowego. Można wskazać trzy najistotniejsze ograniczenia kładzione na algorytmy
przetwarzające strumienie danych, tj.:
- dane nie mogą być stale przechowywane. Wobec nieznanej wielkości strumienia należy
założyć, że jest on dowolnie duży. Algorytm musi być w stanie w jak najkrótszym czasie
zagregować informacje zawartą w bieżącej danej włączając ją w uczony model. Optymalnie
dana powinna zostać przetworzona tylko raz, przed pojawieniem się kolejnej;
- algorytm musi w być w stanie udzielić odpowiedzi w dowolnym momencie. W przypadku
systemów, w których dane mogą być produkowane nieustannie, nie możemy założyć a priori
tempa przychodzenia danych. Z tego powodu należy minimalizować czas jaki algorytm
potrzebuje do przetworzenia danych. Należy unikać czasochłonnych technik uczenia jak np.
uczenie epokowe czy techniki ewolucyjne;
- rozkład przychodzących danych może zmieniać się w czasie analizowania strumienia.
Różnice te mogą dotyczyć zarówno zmiennych objaśniających, jaki i zmiennej objaśnianej.
Zjawisko niestacjonarności danych w kontekście strumieni danych nazywa się concept-
driftem. Problem zaprojektowania systemu cechującego się odpowiednio szybką i dokładną
reakcją na zaistniałą niestacjonarność jest szczególnym wyzwaniem dla badaczy. Wymaga
on, aby algorytm był w stanie przebudować estymowany model w dowolnym momencie i
dostosować się do zaistniałych zmian.
Główny nacisk w przedstawianych pracach został położony na techniki uczenia
nadzorowanego, tj. klasyfikację i regresję. Cechą wspólną wszystkich prac zaliczonych do
osiągnięcia jest rozważanie systemów działających w niestacjonarnym środowisku.
1) Convergent Time-Varying Regression Models for Data Streams: Tracking Concept
Drift by the Recursive Parzen-Based Generalized Regression Neural Networks
Główny nacisk w omawianej pracy został położony na teoretyczną analizę
nieparametrycznych metod regresji z wykorzystaniem probabilistycznych sieci neuronowych
opartych o tzw. jądra Parzena. Metody nieparametryczne pozwalają na estymację szerszego
spektrum typu funkcji niż metody parametryczne. Jest to szczególnie istotne w analizie
strumieni danych wobec dowolności zmian jakie mogą zachodzić w strumieniu. Zastosowano
tu metodę regresji opartej na jądrach Parzena. Pozwala ona na przyrostowe uczenie
estymatora. Oznacza to, że stosowana metoda nie wymaga przechowywania uprzednio
zgromadzonych danych. Zamiast tego, w każdym ustalonym wcześniej punkcie w którym
chcemy badać wartość regresji, wartość estymatora jest obliczana jedynie na podstawie
nowo przybyłej danej oraz poprzednio ustalonej wartości.
W pracy rozważane są dwa rodzaje niestacjonarności.
- W pierwszym przypadku zadaniem jest estymacja stacjonarnej funkcji regresji, wobec
występowania niestacjonarnego szumu w danych przychodzących do systemu.
Niestacjonarność szumu jest wyrażona poprzez zmiany w rozkładzie prawdopodobieństwa z
jakiego szum jest generowany. W szczególności zakładamy, że zmianom może ulec wariancja
rozkładu (dopuszczamy, że może ona dążyć do nieskończoności). W omawianej pracy,
kolejno w twierdzeniach 1 i 2, przedstawione są warunki jakie muszą być spełnione, aby
zapewnić zbieżność prezentowanego estymatora według prawdopodobieństwa oraz z
prawdopodobieństwem 1.
- W drugim przypadku rozważanym zadaniem jest estymacja niestacjonarnej funkcji regresji,
wobec występowania niestacjonarnego szumu w danych przychodzących do systemu. W
omawianej pracy, kolejno w twierdzeniach 3 i 4, przedstawione są warunki jakie muszą być
spełnione, aby zapewnić zbieżność prezentowanego estymatora według
prawdopodobieństwa oraz z prawdopodobieństwem 1.
Praca zawiera również szereg przykładów (przykłady od 1 do 6) prezentujących kryteria
wyborów parametrów w przypadku wystąpienia różnych rodzajów niestacjonarności
(przyrostowej, powtarzającej się, mieszanej).
W ramach oceny działania proponowanych algorytmów przeprowadzono szereg symulacji w
oparciu o dane syntetyczne, demonstrujących zgodność otrzymywanych rezultatów z
przedstawioną analizą teoretyczną. Dodatkowo porównano omawiane algorytmy z
klasycznym estymatorem regresji dostosowanym do niestacjonarnego środowisko poprzez
zastosowanie mechanizmu okien przesuwnych oraz metody zapominania. Praca przedstawia
również możliwość zastosowania omawianych metod do rzeczywistych zadań takich jak,
śledzenia zależności pomiędzy zmieniającymi się kursami wymiany walut.
2) Knowledge discovery in data streams with the orthogonal series-based generalized
regression neural networks
Ta praca dotyczy zastosowania szeregów ortogonalnych jako narzędzia do estymacji funkcji
regresji w niestacjonarnym środowisku. Stosując estymator oparty na jądrach Parzena,
użytkownik jest w zmuszony badać wartość w każdym interesującym go punkcie z osobna. W
przypadku zastosowania szeregów ortogonalnych możliwe jest przyrostowe aktualizowanie
jedynie pewnych parametrów, które umożliwiają wyliczenie wartości estymowanej funkcji w
dowolnym punkcie dziedziny.
W artykule analizowane są dwa typy niestacjonarności: niestacjonarność zaszumienia danych
oraz zmieniająca się funkcja regresji. Kolejno w twierdzeniach 1 i 2 wykazana jest zbieżność
(według prawdopodobieństwa oraz z prawdopodobieństwem jeden) estymatora w
przypadku zmiennego zaszumienia, a w twierdzeniach 3 i 4 zbieżność (według
prawdopodobieństwa oraz z prawdopodobieństwem jeden) do zmieniającej się funkcji.
Praca zawiera również przykłady pokazujące jak w przypadku konkretnych typów zmian
dobierać parametry modelu. Poza analizą teoretyczną znaczenie każdego z tych parametrów
zostało również sprawdzone eksperymentalnie.
3) A method for automatic adjustment of ensemble size in stream data mining
Praca porusza problem tworzenia klasyfikatorów w kontekście strumieni danych. Jedną z
najpopularniejszych w literaturze oraz skutecznie działającą w praktyce metod jest tworzenie
zespołów klasyfikatorów. Ogólny schemat działania takich metod przebiega w następujących
krokach:
- na podstawie próbki, ostatnio przybyłych ze strumienia danych, uczony jest
klasyczny klasyfikator (zwany słabym klasyfikatorem),
- nowo utworzony słaby klasyfikator może zostać włączony do modelu,
- dla każdej nowo przybyłej danej klasa nadawana jest jako zagregowana odpowiedź
wszystkich komponentów zespołu.
Dla badaczy ciągle otwartym problem pozostaje ustalenie odpowiedniego kryterium
decydującego kiedy nowo utworzony słaby klasyfikator powinien zostać włączony do
zespołu, a kiedy z niego usunięty.
W omawianej pracy zaproponowana algorytm ASE (The Automatically Adjusting Size of
Ensemble Algorithm), który decyzję o włączeniu lub nie włączaniu nowego komponentu do
zespołu podejmuje na podstawie zaproponowanego testu statystycznego. Przyjęte kryterium
zapewnia, że nowy komponent wniesie istotny wkład w działanie zespołu nie tylko dla
bieżącej paczki danych, ale również dla całego strumienia. W celu umożliwienia algorytmowi
dostosowywania się do zachodzącego concept-driftu zaproponowano również test
decydujący kiedy dany komponent zespołu powinien być usunięty. Test wskazuje na
usunięcie słabego klasyfikatora jeżeli jego pozostawienie w zespole pogarsza w sposób
znaczący działanie zespołu dla całego strumienia. Omawiane testy zostały przedstawione w
pracy w postaci twierdzeń 1 i 2.
Działanie algorytmu ASE zostało sprawdzone eksperymentalnie dla różnych typów concept-
driftu (nagły oraz stopniowy) w różnym stopniu nasilenia. Otrzymane wyniki zostały
porównane z innymi popularnymi algorytmami klasyfikacji danych strumieniowych.
4) How to adjust an ensemble size in stream data mining?
Praca ta jest rozszerzeniem pracy “A method for automatic adjustment of ensemble size in
stream data mining“. Ponownie poruszany jest temat doboru komponentów do zespołu w
celu klasyfikacji danych strumieniowych. Zaproponowano algorytm DEEA (The Dynamically
Expanded Ensemble Algorithm ) w którym kolejno tworzone komponenty to drzewa
decyzyjne. Przedstawione jest kryterium pozwalające określić użytkownikowi w jakim
stopniu nowo utworzony słaby klasyfikator ma wpłynąć na dokładność całego zespołu.
Zaproponowano również nowe kryterium ważenia odpowiedzi uzyskanych z każdego
komponentu. Zamiast utrzymywać jedną wagę dla całego komponentu zaproponowano, aby
każdy liść posiadał własną.
Działanie algorytmu zostało potwierdzone poprzez przeprowadzenie licznych
eksperymentów na danych rzeczywistych, a otrzymane wyniki zostały porównane z
najpopularniejszymi algorytmami przetwarzania danych strumieniowych.
5) On ensemble components selection in data streams scenario with reoccurring
concept-drift
Szczególnym typem niestacjonarności rozważanym w pracach dotyczących analizy danych
strumieniowych jest występowanie powtarzającego się concept-driftu. Mówimy o tym typie
niestacjonarności w przypadku gdy wiemy, że dane będą generowane z kilku rozkładów
danych zmieniających się między sobą co jakiś, nieokreślony czas. Przykładem takiego
zjawisko może być sezonowość w danych. Omawiany artykuł dostosowuje algorytm ASE do
działania w takim środowisku.
Jednym z kluczowych mechanizmów każdego algorytmu zespołowego, jest sposób
podejmowania decyzji o usunięciu komponentu z zespołu. W algorytmie ASE, każdy jeden
komponent zespołu jest usuwany, jeżeli jego udział w podejmowaniu decyzji ma negatywny
wpływ na działanie całego zespołu. W przypadku powtarzających się zmian rozkładów
danych może to spowodować trwałe usunięcie z zespołu wiedzy, którą chcielibyśmy
przechować w celu wykorzystania jej w przyszłości.
W celu rozwiązania tego problemu zaproponowano algorytm ASE-TC (Automatically
Adjusting Size of Ensemble Algorithm with Temporal Changes), który modyfikuje kryterium
usunięcia komponentu z zespołu. W omawianej pracy zaproponowano dodanie
dodatkowego testu. W szczególności, porównywany jest rozkład odpowiedzi zespołu oraz
pojedynczego komponentu. W tym celu wykorzystywana jest dywergencja Kullbacka-
Leiblera (KLD). Jeżeli otrzymana wielkość KLD jest większa niż założony przez użytkownika
próg (oznaczony λ) wówczas, badany komponent nie zostanie usunięty z zespołu.
Działanie algorytmu zostało przebadane eksperymentalnie pod względem wielkości
wykorzystywanych paczek danych do uczenia komponentów, wielkość założonego progu λ
oraz głębokości drzew wykorzystywanych jako słabe klasyfikatory. Otrzymana dokładność
klasyfikacji została również porównana z innymi popularnymi metodami zespołowymi.
6) On ensemble components selection in data streams scenario with gradual concept-
drift
Jednym z czterech najpopularniejszych typów niestacjonarności omawianych w kontekście
danych strumieniowych jest stopniowy concept-drift. Mówimy o tym typie niestacjonarności
jeżeli częstotliwość pojawiania się danych generowanych z danego rozkładu zmniejsza się
stopniowo, natomiast dane pochodzące z nowego rozkładu pojawiają się coraz częściej.
Celem opisywanej pracy była próba usprawnienia działania algorytmu ASE, w przypadku
występowania stopniowego concept-driftu Algorytm ASE dopuszcza włączenie nowego
słabego klasyfikatora jedynie, jeżeli polepsza on w znaczącym stopniu działanie całego
zespołu. Ocena skuteczności działania zespołu odbywa się na tzw. zasadzie prequential
evaluation. Oznacza to, że nowo utworzony klasyfikator będzie oceniany dopiero na
podstawie kolejnej (względem tej na której był uczony) paczki danych. Możliwa jest zatem
sytuacja w której jedna paczka danych będzie zawierała w większości dane pochodzące z
nowego rozkładu, a w kolejnej paczce danych będą przeważały dane ze starego rozkładu. W
takiej sytuacji algorytm ASE nie pozwoli na zachowanie wiedzy, która może okazać się
użyteczna w przyszłości. W celu rozwiązania tego problemu zmodyfikowano kryterium
dodawania komponentów do zespołu, poprzez dodanie nowego testu. Porównywany jest w
nim rozkład odpowiedzi zespołu oraz pojedynczego komponentu na podstawie odległości
Hellingera. Otrzymana wielkość porównywana jest z wartością progową wskazaną przez
użytkownika.
Działanie algorytmu zostało przebadane eksperymentalnie pod względem wielkości
wykorzystywanych paczek danych do uczenia komponentów, wysokości założonego progu
oraz głębokości drzew wykorzystywanych jako słabe klasyfikatory.
7) On the Cesàro-Means-Based Orthogonal Series Approach to Learning Time-Varying
Regression Functions
W tym artykule została zaproponowana nieparametryczna metoda śledzenie niestacjonarnej
funkcji regresji oparta o metodę tzw. średnich Cesaro. Metoda ta pozwala na badanie
zbieżności szerszego spektrum szeregów ortogonalnych niż klasyczne metody. W artykule
przedstawiona jest zbieżność proponowanego algorytmu według prawdopodobieństwa.
Przeprowadzono również symulacje numeryczne z wykorzystaniem szeregów Furiera, w
szczególności, z użyciem tzw. jąder Fejera. Przeprowadzone symulacje potwierdziły zgodność
analizy teoretycznej z oczekiwanymi rezultatami.
8) Online GRNN-Based Ensembles for Regression on Evolving Data Streams
Analizowane w poprzednich pracach metody śledzenia niestacjonarnej funkcji regresji
umożliwiają śledzenie szerokiego spektrum zmian, nie są jednak w stanie skutecznie
zareagować na natychmiastową zmianę rozkładu danych. W celu usprawnienia ich działania
zaproponowano stworzenia zespołu uogólnionych regresyjnych sieci neuronowych.
Zaproponowany algorytm E-GRNN (Online GRNN-Based Ensembles) inicjuje po otrzymaniu
określonej liczby danych nowy estymator regresji. Wraz z napływem danych uaktualniane są
wszystkie komponenty zespołu. Po zebraniu całej paczki danych komponenty zespołu
podlegają ocenie. Odpowiedź zespołu zostaje ustalona jako średnia ważona wszystkich
estymatorów zgromadzonych w zespole. Wagi dla poszczególnych składowych zespołu
ustalane są jako odwrotność miary zwanej częścią niewyjaśnionej wariancji. Przeprowadzone
symulacje wykazały, że zastosowanie metody zespołowej polepsza uzyskiwane wyniki.
5. Omówienie pozostałych osiągnięć naukowo - badawczych.
Łączny dorobek publikacyjny habilitanta, z okresów przed i po uzyskania stopnia doktora,
stanowi 35 publikacji. W Tabeli 1 przedstawiono rozkład liczby publikacji na publikacje
poszczególnych typów.
Tabela 2: Wszystkie opublikowane publikacje
Rodzaj publikacji Liczba publikacji
Publikacje zamieszczone w czasopismach Journal Citation Reports 8
Pozostałe publikacje z bazy Web of Sience 19
Pozostałe publikacje 7
Razem 34
Dane bibliograficzne:
Liczba cytowani: 398 ( 325 bez autocytowań)
h-index: 12
5.1 Dorobek naukowo – badawczy przed uzyskaniem stopnia naukowego doktora.
W mojej pracy badawczej przed uzyskaniem stopnia naukowego doktora zajmowałem się
przede wszystkim zagadnieniem klasyfikacji statycznych danych strumieniowych (bez
występowania concept-driftu). Wraz z zespołem wykryliśmy błąd w jednym z
najpopularniejszych algorytmów analizy takich danych nazwanym drzewami Hoeffdinga.
Metoda ta pozwalała na tworzenie drzew decyzyjnych z statycznych strumieni danych.
Autorzy oryginalnej pracy, która posiadała setki cytowani, pokazują jak konstruować drzewa
decyzyjne bez konieczności wielokrotnego przetwarzania tych samych elementów.
Kluczowym elementem algorytmu było kryterium doboru atrybutu do dokonania podziału w
węźle drzewa decyzyjnego. Zaproponowano tam tzw. kryterium Hoeffdinga, które było
matematycznie uzasadniane z wykorzystaniem nierówności Hoeffdinga. Wykazaliśmy, jako
pierwsi na świecie, że zaproponowana metoda nie może być łączona z najpopularniejszymi
miarami jakości podziału, jak przyrost informacji, czy indeks Giniego. W cyklu prac
opublikowanych w czołowych czasopismach, takich jak IEEE Transaction on Knowledge and
Data Engineering i Information Sciences przedstawiliśmy własne kryteria, które mogą z
powodzeniem zastąpić kryterium Hoeffdinga. Tematyka ta była następnie przedmiotem
mojej rozprawy doktorskiej pt. „Data stream classification algoritms” (pol. „Algorytmy
klasyfikacji danych strumieniowych”). W rozprawie doktorskiej badano problem
uzasadnionego wyboru atrybutów do dokonywania podziałów w kolejnych węzłach drzewa
decyzyjnego przy potencjalnie nieskończonym zbiorze uczącym. Zaproponowane metody
pozwalają na sprawdzenie, czy atrybut najlepszy dla dostępnej próbki danych jest również
najlepszy dla całego strumienia danych. Decyzja jest podejmowana na poziomie istotności
ustalonym przez użytkownika. Stwierdzenie, że atrybut jest najlepszy do dokonania podziału
oznacza, że wartość miary jakości podziału jest najwyższa spośród wszystkich atrybutów. W
pracy analizowane są trzy miary jakości podziału: przyrost informacji, zysk indeksu Giniego
oraz zmniejszenie błędu klasyfikacji.
Tematyka rozprawy jest silnie związana z algorytmem drzew Hoeffdinga, który jest jednym z
najpopularniejszych narzędzi analizy danych strumieniowych. Metody przedstawione w
pracy pozwalają uzupełnić lukę, powstałą po wykryciu niepoprawności uzasadnienia
oryginalnego algorytmu drzew Hoeffdinga.
W pracy przedstawione zostały trzy nowe metody uzasadniające dobór odpowiedniego
atrybutu do dokonania podziału w węźle. Pierwsza metoda pozwala porównywać wartości
miar jakości podziału dla dwóch atrybutów w oparciu o nierówność McDiarmida. W drugiej
metodzie decyzja jest podejmowana na podstawie rozkładów wartości miar jakości
podziałów dla dwóch atrybutów, przybliżanych rozkładami normalnymi. Trzecia metoda
pozwala na wyznaczenie przedziałów ufności dla miar jakości podziału wszystkich atrybutów
oraz wskazuje optymalny atrybut, gdy te przedziały stają się rozłączne.
Zaproponowane metody, połączone z ideą drzew Hoeffdinga, pozwoliły na stworzenie
algorytmów generujących drzewa decyzyjne ze strumieni danych. W zależności od
zastosowanej metody są to, odpowiednio, drzewa McDiarmida, drzewa Gaussa oraz drzewa
przedziałowe.
Wszystkie algorytmy zostały ze sobą porównane zarówno teoretycznie, jak i
eksperymentalnie. Jak wykazały przeprowadzone symulacje, zaproponowane rozwiązania
mogą być z powodzeniem stosowane do analizy danych strumieniowych.
5.2 Dorobek naukowo – badawczy po uzyskaniu stopnia naukowego doktora
Na dorobek publikacyjny habilitanta po uzyskaniu stopnia doktora składa się 13 prac, z czego
8 z nich wchodzi w skład przedstawianego osiągnięcia naukowego
Tabela 3: Publikacje opublikowane po uzyskaniu stopnia doktora
Rodzaj publikacji Liczba publikacji
Publikacje zamieszczone w czasopismach Journal Citation Reports 4
Pozostałe publikacje z bazy Web of Sience 6
Pozostałe publikacje 3
Razem 13
Do najistotniejszych osiągnięć, które współtworzyłem po uzyskaniu stopnia naukowego
doktora, a nie są częścią przedkładanego osiągnięcia, zaliczam następujące artykuły
Maciej Jaworski, Piotr Duda, Leszek Rutkowski, New Splitting Criteria for Decision Trees in
Stationary Data Streams, IEEE transactions on neural networks and learning systems 29.6
(2018): 2516-2529.
Praca ta kontynuuje zganienia poruszane w mojej rozprawie doktorskiej. W artykule
poruszany jest problem uczenia drzew decyzyjnych na podstawie strumieni danych. Praca
zawiera głęboką analizę znaczenia wyboru konkretnej miary jakości podziału. Rozróżnione są
w niej dwa typy kryteriów wyboru najlepszego atrybutu do dokonania podziału w węźle
drzewa decyzyjnego. Pierwszy typ to kryteria zapewniające, z określonym
prawdopodobieństwem, że atrybut wybrany przez te kryteria maksymalizuje miarę jakości
podziału. Kryteria drugiego typu zapewniają, że wskazany atrybut będzie również najlepszy
dla całego strumienia. Praca wprowadza trzy nowe kryteria (dwa pierwszego typu oraz
jedno drugiego typu), oraz dodatkowo tzw. kryteria hybrydowe (wykorzystujące
równocześnie różne miary jakości podziału). W szczególności, przedstawiona jest w niej
miara jakości podziału oparta o błąd klasyfikacji. W literaturze miara ta jest stosunkowo
rzadko przytaczana w kontekście drzew decyzyjnych. Zauważyliśmy jednak, że posiada ona
cechy szczególnie korzystne w analizie strumieni danych. Kluczowym problemem w
konstrukcji drzew decyzyjnych ze strumieni danych jest minimalizacja liczby danych
koniecznych do podjęcia decyzji o wyborze najlepszego atrybutu. Drzewa tworzone przy
pomocy miary opartej na błędzie klasyfikacji posiadają tą własność, że na początku rozrost
drzewa jest bardzo szybki, po czym zostaje on zablokowany. Dzieje się tak ponieważ
zastosowanie tej miary nie daje możliwości dokonania podziału, który jedynie
porządkowałby dane, a nie zwiększał w sposób znaczący dokładności klasyfikatora. Wobec
tego zaproponowaliśmy połączenie kryterium porównującego przydatność atrybutu na
podstawie miary opartej na błędzie klasyfikacji z kryterium wykorzystującym zysk indeksu
Giniego.
Wykazano eksperymentalnie, że ciągle najpopularniejsze kryterium Hoeffdinga, nie ma
uzasadnienia nawet jako kryterium heurystyczne. W tym celu porównano dokładności
osiągane przez drzewa Hoeffdinga oraz drzewa uzyskane poprzez arbitralne zmniejszenie
stałej w kryterium Hoeffdinga.
Maciej Jaworski, Piotr Duda, Leszek Rutkowski, Patryk Najgebauer, Miroslaw Pawlak,
Heuristic Regression Function Estimation Methods for Data Streams with Concept Drift,
Lecture Notes in Computer Science, Springer, Cham, Vol. 10246, pp 726-737.
Praca dotyczy śledzenia funkcji regresji w niestacjonarnym środowisku. W szczególności
przedmiotem pracy była analiza heurystycznych metod umożliwiających zastosowanie
probabilistycznych sieci neuronowych w celu estymacji regresji wobec występowania
concept-driftu. W tym celu przebadano dwie metody, tj. okna przesuwne i mechanizm
zapominania. Metoda okien przesuwnych jest powszechnie stosowana w analizie strumieni
danych. Polega ona na przechowywaniu w pamięci jedynie pewnej liczby ostatnio przybyłych
danych. Oznacza to, że wraz z napływem nowej danej jest ona zachowywana w pamięci
kosztem najstarszej danej w obecnym oknie. Probabilistyczne sieci neuronowe posiadają
własności umożliwiającą aktualizowanie ich dana po danej, wobec tego nie wymagają one
ciągłego przeuczania modelu. Zmiany ograniczone są jedynie do wprowadzenia usunięcia
informacji związanej z najstarszą daną i dodania nowej. Mechanizm zapominania polega na
wymnażaniu, wraz z każdą kolejną daną, wcześniejszych wartość przez pewną stałą z
przedziału od 0 do 1. W konsekwencji znaczenie starych danych jest stale zmniejszane, a
dominującą rolę zachowują aktualne dane. Niewielka modyfikacja klasycznych
probabilistycznych sieci neuronowych umożliwia wprowadzenie do nich mechanizmu
zapominania.
Maciej Jaworski, Piotr Duda, Leszek Rutkowski, On applying the Restricted Boltzmann
Machine to active concept drift detection, in proc. of 2017 IEEE Symposium Series on
Computational Intelligence (SSCI), IEEE, pp. 3512-3519.
W tym artykule badaliśmy możliwości zastosowania restrykcyjnej maszyny Boltzmanna jako
detektora concept-driftu. Zadanie wykrywania concep-dryftu jest jednym z częściej
poruszanych problemów analizy danych strumieniowych. Dobrze działający detektor musi
optymalizować dwa kryteria. Po pierwsze musi być w stanie zaalarmować system w jak
najkrótszym czasie od wystąpienia niestacjonarności w strumieniu. Po drugie musi
minimalizować liczbę fałszywych alarmów, czyli sytuacji w których detektor informuje
system o zaistniałej zmianie pomimo, że w rzeczywistości ona nie nastąpiła.
Restrykcyjne maszyny Boltzmanna zawierają wiedzę o rozkładzie danych treningowych,
wobec czego mogą one być wykorzystane do sprawdzenia, czy nowo przybyła dane
pochodzą z poprzednio nauczonego rozkładu, czy też nie. W celu porównania rozkładu
nowych danych z wyuczonym rozkładem zastosowano dwie miary, tj. energię swobodną oraz
błąd rekonstrukcji. Wyniki symulacji wykazały przydatność proponowanej metody zarówno
w przypadku występowania nagłych zmian, jak i stopniowych.
Maciej Jaworski, Piotr Duda, Leszek Rutkowski, 2018, Concept Drift Detection in Streams of
Labelled Data Using the Restricted Boltzmann Machine, in proc. of IEEE International Joint
Conference on Neural Networks (IJCNN), Rio de Janeiro, Brazylia
Celem pracy jest ulepszenie działania ograniczonej maszyny Boltzmana w celu detekcji
concept-driftu. W tym celu do klasycznego schematu ograniczonej maszyny Boltzmana
dodano trzecią wartą typu softmax, która jest połączona jedynie z warstwą ukrytą.
Zauważono również, że sieć pozwala na przechowywanie informacji o klasie elementów (nie
jest konieczne tworzenie osobnej sieci dla każdej z klas). Sieć jest uczona poprzez
zmodyfikowaną metodę Contrastive Divergence, umożliwiającą nauczenie wag pomiędzy
warstwą ukrytą, a warstwą softmax. W celu śledzenia zmian zastosowano dwie miary
energię swobodną oraz błąd rekonstrukcji, które połączono z metodę okien przesuwnych.
Piotr Duda, et al., 2016, On the Application of Orthogonal Series Density Estimation for
Image Classification Based on Feature Description, Knowledge, Information and Creativity
Support Systems: Recent Trends, Advances and Solutions. Advances in Intelligent Systems
and Computing, Springer, Cham, vol 364, pp. 529-540
Praca ta dotyczyła wykorzystania nieparametrycznych metod estymacji gęstości do selekcji
punktów kluczowych obrazów w celu ich klasyfikacji. Tematyka klasyfikacji obrazów, bazując
na treści w nich zawartej, jest ciągle gorącym tematem w literaturze naukowej. Jednym z
podejść pozwalających analizować treści zawarte na obrazie była detekcja punktów
kluczowych obrazu oraz ich deskryptorów. W pracy uwzględniono punkty kluczowe
generowane przez jedne z najpopularniejszych dedykowanych do tego algorytmów SIFT i
SURF. W zależności od parametrów tych algorytmów generowana jest pewna liczba punktów
kluczowych. Dla każdego obrazu liczba ta może być inna. Obraz zawiera zarówno punkty
kluczowe obiektu charakterystycznego dla klasy, jak i punkty kluczowe innych obiektów
stanowiących zaszumienie. Idea proponowanego algorytmu polegała na porównywaniu
rozkładów wartości deskryptorów punktów kluczowych obrazów danej klasy z deskryptorami
punktów kluczowych rozważanego obrazu. Dla każdej klasy ustalany jest, w sposób
automatyczny, próg determinujący jaka część wartości wygenerowanych deskryptorów musi
się zgadzać z deskryptorami danej klasy w zbiorze uczącym.
5.3 Inne osiągnięcia naukowo badawcze po uzyskaniu stopnia doktora
5.3.1 Recenzje
W czasie od obrony doktoratu wykonywałem recenzje do różnych czasopism.
IEEE Transaction on Knowledge and Data Engineering, 2015-2018: 2 recenzje,
Expert Systems with Applications, 2015-2018: 3 recenzje,
Entropy, 2018: 1 recenzja,
IEEE Transaction on Neural Networks and Learning Systems, 2017-2018: 2 recenzje,
Pattern Recognition Letters, 2017-2018: 1 recenzja
Information System, 2017: 1 recenzja
5.3.2 Udział w projektach
a) Nowe podejście do modelowania w niestacjonarnym środowisku, 2015, Opus, Narodowe Centrum Nauki, wykonawca
5.3.3 Udział w konferencjach naukowych
a) IEEE International Joint Conference on Neural Networks (IJCNN), Vancouver, Kanada, 2016
b) The 15th International Conference on Artificial Intelligence and Soft Computing, Zakopane, Polska, 2016;
c) The 16th International Conference on Artificial Intelligence and Soft Computing
Zakopane, Polska, 2017;
d) The 2017 IEEE Symposium Series on Computational Intelligence, Honolulu, Stany
Zjednoczone Ameryki Północnej, 2017;
e) The 17th International Conference on Artificial Intelligence and Soft Computing,
Zakopane, Polska, 2018;
f) 15th International Symposium on Neural Networks, Mińsk, 2018
g) IEEE International Joint Conference on Neural Networks (IJCNN), Rio de Janeiro, Brazylia,
2018.
5.3.4 Wykaz dorobku dydaktycznego
Inteligencja obliczeniowa, wykład;
Podstawy sieci komputerowych
Programowanie stron internetowych
5.3.5 Pozostałe a) Pomoc przy organizacji konferencji „International Conference on Artificial Intelligence
and Soft Computing” w latach 2012, 2013, 2014, 2015, 2016, 2017, 2018;
b) Współorganizacja sesji specjalnej “Workshop: Stream Data Mining" w ramach
konferencji The 16th International Conference on Artificial Intelligence and Soft
Computing ICAISC 2017;
c) Udział w spotkaniach "Polskiej grupy badawczej systemów uczących się" (SIG-ML) od
2013 roku;
d) Współorganizacja VI spotkania grupy SIG-ML, Częstochowa, 14 kwietnia 2016
e) Członek Polskiego towarzystwa sieci neuronowych od 2018;
f) Udział w komisji rekrutacyjnej na Wydziale Inżynierii Mechanicznej i Informatyki,
Politechniki Częstochowskiej 2015-2018;
g) Promotor pomocniczy doktoranta Piotra Woldana, który otworzył przewód 21 czerwca
2018 roku na Wydziale Inżynierii Mechanicznej i Informatyki, tytuł rozprawy:
„Hybrydowe struktury uczenia głębokiego, wsparte technologią NLP w zastosowaniu do
systemów rekomendacyjnych”.