Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy...

40
Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data Część 2 modyfikacje algorytmów JERZY STEFANOWSKI Instytut Informatyki Politechnika Poznańska Poznań Poznań, 2020 Wykład spec. projekt eksploracji danych

Transcript of Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy...

Page 1: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych

Learning classifiers from imbalanced data

Część 2 – modyfikacje algorytmów

JERZY STEFANOWSKI Instytut Informatyki Politechnika Poznańska Poznań

Poznań, 2020

Wykład spec. projekt eksploracji danych

Page 2: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Plan wykładu

1.  Niezbalansowanie klas (przykłady; miary oceny – wstęp)

2.  Czynniki trudności i charakterystyka danych

3.  Kategoryzacja metod + dostęp do ich implementacji

4.  Przetwarzanie wstępne

§  Under-, over- sampling, SMOTE

§  Metody hybrydowe 5.  Wybrane modyfikacje algorytmów

1.  Cost sensitive learning

2.  BRACID – reguły

3.  Zespoły klasyfikatorów (RBB i inne generalizacje)

6.  Ocena klasyfikatorów

7.  Inne zagadnienia i wyzwania

Dzi

siaj

cz.

2

Page 3: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Modyfikacje algorytmów

q  Dwa podstawowe kierunki działania §  Modyfikacje danych (preprocessing i re-sampling) §  Modyfikacje algorytmów

q  Najbardziej popularne podejścia w ramach drugiej grupy §  Re-sampling or re-weighting, §  Transformacje do zadania „cost-sensitive learning“ §  Zmiany w strategiach uczenia się, użycie nowych miar oceny (np. AUC) §  Nowe strategie eksploatacji klasyfikatora (classification strategies) §  Ensemble approaches (najczęściej adaptacyjne klasyfikatory złożone typu

boosting) §  Specjalizowane systemy hybrydowe §  One-class-learning §  …

Page 4: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Inne podejścia do modyfikacji algorytmów uczących

q  Zmiany w indukcji drzew decyzyjnych (np. Hellinger distances lub asymetryczne entropie) §  Weiss, G.M. Provost, F. (2003) "Learning When Training Data are

Costly: The Effect of Class Distribution on Tree Induction" JAIR.

q  Modyfikacje w klasyfikatorach bayesowskich §  Jason Rennie: Tackling the Poor Assumptions of Naive Bayes Text

Classifiers ICML 2003.

q  Wykorzystanie „cost-sensitive learning“ §  Domingos 1999; Elkan, 2001; Ting 2002; Zadrozny et al. 2003;

Zhou and Liu, 2006

q  Modyfikacje zadania w SVM §  K.Morik et al., 1999.; Amari andWu (1999) §  Wu and Chang (2003), §  B.Wang, N.Japkowicz: Boosting Support Vector Machines for

Imbalanced Data Sets, KAIS, 2009.

Page 5: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Cost learning

Potrzeba zdefiniowania macierzy kosztów pomyłek

True = 0 True = 1

Predict = 0 C(0,0) C(0,1)

Predict = 1 C(1,0) C(1,1)

Actual = negative Actual = positive

Predict = negative TN FN

Predict = positive FP TP

Positive – Minority class Imbalanced FN is more dangerous than FP ! Zwykle C(0,1) większe niż C(1,0)

Page 6: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Cost learning

The cost of labeling an example incorrectly should always be greater than the cost of labeling it correctly.[C.Elklan] C(0,1) >> C(1,0) i …. Jak zdefiniować precyzyjne wartości kosztów? Jak je wykorzystać w klasyfikacji niezbalansowanych danych? “In cost-sensitive learning instead of each instance being either correctly or incorrectly classified, each class (or instance) is given a misclassification cost. Thus, instead of trying to optimize the accuracy, the problem is then to minimize the total misclassification cost.”

True = 0 True = 1

Predict = 0 0 80 Predict = 1 5 0

Page 7: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Definiowanie kosztów (globalne dla klasy)

Wiedząc, że koszt nierozpoznanie klasy mniejszościowej jest większy C(0,1) >> C(1,0) Prosto – ustal koszty proporcjonalnie do stopnia niezbalansowania, np.

Nguyen, Gantner, Schmidt-Thieme: Cost-sensitive learning methods for imbalanced data

Potraktuj to jako hiper-parametr o lokalnej optymalizacji (wewnętrzna ocena krzyżowa) Koszty pomyłek mogą być zdefiniowane dla poszczególnych przykładów z klasy = trudniejsze podejście

True = 0 True = 1

Predict = 0 0 1*IR Predict = 1 1 0

Page 8: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Cost sensitive learning

Cost-Sensitive Learning is a type of learning that takes the misclassification costs (and possibly other types of cost) into consideration. The goal of this type of learning is to minimize the total cost [Ling,Sheng]

Dla danej macierzy kosztów, przykład klasyfikuje się do klasy z minimalnym oczekiwanym kosztem gdzie P(j|x) jest estymatą prawdopodobieństwa przydziału x do j-tej klasy. C. Elkan, The foundations of cost-sensitive learning, in: Proceedings of the 17th International Joint Conference on Artificial Intelligence, 2001, pp. 973–978.

R (i | x ) = P ( j | x ) ⋅C (i , j )j∑

Page 9: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Cost-sensitive learning

Przydziel x do klasy pozytywnej / mniejszościowej, gdy P(0|x)C(1,0)+P(1|x)C(1,1) ≤ P(0|x)C(0,0)+P(1|x)C(0,1) można przekształcić do

P(0|x)(C(1,0)-C(0,0)) ≤ P(1|x)(C(0,1)-C(1,1)) wiedząc, że C(0,0)=C(1,1)=0 otrzymujemy

P(0|x)C(1,0) ≤ P(1|x)C(0,1) oraz P(0|x)=1-P(1|x) Otrzymujemy próg p* pozwalający na klasyfikacje przykładu x do klasy pozytywnej, gdy

Kalibracja – dane zbalansowane p*=0.5 Niezbalansowanie mniejszościowa p* < 0.5

p*= C (1,0)C (1,0)+C (0,1)

Page 10: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Cost sensitive learning

Transparent → interpretacja pracy alg. / klasyfikatora np: specific cost-sensitive algorithms, some of the weighting approaches, threshold modyfing Black box → złożone, słabo interpretowalne podejścia np.: cost-sensitive ANN, MetaCost, some boosting approaches

Ting, K.M. An instance-weighting method to induce cost-sensitive trees (2002) IEEE Transactions on Knowledge and Data Engineering, 14 (3), pp. 659-665.

P. Domingos, Metacost: a general method for making classifiers cost sensitive, in: Advances in Neural Networks, International Journal of Pattern Recognition and Artificial Intelligence, San Diego, CA, 1999, pp. 155–164.

Y. Sun, M. S. Kamel, A. K. C. Wong and Y. Wang, Cost-sensitive boosting for classification of imbalanced data, Pattern Recognition 40(12) (2007) 3358–3378

Page 11: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Cost Sensitive SVM

Wprowadzić koszty C do sformułowania zadania programowania matematycznego w SVM

Page 12: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Reguły i niezblanasowanie klas

q  zbiór uczący Ecoli: 336 ob. i 35 ob. w klasie M ; 7 atr. liczbowych q  MODLEM (noprune) 18 reguł, w tym 7 dla Minority class r1.(a7<0.62)&(a5>=0.11) => (Dec=O); [230,76.41%, 100%] r2.(a1<0.75)&(a6>=0.78)&(a5<0.57) => (Dec=O); [27,8.97%, 100%] r3.(a1<0.46) => (Dec=O); [148, 148, 49.17%, 100%] r4.(a1<0.75)&(a5<0.63)&(a2∈[0.49,0.6]) => (Dec=O); [65, 21.59%, 100%] r5.(a1<0.75)&(a7<0.74)&(a2>=0.46) => (Dec=O); [135, 44.85%, 100%] r6.(a2>=0.45)&(a6>=0.75)&(a1<0.69) => (Dec=O); [34, 11.3%, 100%] ... r12.(a7>=0.62)&(a6<0.78)&(a2<0.49)&(a1 ∈[0.57,0.68]) => (Dec=M) [6, 17.14%, 100%] r13.(a7>=0.62)&(a6<0.76)&(a5<0.65)&(a1 ∈[0.73,0.82]) => (Dec=M)[7, 20%, 100%] r14.(a7>=0.74)&(a1>=0.47)&(a2>=0.45)&(a6<0.75)&(a5>=0.59) => (Dec=M); [3, 8.57%, 100%] r15.(a5>=0.56)&(a1>=0.49)&(a2 ∈[0.42,0.44]) => (Dec=M); [3, 8.57%, 100%] r16.(a7>=0.74)&(a2 ∈[0.53,0.54]) => (Dec=M); [2, 5.71%, 100%] ...

q  A strategia klasyfikacyjna: §  Niejednoznaczne wielokrotne dopasowanie? Głosowanie większościowe §  Brak dopasowania? – reguły najbliższe

Page 13: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Modyfikacje klasyfikatorów regułowych

Większość uzwględnia pojedyncze ograniczenia Review → K.Napierała: Improving Rule Classifiers for Imbalanced Data. Ph.D. Thesis, PUT, 2013. K.Napierała, J. Stefanowski: BRACID A comprehesive approach to rule induction from imbalanced data. Int. Journal of Intelligent Information Systems, 2012.

Page 14: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

BRACID Bottom-up induction of Rules And Cases from Imbalanced Data

Założenia:

q  Hybrid knowledge representation: rule and instances

q  Induction rules by bottom-up strategy

q  Resigning from greedy sequential covering

q  Some inspirations from RISE [P.Domingos 1996]

q  Considering info about types of difficult examples

q  Local neighbors with HVDM

q  Internal evaluation criterion (F-miara)

q  Local nearest rules classification strategy

wiecej → K.Napierała, J. Stefanowski: BRACID A comprehesive approach to rule induction from imbalanced data. Int. Journal of Intelligent Information Systems. 2012

Page 15: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Od przykładów do reguł → bottom up generalization §  Single example → „seed” for the most specific rule

§  x1 → (a1=L),(a2=s),(a3=2),(a4=3) – Class A §  r1: IF (a1=L) and (a2=s) and (a3=2) and (a4=3) THEN Class A

§  Bottom up generalization § New examples and the nearest rule §  x2 → (a1=L),(a2=t),(a3=2.7),(a4=3) – Class A §  r1’: IF (a1=L) and (a3∈[2;2.7]) and (a4=3) THEN Class A

§  Rule syntax §  For nominal attribute (ai = value_ij) §  For numerical attribute (vi_lower ≤ a_i ≤ vi_upper)

Top-down:typicallymoregeneralrules

Bottom-up:typicallymorespecificrules

+ +

++ ++

+

+++ +

+ -

-

-

- -- -

-

-

--

--

Page 16: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

BRACID Bottom-up induction of Rules And Cases from Imbalanced Data

BRACID(Examples ES) 1 RS = ES 2 Ready_rules = empty_set 3 Labels = Calculate labels for minority class examples 4 Iteration=0 5 Repeat 6 For each rule R in RS not belonging to Ready_rules 7 If R’s class is minority class 8   Find Ek=k nearest examples to R not already covered

by it, and of R’s class 9 If Labels[R’s seed]=safe 10 Improved = AddBestRule(Ek, R,RS) 11 Else 12  Improved = AddAllGoodRules(Ek,R,RS) 13 If Improved=false and not Iteration=0 14 Extend (R) 15   Add R to Ready_rules 16 Else #R’s class is majority class 17   Find Ek=k nearest examples to R not already

covered by it and of R’s class 18  Improved = AddBestRule(Ek, R,RS, Label[R’s seed]) 19 If Improved=false 20 If Iteration=0 #Treat as noise 21 Remove R from RS and R’s seed from ES 22 Else 23 Add R to Ready_rules 24 Until any rule improves evaluation 25 Return RS

•  Bottom-up •  Non-sequential covering •  Evaluation of new rules with F-measues – efficient updating classification records

Page 17: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

BRACID – ocena eksperymentalna

Cele: q  Zróżnicowane dane niezbalansowane q  Porównanie wielu algorytmów

§  CN2 §  MODLEM §  C4.5 Rules §  RIPPER §  PART §  MODLEM-C multiplier classification strategy §  RISE

q  Ponadto integracja z metodami przetwarzania wstępnego §  PART + SMOTE

Page 18: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Ocena- G-mean

Zbiór BRACID RISE kNN C45.rules CN2 PART RIPPER Modlem Modlem-C

abalone 0,65 0,34 0,36 0,57 0,40 0,42 0,42 0,48 0,51

b-cancer 0,56 0,54 0,47 0,49 0,46 0,53 0,48 0,49 0,53

car 0,87 0,75 0,08 0,86 0,71 0,94 0,71 0,88 0,88

cleveland 0,57 0,23 0,08 0,26 0,00 0,38 0,26 0,15 0,23

cmc 0,64 0,51 0,52 0,59 0,26 0,54 0,25 0,47 0,54

credit-g 0,61 0,54 0,57 0,55 0,47 0,60 0,44 0,56 0,65

ecoli 0,83 0,64 0,70 0,72 0,28 0,55 0,59 0,57 0,63

haberman 0,58 0,38 0,33 0,43 0,35 0,47 0,36 0,40 0,53

hepatitis 0,75 0,60 0,62 0,51 0,05 0,55 0,50 0,50 0,64

new-thyroid 0,98 0,95 0,92 0,90 0,92 0,95 0,91 0,88 0,90

solar-flareF 0,64 0,14 0,00 0,27 0,00 0,32 0,02 0,13 0,32

transfusion 0,64 0,51 0,53 0,58 0,34 0,60 0,27 0,53 0,58

vehicle 0,94 0,90 0,91 0,91 0,51 0,92 0,92 0,92 0,94

yeast-ME2 0,71 0,44 0,34 0,51 0,00 0,42 0,45 0,34 0,37

Page 19: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

BRACID vers. Specjalizowane podejścia

q  SMOTE - Generate a synthetic example along the line between minority neighbours q  BRACID significantly better than other (Friedman test + post hoc)

More → K.Napierała, J. Stefanowski: BRACID Int. Journal of Intelligent Information Systems, 2012.

Friedman test: BRACID 1.25; SMOTE+ENN+PART 2.51; SMOTE+PART 3.16; MODLEM-C 3.86; RISE 3.98

CD = 1.3 (with Nemenyi post-hoc test) BRACID vs. S+E+PART – Wilcoxon rejects H0 Similar tests for Sensitivity and F-measure

Page 20: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Adaptacje zespołów klasyfikatorów

q  Data preprocessing + ensemble §  Boosting-based

•  SMOTEBoost, DataBoost §  Bagging-based

•  Exactly Balanced Bagging •  Roughly Balanced Bagging •  OverBagging •  UnderOverBagging •  SMOTEBagging •  Ensemble Variation

§  IIvotes q  Inne or Hybrid (EasyEnsemble) q  Cost Sensitive Boosting

§  AdaCost (C1-C3) §  RareBoost

Related: Galar et. al., A Review on Ensembles for the Class Imbalance Problem. IEEE Trans. 2011

Transformation imbalanced

data

new dataset

Page 21: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Under- Bagging – popularne rozszerzania

q  Standardowy Bagging → wykorzystuje boostraps §  sampling N examples (with replacements) equal probability

Propozycje z Undersampling q  Exactly Balanced Bagging [Ch03]

§  bootstrap samples = copy of the minority class + randomly drawn subset of the majority class (N_maj = N_min)

q  Rough Balanced Bagging [Hido 09] §  Equal probabilities of class sampling → BS_maj §  Sampling with replacement N_min and BS_maj

Under-sample bootstrap

new dataset

B1 Bi …

Input data

BT

Page 22: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Roughly Balanced Bagging

Data preprocessing + ensemble q  Under-sampling modification of

Exactly Balanced Bagging q  Instead of fixing the constant sample size, it equalizes the sampling

probability of each class q  For each of T iterations the size of the majority class in the

bootstrap BSmaj is determined probabilistically according to the negative binominal distribution For each bootstrap

•  Random size BSmaj

•  Sample with replacement Nmin and BSmaj

Prediction with majority voting q  Przykładowe rozszerzenia:

§  Attribute Selection with RBBag for highly dimensional data §  Multi-class generalization (changing sampling idea)

Hido S., Kashima H.: Roughly balanced bagging for imbalance data (2008)

Transformation imbalanced

data

bootstrap

Lango M., Stefanowski J.: The Usefulness of Roughly Balanced Bagging for Complex and High-dimensional Imbalanced Data (2016)

Page 23: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Porównanie wielu zespołów klasyfikatorów

Comparative studies Galar, Herrera et al [2011]

§  Simpler generalizations better than more complex or cost based ones

Khoshgoftaar et al. [2011] §  EBBag, RBBag better then

SMOTEBoost and RUBoost

Our study on bagging [2013]

§  RBBag ≈ EBBag >OverBag> SMOTEBag>Bagging

Similar observations, e.g.

§  Liu A., Zhu Zh [2013] + BalancedRF; and others,

0102030405060708090100

car cleveland ecoli hepati solarflare yeast

Bag EBBag RBBag Over SMOTEB BSMOTE

J. Blaszczynski, J., Stefanowski: Extending bagging for imbalanced data. Proc. CORES 2013.

Page 24: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

RBBag (liczba drzew decyzyjnych)

Relatywnie mała: §  Dla większości danych wystarczy kilkanaście

Page 25: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Neighbourhood Balanced Bagging

q  Propozycja wykorzystujące inne zasady: §  Zmodyfikuj prawdopodobieństwo losowania do próbki

bootstrapowej z wykorzystaniem “safe level” przykładu §  Zwiększ szanse wyboru przykładów mniejszościowych kosztem

większościowych (global prob.) q  Global level

§  (minority class)

§  (decrease → inverse global imbalance)

q  Local level §  Minority local neighb. ψ≥1

q  Experiments – competitive to RBBag and better than other bagging variants

11min =p

majmaj N

Np min1 =

( )k

NL

maj

ψ'

=localglobal PP ⋅

0

0,5

1

1,5

2

2,5

safe unsafe

1>ψ

k

1=ψ

J.Blaszczynski, J.Stefanowski: Neighbourhood sampling in bagging for imbalanced data. Neurocomputing (2015)

Page 26: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Podsumowanie: Data level vs Algorithm Level

Y.

Su

n,

A.

K.

C.

Wo

ng

a

nd

M

. S

. K

am

el.

Cla

ssif

ica

tio

n o

f im

ba

lan

ced

da

ta:

A r

evie

w.

Inte

rna

tio

na

l J

ou

rna

l o

f P

att

ern

Rec

og

nit

ion

23

:4 (

2009

) 68

7-71

9.

Page 27: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Więcej o miarach oceny klasyfikatorów

Wiele propozycji (różna interpretacja i przydatność) Typowy podział [Ferri et al, He book, Japkowicz]:

1.  Point / threshold measures 2.  Probabilistic measures 3.  Ranking measures

Przykłady G-mean, Fβ-measure, Kappa, MCC, IBA ROC – AUC, Precision-Recall curves

Pierwsze ukierunkowane na analizę błędów klasyfikowania / definiowane najczęściej na podstawie zawartości macierzy pomyłek

Page 28: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Podstawowe miary

Binarna macierz pomyłek: Pojedyncze miary (dwie pierwsze nieprzydatne)

Page 29: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Złożone miary

Najpopularniejsze: Matthews correlation coefficient, MCC (MCC) expresses a correlation between the actual and predicted classification and returns a value between −1 (total disagreement) and +1 (perfect agreement); 0 classifiers performs randomly

G −mean = sensitivity ⋅ specificity

Fβ =(1+β 2 ) ⋅Recall ⋅Precisionβ 2 ⋅Recall ⋅Precision

Page 30: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Tetrahedron – analiza miar oceny klasyfikatorów

D.Brzeziński, J.Stefanowski, R.Susmaga, I.Szczech ECMLPKDD 2017, oraz artykuł w Information Science 2018

Page 31: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Score classifier – podejście rankingowe

Klasyfikator - możliwość progowania wyjścia predyktora

Page 32: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Krzywa ROC oraz AUC

1 - specificity

sensitivity

Im krzywa bardziej wygięta ku górnemu lewemu narożnikowi, tym lepszy klasyfikator .

Przekątna odpowiada losowemu „zgadywaniu”. Im bliżej niej, tym gorszy klasyfikator

Można porównywać działanie kilku klasyfikatorów. Miary oceny np. AUC – pole pod krzywą,.. Powinno być więcej niż 0.5

Page 33: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Probabilistyczne podstawy ROC

Page 34: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Precision Recall Curve Pomimo dobrego zachowania AUC, może być zbyt optymistyczna dla silnego niezbalansowania /b. mała liczba przykładów mniejszościowych Alternatywa – analiza krzywej precision recall – mocniej skupia się na predykcji klasyfikatora dla klasy mniejszościowej

Page 35: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Oceny probabilityczne klasyfikatorów

Ocena niepewności predykcji klasyfikatorów Klasyfikator udostępnia oszacowania prawdopodobieństw Brier Score lub LogLoss

Page 36: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Wybrane otwarte problemy q  Lepsze zrozumienie problemu

§  Analiza sztucznych I rzeczywistych danych

§  Lepsze wykrywania dekompozycji na pod-pojęcia

§  Teoretyczna analiza wybranych metod

q  Multi-class imbalanced data

q  Nowe miary oceny

q  Rozważanie danych wielowymiaroych

q  Uczenie przyrostowe

q  Niezbalansowane strumienie danych i zmiany podjęć

q  Niezbalansowanie regresji, alg. skupień, its.

q  Large scale imbalanced learning i Big Data Spójrz do B.Krawczyk Learning from imbalanced data: open challenges and future directions (2016)

Page 37: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Literatura przeglądowa

1.  G. M. Weiss. Mining with Rarity: A Unifying Framework. SIGKDD Explorations, 6(1):7-19, June 2004

2.  Chawla N., Data mining for imbalanced datasets: an overview. In The Data mining and knowledge discovery handbook, Springer 2005.

3.  Garcia V., Sánchez J.S., Mollineda R.A., Alejo R., Sotoca J.M. The class imbalance problem in pattern classification and learning. pp. 283-291, 2007

4.  Visa, S. and Ralescu, A. Issues in mining imbalanced data sets - a review paper. Proceedings of the Midwest Artificial Intelligence and Cognitive Science Conference, Dayton, pp.67-73, 2005

5.  Y. Sun, A. K. C. Wong and M. S. Kamel. Classification of imbalanced data: A review. International Journal of Pattern Recognition 23:4 (2009) 687-719.

6.  He, H. and Garcia, E. A. Learning from Imbalanced Data. IEEE Trans. on Knowl. and Data Eng. 21, 9 (Sep. 2009), pp. 1263-1284, 2009

IEEE ICDM noted “Dealing with Non-static, Unbalanced and Cost-sensitive Data” among the 10 Challenging Problems in Data Mining Research

Page 38: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Inne odnośniki literaturowe q  J.Błaszczyński, M.Deckert, J.Stefanowski, Sz.Wilk: Integrating Selective Pre-

processing of Imbalanced Data with Ivotes Ensemble. RSCTC 2010, LNAI vol. 6086, Springer Verlag 2010, 148-157

q  J.W. Grzymala-Busse, J.Stefanowski, S. Wilk: A Comparison of Two Approaches to Data Mining from Imbalanced Data, Proc. of the 8th Int. Conference KES 2004, Lecture Notes in Computer Science, vol. 3213, Springer-Verlag, 757-763

q  K.Napierała, J.Stefanowski: Identification of Different Types of Minority Class Examples in Imbalanced Data. Proc. HAIS 2012, Part II, LNAI vol. 7209, Springer Verlag 2012, 139–150.

q  K.Napierała, J.Stefanowski, Sz.Wilk: Learning from Imbalanced Data in Presence of Noisy and Borderline Examples. RSCTC 2010, LNAI vol. 6086, 2010, 158-167

q  K. Napierała, J. Stefanowski: BRACID Journal of Intelligent Information Systems 2013

q  T. Maciejewski, J. Stefanowski: Local Neighbourhood Extension of SMOTE for Mining Imbalanced Data. Proc. of IEEE Symposium on Computational Intelligence and Data Mining, SSCI IEEE, April 11-15, 2011, Paris, IEEE Press, 104—111

q  J.Stefanowski, S. Wilk: Rough sets for handling imbalanced data: combining filtering and rule-based classifiers. Fundamenta Informaticae, vol. 72, no. (1-3) July/August 2006, 379-391.

q  J.Stefanowski, Sz.Wilk: Improving Rule Based Classifiers Induced by MODLEM by Selective Pre-processing of Imbalanced Data. Proceedings of the RSKT Workshop ECML/PKDD, 2007, 54-65.

q  J.Stefanowski, Sz.Wilk: Selective pre-processing of imbalanced data for improving classification performance. Proc. of 10th Int. Conf. DaWaK 2008,LNCS vol. 5182, Springer Verlag, 2008, 283-292.

q  I wiele inne

Page 39: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Podsumowanie

q  Niezbalansowany rozkład liczności klas (class imbalance) → źródło trudności dla konstrukcji klasyfikatorów

q  Często występuje w zastosowaniach q  Typowe metody uczenia ukierunkowane są na lepsze

rozpoznawanie klasy większościowej → potrzeba nowych rozwiązań

q  Dyskusja źródeł trudności §  Nie tylko sama niska liczność klasy mniejszościowej! §  Rozkład przykładów i jego zaburzenia

q  Rozwiązania: §  Na poziomie danych (focused re-sampling) §  Modyfikacje algorytmów

q  Ciągle ograniczona dostępność zaawansowanych lub aktualnych metod w popularnym oprogramowaniu

Page 40: Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych · 2020-03-28 · Odkrywanie wiedzy klasyfikacyjnej z niezbalansowanych danych Learning classifiers from imbalanced data

Dziękuję za uwagę

Kontakt: [email protected]

Więcej informacji w publikacjach!

Pytania lub komentarze?