Ile zarabiamy na modelach skoringowych - studium przypadku ... · -10 000 0 10 000 20 000 0 2 4 6 8...
Transcript of Ile zarabiamy na modelach skoringowych - studium przypadku ... · -10 000 0 10 000 20 000 0 2 4 6 8...
Ile zarabiamy dzięki modelom skoringowym -
studium przypadku procesu akceptacji kredytowej
dr Karol [email protected]
Szkoła Główna Handlowa w Warszawie
Instytut Statystyki i Demografii
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych
Plan
• Uniwersalne wartości Credit Scoring
• Jak tworzyć dane symulacyjne
• Opłacalność procesu akceptacji
kredytowej – jak zarabiać miliony
• Proces złożony – akwizycja i
sprzedaż krzyżowa
• Działalność naukowo-dydaktyczna
© Karol Przanowski 2
Credit Scoring – studium przypadku
• Ugruntować podstawy:
– Wielokryterialne pojęcie „dobrego modelu”
– Można wykazać korzyści stosowania modeli
– Modele są interpretowalne (przyczyna - skutek)
– Świadomość obciążenia próby (Reject
Inference)
– Implementacja i dobór strategii akceptacji –
nie wystarczy zbudować dobry model
statystyczny, trzeba go umieć wdrożyć w
systemach informatycznych
© Karol Przanowski 3
Data Scientist – inżynier danych
• Programowanie
• Statystyka
• Data Mining
• Rozumienie biznesu
• Komunikacja
• Kreatywność Melancholik?
• Pośrednik pomiędzy IT i biznesemCh Kincaid, How to be a Data Scientist Using SAS,
NESUG 2013 Proceedings© Karol Przanowski 4
Brak dobrych danych
• Uwarunkowania prawne (ochrona danych)
• Brak zwyczaju dzielenia się danymi (lęk
przed konkurencją, związek z biznesem)
• Brak dostatecznie długiej historii
• Wnioski odrzuconeLessmanna S, Seowb H V, Baesenscd B i Thomasd L C
(2013). Benchmarking state–of–the–art classification
algorithms for credit scoring: A ten–year update. Credit
Scoring Conference CRC, Edinburgh
http://www.business-school.ed.ac.uk/crc/conferences/© Karol Przanowski 5
Dane losowe – szczegółowy poziom
• Proces Markowa
• Macierz przejścia modyfikowana przez zmienną
makroekonomiczną
• Każdy nowy miesiąc danych tworzony jest przez
policzenie skoringu dla wszystkich istniejących kredytów.
Kredyty, które w danym miesiącu nie posiadają
spłaconej raty mają najgorsze wartości skoru, a ich
udział określony jest odpowiednim procentem z macierzy
przejść.
• Algorytm generowania danych wykonany w SAS
Karol Przanowski (2013). Banking retail consumer finance data
generator - credit scoring data repository. e–FINANSE, 9(1): 44–59.
http://www.e-finanse.com/artykuly_eng/241.pdf6
© Karol Przanowski
Jak liczymy opłacalność
© Karol Przanowski 7
• EL = PD*LGD*EAD, p – prowizja, Ai- kwota kredytu
• r=roczne oprocentowanie/12 lub r=marża/12,
• marża= roczne oprocentowanie - koszt kapitału
Advance Scorecard Builder – ASB © Karol Przanowski 8
-50 000
-40 000
-30 000
-20 000
-10 000
0
10 000
20 000
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94 96 98 100
Zysk
[kPL
N]
Procent akceptacji
Krzywa Profit zależna od mocy predykcyjnej
Gini 20% Gini 45% Gini 65% Gini 80% Gini 89%
Dlaczego się opłaca
Składowe Profit
Advance Scorecard Builder – ASB © Karol Przanowski 9
-60 000
-40 000
-20 000
0
20 000
40 000
60 000
80 0000 4 8
12
16
20
24
28
32
36
40
44
48
52
56
60
64
68
72
76
80
84
88
92
96
10
0
Stra
ta, P
rzyc
hó
d, Z
ysk
[kP
LN]
Procent akceptacji
Składowe zysku dla najlepszego modelu, Gini = 89%
Strata Przychód Zysk
Trzy najlepsze krzywe
Advance Scorecard Builder – ASB © Karol Przanowski 10
-6 000
-4 000
-2 000
0
2 000
4 000
6 000
8 000
10 000
12 000
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54
Zy
sk [
kP
LN
]
Krzywa Profit zależna od mocy predykcyjnej
Gini 65% Gini 80% Gini 89%
Polepszenie modelu
© Karol Przanowski 11
Proces złożony
• Akwizycja
– Kredyt ratalny, oprocentowanie 1%,
LGD=45%, globalne ryzyko 13%
• Sprzedaż krzyżowa (ang. cross sell)
– Kredyt gotówkowy, oprocentowanie 18%,
LGD=55%, globalne ryzyko 60%
Karol Przanowski (2013), Techniki budowy kart
skoringowych w Credit Scoring – wykorzystanie generatora
danych losowych portfela Consumer Finance, Praca
statutowa SGH - KAE/S/43/13
© Karol Przanowski 12
Założenia budowy danych
• Klient zawsze gdzieś dostanie kredyt, jeśli nie w
banku to w para-banku albo od znajomych lub
od rodziny
• Klient ma swoje priorytety, jedne kredyty spłaca,
inne nie
• Spłacalność kredytów gotówkowych zależy od
wcześniejszej historii, włączając spłacalność
kredytów ratalnych
• Mamy zatem potencjał danych, już
wygenerowanych z całą historią spłacalności
© Karol Przanowski 13
Założenia budowy danych
• Bank może wybierać, które kredyty klienta
akceptuje, dzięki czemu zmniejsza stratę
• Jeśli jednak nie akceptuje wszystkich kredytów
klienta, to bank traci cenną informację o kliencie,
wie tylko o lepszej stronie klienta
• Powstaje zatem problem wniosków odrzuconych
(ang. Reject Inference)
• Dodatkowo powstaje też brak okazji do
sprzedaży kredytu gotówkowego, bo klient był
odrzucony wcześniej aplikując o kredyt ratalny
© Karol Przanowski 14
Kredyt ratalny
© Karol Przanowski 15
1720
1740
1760
1780
1800
1820
1840
1860
0,0%
5,0%
10,0%
15,0%
20,0%
25,0%
19
70
19
71
19
72
19
73
19
74
19
75
19
76
19
77
19
78
19
79
19
80
19
81
19
82
19
83
19
84
19
85
19
86
19
87
19
88
19
89
19
90
19
91
19
92
19
93
19
94
19
95
19
96
19
97
19
98
19
99
20
00
Rok
Zmiany ryzyka i produkcji dla kredytu ratalnego
Liczba wniosków default3 default6 default9 default12
Kredyt gotówkowy
© Karol Przanowski 16
0
500
1000
1500
2000
2500
0,0%
10,0%
20,0%
30,0%
40,0%
50,0%
60,0%
70,0%
19
70
19
71
19
72
19
73
19
74
19
75
19
76
19
77
19
78
19
79
19
80
19
81
19
82
19
83
19
84
19
85
19
86
19
87
19
88
19
89
19
90
19
91
19
92
19
93
19
94
19
95
19
96
19
97
19
98
19
99
20
00
Rok
Zmiany ryzyka i produkcji dla kredytu gotówkowego
Liczba wniosków default3 default6 default9 default12
Średnie ryzyko 60% Średnie ryzyko 51%
Portfele miesięczne
© Karol Przanowski 17
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
50000
4,0%
4,2%
4,4%
4,6%
4,8%
5,0%
5,2%
5,4%
5,6%
19
70
19
71
19
72
19
73
19
74
19
75
19
76
19
77
19
78
19
79
19
80
19
81
19
82
19
83
19
84
19
85
19
86
19
87
19
88
19
89
19
90
19
91
19
92
19
93
19
94
19
95
19
96
19
97
19
98
19
99
20
00
Rok
Zmiany portfela aktywnego obu produktów i współczynnika konwersji
Liczba aktywnych kredytów Współczynnik konwersji (ang. response rate)
Wyzwanie (okres 1975-1987)
• 4 modele kart skoringowych:
– Model ryzyka dla kredytu ratalnego (PD Ins)
– Model ryzyka dla kredytu gotówkowego (PD Css)
– Model ryzyka dla kredytu gotówkowego w momencie
aplikowania o kredyt ratalny (Cross PD Css)
– Model skłonności skorzystania z kredytu
gotówkowego w momencie aplikowania o kredyt
ratalny (PR Css) (ang. response, propensity model)© Karol Przanowski 18
Okres 1975-1987
• Kalibracja modeli do prawdopodobieństwa:PD_Ins=1/(1+exp(-(-0.032205144*risk_ins_score+9.4025558419)))
PD_Css=1/(1+exp(-(-0.028682728*risk_css_score+8.1960829753)))
Cross_PD_Css=1/(1+exp(-(-0.028954669*cross_css_score+8.2497434934)))
PR_Css=1/(1+exp(-(-0.035007455*response_score+10.492092793)))
© Karol Przanowski 19
Optymalizacja gotówki
• Badając całą populację z okresu 1975-
1987, wyznaczamy krzywą profit i
znajdujemy optymalny punkt:
– reguła odrzucenia PD_Css > 27,24%
– procent akceptacji gotówki 18,97%
– zysk dla gotówki 1 591 633 PLN
• Czy postąpić podobnie z kredytem
ratalnym?
© Karol Przanowski 20
Customer LifeTime Value (CLTV)
• Każdy kredyt ratalny jest szansą do
zarobienia, jeśli tylko klient skorzysta z
gotówki.
• Trzeba zatem rozważyć ciąg produktowy:
pierwszy kredyt ratalny, drugi gotówkowy.
• Tworzymy reguły dzieląc populację na
grupy wyznaczone przez estymację ryzyka
ratalnego i estymację potencjalnej gotówki
© Karol Przanowski 21
Reguły CLTV ratalnego
• Reguły odrzucenia:
– PD_Ins > 8,19%
– 8,19% >= PD_Ins > 2,18% i (PR_Css < 2,8% lub Cross_PD_Css
> 27,24%)
• Estymowany globalny zysk z połączonego procesu:
1 686 684 PLN
• Reguła bez PR_Css:
– PD_Ins > 8,19%
• Estymowany globalny zysk z połączonego procesu:
1 212 261 PLN, czyli 30% mniej!
© Karol Przanowski 22
System decyzyjny
• Każdy zestaw reguł trzeba
przeprocesować, gdyż w zależności od
decyzji kredytowych zmieniają się rozkłady
skoringów, bo zmieniają się rozkłady
zmiennych opisujących klientów
• Testujemy zatem kilka strategii
– Strategia 1 – znalezione wcześniej reguły
– Strategia 2 – bez reguły na PR_Css
© Karol Przanowski 23
Strategia 1
© Karol Przanowski 24
32,98%
67,02%
Obserwowane
Strategia 1
© Karol Przanowski 25
A miało być
1 686 684 PLN
Istotny błąd estymacji
• Dlaczego zamiast 1 686 684 PLN zarobiliśmy
tylko 663 327 PLN?
• Gdzie podział się nasz milion?
• Wpływ wniosków odrzuconych (rewolucja w
procesie, od 100% akceptacji):
– Nieznany klient – 50,8%
– Akceptacja ratalnego – 26,3%
– Akceptacja gotówkowego – 16,23%
– PD (razem PD_Ins i PD_Css) z 37,19% na 28,87%
© Karol Przanowski 26
Strategia 2
© Karol Przanowski 27
Czyli o 551 886 PLN mniej,
aż o 83% mniej
Wnioski
• Wpływ odrzuconych wniosków w procesie
akceptacji jest trudny do przewidzenia
• Bezpieczne rozwiązanie w zarządzaniu procesem
to powolne zmiany reguł polityki
• Nigdy nie wykonywać rewolucyjnych zmian!
• Strategie muszą się zmieniać
• Ciągłe doskonalenie, ciągłe testowanie nowych
modeli i reguł
• Musimy umieć budować i mieć dobre narzędzia
• Dobre modele zarabiają na siebie i na SASa© Karol Przanowski 28
SAS Enterprise Miner
29
Materiał dydaktyczny
• Przedmiot semestralny dla studium
magisterskiego „Credit Scoring i makro-
programowanie w SAS”
– Dane losowe – interpretowalne, tysiące wierszy
i 200 kolumn, poziom rachunku
– Narzędzia SAS do budowy kart skoringowych
– System decyzyjny
– Testowanie strategii akceptacyjnych
– Projekt – budowa 4 modeli i strategii akceptacji
© Karol Przanowski 30
Zakład Analizy Historii Zdarzeń i
Analiz Wielopoziomowych
• 2013 (Związane z uczczeniem w International Year of
Statistics 2013 www.statistics2013.org)
– Advanced Analytics and Data Science www.analytics-
conference.pl
– Modelowanie dla biznesu – SKN Business Analytics
www.modelowaniedlabiznesu.pl
• 2014
– II Advanced Analytics and Data Science – 14.10
– II Modelowanie dla biznesu – SKN Business Analytics
– 15.10
© Karol Przanowski 31
Książka z Credit Scoring
© Karol Przanowski 32
Prowadzenie prac badawczych
• Porównywanie technik skoringowych
• Kodowanie zmiennych i współliniowość
• Reject Inference, MKS i MIV
• Prognozowanie kryzysu, PHREG
• Wpływ mocy predykcyjnej na zysk
• Badania stabilności modeli w czasie
• Co lepsze pricing czy Gini
• Badania monotoniczności zmiennych© Karol Przanowski 33