Zastosowanie analiz Data Mining w przewidywaniu groźby … · 2016-10-03 · W artykule...
Transcript of Zastosowanie analiz Data Mining w przewidywaniu groźby … · 2016-10-03 · W artykule...
MIROSŁAWA LASEK
MAREK P�CZKOWSKI
DARIUSZ WIERZBA
Uniwersytet Warszawski
ZASTOSOWANIE ANALIZ DATA MINING W PRZEWIDYWANIU GRO�BY UPADŁOCI LUB KONIECZNOCI PROWADZENIA POST�POWANIA
UKŁADOWEGO PRZEDSI�BIORSTWA – BUDOWA MODELI PREDYKCYJNYCH, OCENA ICH JAKOCI I WYBÓR MODELU
Streszczenie
W artykule przedstawiono przydatno�� modeli Data Mining do przewidywania
gro�by upadło�ci lub post�powania układowego przedsi�biorstwa. Opisano zastoso-
wanie modeli predykcyjnych: regresji logistycznej, drzew decyzyjnych oraz sieci
neuronowych. Rozwa�ania zilustrowano posługuj�c si� danymi około sze�ciu tysi�cy
przedsi�biorstw, w�ród których cz��� była zagro�ona upadło�ci� lub post�powaniem
układowym.
Słowa kluczowe: prognozowanie upadłoci lub post�powania układowego przedsi�biorstwa,
modele predykcyjne Data Mining, regresja logistyczna, drzewa decyzyjne, sieci
neuronowe
1. Wst�p
Celem artykułu jest przedstawienie wyników bada� przydatnoci analiz Data Mining w wyło-
nieniu cech sygnalizuj�cych gro�b� upadłoci przedsi�biorstwa lub skłaniaj�cych do podj�cia
post�powania układowego dla „uratowania” firmy oraz mo�liwoci pozyskania wiedzy, jak na
podstawie znajomoci wartoci tych cech mo�na przewidzie� zagro�enie upadłoci� lub koniecz-
noci� prowadzenia post�powania układowego.
Pod poj�ciem cech rozumie si� tu charakterystyki kondycji finansowej i maj�tkowej firmy,
pochodz�ce ze sprawozda� finansowych (bilans, rachunek zysków i strat, rachunek przepływów
pieni��nych), takie jak maj�tek trwały, maj�tek obrotowy, stan rodków pieni��nych, przychody ze
sprzeda�y, zobowi�zania oraz wska�niki charakteryzuj�ce kondycj� ekonomiczn�, do których
nale�� wska�niki płynnoci, zyskownoci, aktywnoci i zadłu�enia.
Analizy Data Mining s� to analizy realizowane za pomoc� zaawansowanych metod statystycz-
nych oraz metod sztucznej inteligencji, które pozwalaj� wykrywa� zale�noci mi�dzy obiektami
lub cechami opisuj�cymi obiekty na podstawie nagromadzonych du�ych zbiorów danych. Metody
te pozwalaj� na podstawie danych tworzy� wiedz� – budowa� zale�noci, wskazywa� wzorce,
okrela� trendy [4], [8], [10], [11].
2. Dane wykorzystywane w prowadzeniu analiz
Wykorzystywany przez nas zbiór danych obejmował dane 5828 przedsi�biorstw. Sporód tych
przedsi�biorstw a� 4954 to przedsi�biorstwa bardzo dobre, tzw. „gazele biznesu” polskiej gospo-
Mirosława Lasek, Marek P�czkowski, Dariusz Wierzba
Zastosowanie analiz Data Mining w przewidywaniu gro�by upadło�ci lub konieczno�ci
prowadzenia post�powania układowego przedsi�biorstwa…
82
darki. S� to dynamicznie rozwijaj�ce si� firmy o czystej reputacji i nie maj�ce problemów finan-
sowych. Pozostałe 874 przedsi�biorstwa to firmy, wobec których s�d ogłosił upadło� oraz firmy,
wobec których s�d ogłosił post�powanie układowe. Przedsi�biorstw, wobec których s�d ogłosił
upadło� – zgodnie z prawem upadłociowym obowi�zuj�cym przed sierpniem 2003 r. lub
upadło� zakładaj�c� likwidacj� firmy zgodnie z prawem upadłociowym i post�powaniem
naprawczym, obowi�zuj�cym po sierpniu 2003 r., było w analizowanym zbiorze 402. Natomiast
przedsi�biorstw, wobec których s�d ogłosił post�powanie układowe było 472. Przyj�to rozumie�post�powanie układowe zgodnie z prawem upadłociowym obowi�zuj�cym przed 08.2003 lub
reorganizacji firmy zgodnie z prawem upadłociowym i post�powaniem naprawczym obowi�zuj�-cym po 08.2003. Post�powanie naprawcze jest form� ochrony przed wierzycielami zgodnie z
prawem upadłociowym i post�powaniem naprawczym, obowi�zuj�cym po 08.2003. Przedsi�bior-
stwa upadłe i z post�powaniem układowym stanowiły 15,7% badanych przedsi�biorstw, a 84,3%
stanowiły „gazele”1. Pomijaj�c „gazele” przedsi�biorstw upadłych było 46%, a przedsi�biorstw z
post�powaniem układowym 54%. Liczba analizowanych cech kondycji firm oraz wska�ników -
dalej nazywamy je tak�e charakterystykami kondycji lub zmiennymi analizy - wynosiła ł�cznie
144. Zostały uwzgl�dnione wielkoci ze sprawozda� finansowych, takie jak maj�tek trwały,
maj�tek obrotowy, rodki pieni��ne, suma aktywów, kapitał (fundusz) własny, zobowi�zania
długoterminowe, zobowi�zania krótkoterminowe i fundusze specjalne, zobowi�zania krótkotermi-
nowe, przychody ze sprzeda�y, amortyzacja, rodki pieni��ne z działalnoci operacyjnej, rodki
pieni��ne z działalnoci inwestycyjnej, rodki pieni��ne z działalnoci finansowej, zmiana stanu
rodków netto, rodki na pocz�tek roku obrotowego, rodki na koniec roku obrotowego oraz
wska�niki, takie jak zysk lub strata (zysk/strata) ze sprzeda�y, zysk/strata na działalnoci operacyj-
nej, zysk/strata brutto na działalnoci operacyjnej, zysk/strata brutto, zysk/strata netto. Uwzgl�d-
niono wska�niki nale��ce do 17 ró�nych grup: płynnoci, rotacji aktywów (maj�tku) trwałych,
rotacji aktywów (maj�tku) w dniach, rotacji kapitału, rotacji kapitałem w dniach, struktury
kapitałowej, struktury maj�tkowej, struktury maj�tkowo-kapitałowej, efektywnoci pracy i wartoci
dodanej, rentownoci, rozwoju, struktury przychodów, struktury kosztów, rynku kapitałowego,
d�wigni finansowej i operacyjnej, wiarygodnoci kredytowej, tendencji.
3. Prowadzone analizy
Przeprowadzono analizy danych, przyjmuj�c ró�ne sposoby podziału przedsi�biorstw na gru-
py i uwzgl�dniania firm z grup o ró�nej kondycji ekonomicznej. W pierwszej z przeprowadzonych
analiz przedsi�biorstwa upadłe i z post�powaniem układowym traktowano ł�cznie i porównywano
z przedsi�biorstwami „gazelami”. W analizie wzi�ły wi�c udział wszystkie badane przedsi�bior-
stwa. W budowanych modelach Data Mining zmienn� objanian� była zmienna binarna, przyjmu-
j�ca warto� 1, je�eli przedsi�biorstwo upadło lub ma post�powanie układowe i 0, gdy jest
„gazel�”. W drugim przypadku staralimy si� zbada�, czy istniej� istotne ró�nice mi�dzy przedsi�-biorstwami upadłymi a przedsi�biorstwami z post�powaniem układowym („gazele” nie były
uwzgl�dniane). Analizowany zbiór przedsi�biorstw liczył 874 przedsi�biorstwa. Jako zmienn�objanian� przyj�to przedsi�biorstwa upadłe, a zatem warto� 1 zmiennej wskazywała przedsi�-biorstwo upadłe, warto� 0 – przedsi�biorstwo z post�powaniem układowym. Trzeci przypadek
1 Zgodnie z zało�eniami analiz Data Mining, w celu przyspieszenia oblicze�, rozkłady cech s� ustalane na podstawie
zbioru metadanych, stanowi�cego losowy zbiór 2000 obserwacji całego zbioru danych.
POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�
Seria: Studia i Materiały, nr 22, 2009
83
dotyczył przedsi�biorstw upadłych i „gazel”. Przedsi�biorstwa z post�powaniem układowym nie
były brane pod uwag�. Zbiór analizowanych przedsi�biorstw obejmował 5356 firm (402 upadłych i
4954 „gazel”). Jako zmienn� objanian� przyj�to zmienn� binarn�, okrelaj�c� - firm� upadł�(warto� 1) i „gazel�” (warto� 0). W czwartym przypadku nie wzi�to pod uwag� przedsi�biorstw
upadłych. Analizowane były przedsi�biorstwa z post�powaniem układowym i „gazele”, ł�cznie
5426 przedsi�biorstw. Interesowała nas analiza przedsi�biorstw z post�powaniem układowym i
„gazel”, bez uwzgl�dnienia sytuacji upadłoci. Jako zmienn� objanian� przyj�to zmienn� binarn�okrelaj�c� firm� z post�powaniem układowym (warto� 1 zmiennej) i przeciwny przypadek – nie
ma post�powania układowego, co oznacza „gazel�”.
4. Zastosowane analizy i modele Data Mining
W badaniu wykorzystalimy program Enterprise Miner firmy SAS [5], [7]. Zgodnie z metodo-
logi� modelowania Data Mining wymaga on zbudowania diagramu, wyznaczaj�cego przebieg
przetwarzania. Diagram taki zamieszczono na rysunku 1. Elementami diagramu s� w�zły przetwa-
rzania danych, poł�czone strzałkami wskazuj�cymi kierunek przetwarzania. W celu identyfikacji
w�złów maj� one przypisane nazwy.
Rys. 1. Diagram przebiegu przetwarzania danych
ródło: Opracowanie własne przy wykorzystaniu programu Enterprise Miner.
5. Wprowadzanie danych do analizy i podział zbioru danych na zbiór treningowy, walida-
cyjny i testowy
W�zeł MINER.FIRMY jest w�złem wprowadzania danych wejciowych (rys. 1). Jego nazwa
jest jednoczenie nazw� wejciowego zbioru danych (nazwa ta składa si� z nazwy biblioteki,
w której umieszczony jest zbiór danych oraz nazwy tablicy z danymi). W�zeł Data Partition jest
w�złem podziału zbioru danych na zbiory: treningowy, walidacyjny i testowy (rys. 1). Budowa
modeli eksploracji danych Data Mining wymaga realizacji trzech etapów: trenowania, walidacji
i testowania, i dla wykonania ka�dego z tych etapów musimy utworzy� oddzielne zbiory: trenin-
gowy (Training Set), walidacyjny (Validation Set), testowy (Testing Set). Powstaj� one przez
podział (na ogół losowy) wejciowego zbioru danych na trzy cz�ci. Zbiór treningowy jest zbiorem
Mirosława Lasek, Marek P�czkowski, Dariusz Wierzba
Zastosowanie analiz Data Mining w przewidywaniu gro�by upadło�ci lub konieczno�ci
prowadzenia post�powania układowego przedsi�biorstwa…
84
danych, na podstawie których wykrywamy mo�liwe zale�noci mi�dzy zmiennymi. Zbiór trenin-
gowy jest u�ywany do wst�pnego oszacowania parametrów modelu. Zbiór walidacyjny jest
u�ywany do dostrojenia parametrów modelu, które zostały oszacowane w oparciu o zbiór trenin-
gowy. U�ycie tego zbioru poprawia własnoci predykcyjne modelu, tzn. model pozwala lepiej
przewidywa� wartoci zmiennych objanianych dla nowych obserwacji, niewyst�puj�cych w
dotychczas badanych zbiorach. Zbiór testowy jest zbiorem, który słu�y do zbadania, na ile wykryte
zale�noci s� prawdziwe dla innych zbiorów danych. Domyln� metod� podziału �ródłowego
zbioru danych na zbiór treningowy, walidacyjny i testowy jest losowanie proste (opcja Simple
Random w programie Enterprise Miner). Domylna metoda Simple Random dokonuje podziału
zbioru danych na podzbiory: treningowy, walidacyjny i testowy w sposób losowy, oparty na
losowaniu prostym, gdzie prawdopodobie�stwo wejcia do ka�dego z podzbiorów jest dla ka�dej
obserwacji takie samo. Przy takim post�powaniu struktura ka�dego z tworzonych podzbiorów
powinna by� podobna do struktury całego zbioru i mo�emy przyj��, �e ka�dy z podzbiorów dobrze
reprezentuje cały zbiór. Taki sposób podziału na zbiory treningowy, walidacyjny i testowy
przyj�limy w analizach przedstawianych w tym artykule. Przedstawiony powy�ej sposób tworze-
nia zbiorów: treningowego, walidacyjnego i testowego nie jest odpowiedni w sytuacji, gdy pewne
wartoci zmiennych pojawiaj� si� w całym zbiorze bardzo rzadko (stanowi�c przykładowo 1%,
0,2% wszystkich obiektów). Wówczas próba licz�ca du�o obserwacji (np. 1000) mo�e zawiera�tylko kilka przypadków przyjmuj�cych okrelone wartoci danej zmiennej i nie jest mo�liwe
wierne odzwierciedlenie struktury całego zbioru danych. Przykładem takiego zbioru mo�e by�zbiór przedsi�biorstw zawieraj�cych mał� liczb� bankrutów. W takiej sytuacji zamiast metody
Simple Random proponuje si� inny sposób losowania, np. polegaj�cy na losowaniu osobno z
ka�dego typu obiektów, nazywanych warstwami. Taki sposób losowania nazywa si� losowaniem
warstwowym (Stratified) i mo�e on zapewni� odpowiedni� liczebno� obserwacji posiadaj�cych
rzadk� warto� cechy w zbiorze treningowym, walidacyjnym i testowym w opisywanej sytuacji
nierównomiernego rozkładu wartoci danych. Mo�emy okreli� udział procentowy, jaki b�d�stanowi� dane treningowe, walidacyjne i testowe w zbiorze danych. Przyj�limy w naszej analizie
cz�sto stosowane ustalenie domylne (40% - zbiór treningowy, 30% - zbiór walidacyjny, 30% -
zbiór testowy).
6. Wst�pna selekcja zmiennych dla przeprowadzania bada�
Nast�pny z umieszczonych w�złów na diagramie (rys. 1), to w�zeł Variable Selection. Ten
w�zeł umo�liwia wybór zestawu zmiennych, które najsilniej wpływaj� na wartoci zmiennej
objanianej. Jako kryterium wyboru zmiennych, narz�dzie Variable Selection umo�liwia wykorzy-
stanie współczynników determinacji R2.2 W przypadku stosowania R
2 ocena zmiennych dokony-
wana jest na podstawie kryterium dobroci dopasowania (goodness-of-fit). Wykorzystywana jest
technika krokowa wyboru zmiennych. Jest to procedura iteracyjna, która powoduje, �e w kolejnych
krokach poprawiana jest warto� współczynnika determinacji R2. Zako�czenie działania wyboru
nast�puje, gdy poprawa R2 jest mniejsza ni� 0,005. Domylnie, odrzucane s� zmienne, których
wkład w polepszenie wyniku jest mniejszy ni� 0,005. Proces wyboru zmiennych przy przyj�ciu
2 Alternatyw� jest wybór zmiennych w oparciu o kryterium Chi-square, wykorzystuj�ce miar� χ2
.
POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�
Seria: Studia i Materiały, nr 22, 2009
85
kryterium R2 składa si� w przypadku binarnej zmiennej objanianej (binary target)3 z trzech
kroków: (1) obliczane s� kwadraty współczynników korelacji ka�dej zmiennej ze zmienn� obja-
nian� i nast�pnie odrzucane s� zmienne, które maj� kwadrat współczynnika korelacji poni�ej
ustalonego poziomu (domylnie 0,005), (2) pozostałe zmienne s� brane pod uwag� w procedurze
regresji krokowej w przód (forward stepwise R2 regression). Zmienne, które powoduj� polepszenie
wyniku w stopniu mniejszym ni� przyj�te kryterium progowe s� odrzucane, (3) dla binarnych
zmiennych objanianych przeprowadzana jest analiza regresji logistycznej z u�yciem wartoci
teoretycznych zmiennej objanianej jako zmiennej niezale�nej. Program podaje przyczyn�odrzucenia zmiennej. W naszym przypadku zostało wybranych 30 zmiennych.4
7. Ocena jako�ci modeli i wybór rodzaju przeprowadzanej analizy za pomoc� modelu
Zastosowalimy trzy modele analizy danych [2], [3]: (1) regresji logistycznej (w�zły RegStep,
RegForw, RegBack), (2) drzew decyzyjnych (w�zeł Tree), (3) sieci neuronowych (w�zeł Neural
Network). Porównanie jakoci tych modeli jest dokonywane w w��le Assessment. Nim szczegóło-
wo rozpatrzymy zastosowane modele, przyjrzyjmy si� wykresom uzyskanym w w��le Assessment.
Wykresy te pozwalaj� porówna� tworzone modele pod wzgl�dem ich jakoci i wybra� najlepszy
model, który mo�e by� zastosowany do wyjanienia zachowania si� zmiennej zale�nej i do
prognozowania. W�zeł Assessment umo�liwia otrzymanie wykresu wzrostu (lift chart) pozwalaj�-cego oceni� wizualnie jako� dopasowania modelu do danych i oceni�, który model jest pod tym
wzgl�dem najlepszy. Wykresy wzrostu pozwalaj� oceni� efektywno� modelu pod wzgl�dem
trafnoci własnoci predykcyjnoci (przewidywania odpowiedzi). Na podstawie oszacowanego
modelu, dla ka�dej obserwacji w zbiorze walidacyjnym jest obliczane przewidywane prawdopodo-
bie�stwo sukcesu. Nast�pnie obserwacje s� ustawiane malej�co według tych prawdopodobie�stw i
zbiór jest dzielony na 10 równych cz�ci. Ka�da cz�� tworzy grup� decylow� w zbiorze walida-
cyjnym.5 Na wykresie zaznaczane s� decyle na osi poziomej (oznaczane jako percentyle: 10,
20,...). Na osi pionowej s� zaznaczane odpowiednie charakterystyki zale�ne od liczby sukcesów w
poszczególnych grupach decylowych. Enterprise Miner umo�liwia wybór jednej z nast�puj�cych
3 Je�eli zmienna obja�niana nie jest binarna, s� wykonywane tylko dwa pierwsze kroki. 4 Wybrane zmienne, to (kolejno�� alfabetyczna): Amortyzacja (AMORTYZACJA), Krótkoterminowe aktywa finansowe
(�rodki pieni��ne) do aktywów ogółem (KAFSPDAO), Kapitał (fundusz) własny (KAPWL), Koszty finansowe do
przychodów ogółem (KFDPO), Kapitał obrotowy netto do aktywów (maj�tku) obrotowych (KONDAO), Korekty o pozycje
(KORPOZ), Kapitał stały do aktywów ogółem (KSDAO), Kapitał własny do aktywów (maj�tku) trwałych (KWDAT),
Nadwy�ka finansowa do aktywów ogółem (NFDAO), Nadwy�ka finansowa do zobowi�za� krótkoterminowych (NFDZK),
Nakłady inwestycyjne do aktywów ogółem (NIDAO), Obci��enia finansowe (OF), Ryzyko likwidacji (RL), Wynik netto do
aktywów ogółem (ROA) skorygowany (ROAS), Rotacja zobowi�za� krótkoterminowych (RZK), Udział aktywów (maj�tku)
obrotowych netto w aktywach (UAMONWA), Udział krótkoterminowych aktywów finansowych (�rodków pieni��nych) w
aktywach (maj�tku) obrotowych (UKAFAO), Udział kosztów działalno�ci operacyjnej w kosztach uzyskania przychodu
(UKDOWKUP), Udział kosztów finansowych w kosztach uzyskania przychodów (UKFWKUP), Udział przychodów
finansowych w przychodach ogółem (UPFWPO), Udział zobowi�za� z tytułu podatków, ceł, ubezpiecze� w zobowi�za-
niach krótkoterminowych (UZPCUZK), Udział zapasów w aktywach (maj�tku) obrotowych (UZWAMO), Wynik na
działalno�ci operacyjnej do aktywów ogółem (WNDODAO), Wska�nik unieruchomienia (WU), Zobowi�zania z tytułu
funduszy specjalnych do sprzeda�y w dniach (ZFSDSD), Zobowi�zania krótkoterminowe (ZOBKR), Zobowi�zania
krótkoterminowe i fundusze specjalne (ZOBKRIFS), Zysk/strata brutto (ZYNSB), Zysk/strata brutto na działalno�ci
operacyjnej (ZYNSBNDO), Zysk/strata ze sprzeda�y (ZYNSZS).5 W programie Enterprise Miner obserwacje s� ustawiane malej�co, a grupy decylowe s� tworzone w odwrotnej
kolejno�ci, ni� zazwyczaj w badaniach statystycznych. Pierwsza grupa decylowa zawiera najwi�ksze warto�ci.
Mirosława Lasek, Marek P�czkowski, Dariusz Wierzba
Zastosowanie analiz Data Mining w przewidywaniu gro�by upadło�ci lub konieczno�ci
prowadzenia post�powania układowego przedsi�biorstwa…
86
charakterystyk (Vertical Axis Value): % Response, % Captured Response, Lift Value. Ka�dy z
wykresów mo�e przedstawia� wartoci skumulowane (Cumulative) lub nieskumulowane (Non-
Cumulative). Sposób tworzenia wartoci na osi pionowej wyjaniamy na przykładzie – tabela 1.6
Przypu�my, �e zbiór walidacyjny ma 1000 obserwacji, zatem ka�da grupa decylowa ma 100
obserwacji. Załó�my dalej, �e w zbiorze walidacyjnym było 200 sukcesów (tzn. wyst�piło badane
zdarzenie) i rozkładały si� one w nast�puj�cy sposób w grupach decylowych: 50, 40, 30, 20, 15,
20, 5, 5, 12, 3. W dobrze dopasowanym modelu udział pozytywnych odpowiedzi powinien by�najwi�kszy w ostatnich grupach decylowych, a mały w pocz�tkowych grupach decylowych. Aby
ułatwi� interpretacj� wykresu, jest on zaopatrzony w lini� (baseline curve), która przedstawia
wynik dla stałej liczby sukcesów wynikaj�cej z prawdopodobie�stwa sukcesu w zbiorze walidacyj-
nym. Je�eli krzywa jest zbli�ona do prostej Baseline, to oznacza, �e model jest słabo dopasowany
do danych. Na rysunku 2 (a) i 2 (b) przedstawilimy wykresy, wybieraj�c opcj� % Captured
Response i Cumulative. Rysunek 2 (a) ilustruje przypadek analizy dwóch grup przedsi�biorstw:
grupy „gazel” oraz grupy przedsi�biorstw z orzeczon� upadłoci� i prowadzeniem post�powania
układowego. Rysunek 2 (b) przedstawia wyniki, gdy nie uwzgl�dnialimy „gazel” i porównywali-
my przedsi�biorstwa z orzeczon� upadłoci� z przedsi�biorstwami prowadz�cymi post�powanie
układowe. W pierwszym przypadku modele charakteryzuj� si� dobr� jakoci�, tzn. pozwalaj� one
odró�ni� przedsi�biorstwa dobre („gazele”) i złe (upadłe lub z post�powaniem układowym). W
drugim przypadku wida�, �e na podstawie wybranych zmiennych objaniaj�cych nie mo�na
zadowalaj�co prognozowa�, do której grupy (z orzeczon� upadłoci�, czy te� prowadzeniem
post�powania układowego) nale�y przedsi�biorstwo. Grupy te maj� podobne własnoci. Dlatego w
dalszych analizach zajmowalimy si� tylko przypadkiem porównywania własnoci „gazel” i
traktowanych ł�cznie przedsi�biorstw upadłych lub zagro�onych post�powaniem układowym.
Rysunek 2 (a) ukazał te�, �e najlepsze pod wzgl�dem własnoci predykcyjnych okazały si� modele
6 W obliczeniach przyj�to oznaczenia: N - liczba obserwacji w zbiorze walidacyjnym (1000), K - liczba sukcesów w
zbiorze walidacyjnym (200), n - liczba obserwacji w grupie decylowej (N/10=100), k - �rednia liczba sukcesów w grupie
decylowej (K/10=20), m(j) - liczba pozytywnych odpowiedzi w j-tej grupie decylowej. Dla wykresów nieskumulowanych:
% Response jest liczone jako udział (wyra�ony w procentach) odpowiedzi pozytywnych w danej grupie decylowej. Jest to
ułamek, w którym licznik wynosi m(j), mianownik wynosi n (patrz kolumna % Response). Np. 1 decyl - 50/100=50% , 2
decyl - 40/100 =40%. % Captured Response – jest to udział pozytywnych odpowiedzi znajduj�cych si� w danej grupie
decylowej do wszystkich pozytywnych odpowiedzi. Licznik ułamka wynosi m(j), a mianownik wynosi K (patrz kolumna %
Captured Response). Np. 1 decyl - 50/200=25% , 2 decyl - 40/200 =20%. Lift Value - jest to stosunek pozytywnych
odpowiedzi w danej grupie decylowej do �redniej liczby pozytywnych odpowiedzi przypadaj�cej na grup� decylow�.
Licznik ułamka wynosi m(j), a mianownik wynosi k (patrz kolumna Lift Value). Np. 1 decyl - 50/20=2,50 , 2 decyl - 40/20
=2,00. Zatem dla warto�ci nieskumulowanych licznik ułamka wynosi zawsze m(j), a mianownik ułamka jest stały, ale
ró�ny dla ró�nych rodzajów wykresów. Dla wykresów skumulowanych licznik ułamków zawiera skumulowan� liczb�
pozytywnych odpowiedzi: M(1)=m(1), M(j)=M(j-1)+m(j) dla j=2,...,10. % Response jest liczone jako udział (wyra�ony w
procentach) odpowiedzi pozytywnych w danej grupie decylowej i w grupach decylowych wcze�niejszych. Licznik ułamka
wynosi M(j), a mianownik wynosi jn (patrz kolumna % Response). Np. 1 decyl - 50/100=50% , 2 decyl -
(50+40)/(2*100) =90/200=45%. % Captured Response – stosunek pozytywnych odpowiedzi znajduj�cych si� w danej
grupie decylowej i w grupach decylowych poprzednich do wszystkich pozytywnych odpowiedzi. Licznik ułamka wynosi
M(j), a mianownik jest stały i wynosi K (patrz kolumna % Captured Response). Np. 1 decyl - 50/200=25% , 2 decyl -
(50+40)/200 =45%. Lift Value - jest to stosunek pozytywnych odpowiedzi w danej grupie decylowej i w grupach
decylowych poprzednich do przewidywanej liczby pozytywnych odpowiedzi w tych grupach decylowych (gdyby
pozytywne odpowiedzi rozkładały si� po równo w grupach decylowych). Licznik ułamka wynosi M(j), a mianownik
wynosi jn (patrz kolumna Lift Value). Np. 1 decyl - 50/20=2,50, 2 decyl - (50+40)/(2*20) =90/40=2,25. W naszym
przykładzie otrzymali�my lini� bazow� (baseline curve), gdy wszystkie m(j)=k=20.
POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�
Seria: Studia i Materiały, nr 22, 2009
87
regresji logistycznej i sieci neuronowych, a najgorzej dopasowanym do danych okazał si� model
drzew decyzyjnych Tree.
Tabela 1. Obliczenia wykonywane dla zbudowania wykresu wzrostu (lift chart)
Nieskumulowane Skumulowane Grupa
decy-
lowa
Odpowiedzi
pozytywne
w decylu
%
Response
%Cap-
tured
Response
Lift
Value
Odpowiedzi
pozytywne
w decylu
%
Re-
sponse
%Cap-
tured
Response
Lift
Value
1 50 50,0% 25,0% 2,50 50 50,0% 25,0% 2,50
2 40 40,0% 20,0% 2,00 90 45,0% 45,0% 2,25
3 30 30,0% 15,0% 1,50 120 40,0% 60,0% 2,00
4 20 20,0% 10,0% 1,00 140 35,0% 70,0% 1,75
5 15 15,0% 7,5% 0,75 155 31,0% 77,5% 1,55
6 20 20,0% 10,0% 1,00 175 29,2% 87,5% 1,46
7 5 5,0% 2,5% 0,25 180 25,7% 90,0% 1,29
8 5 5,0% 2,5% 0,25 185 23,1% 92,5% 1,16
9 12 12,0% 6,0% 0,60 197 21,9% 98,5% 1,09
10 3 3,0% 1,5% 0,15 200 20,0% 100,0% 1,00
ródło: Opracowanie własne.
(a) (b)
Rys. 2. Wykresy oceny opracowywanych modeli
ródło: Opracowanie własne przy wykorzystaniu programu Enterprise Miner.
8. Modele regresji
Regresja logistyczna umo�liwia oszacowanie prawdopodobie�stw, z jakimi dany obiekt nale�y
do grup okrelonych przez kategorie jakociowej zmiennej objanianej. Generowana jest funkcja
Mirosława Lasek, Marek P�czkowski, Dariusz Wierzba
Zastosowanie analiz Data Mining w przewidywaniu gro�by upadło�ci lub konieczno�ci
prowadzenia post�powania układowego przedsi�biorstwa…
88
nieliniowa, której wartoci s� interpretowane jako prawdopodobie�stwa lub warunkowe wartoci
oczekiwane zmiennej zale�nej. Do oszacowania parametrów funkcji logistycznej wykorzystywana
jest Metoda Najwi�kszej Wiarygodnoci. Jest to technika iteracyjna. Je�eli stosujemy dobór
zmiennych objaniaj�cych do modelu, to podczas realizacji procedury badane s� własnoci
statystyczne modelu i sprawdza si�, czy dodanie lub usuni�cie zmiennej istotnie polepszyło model.
Je�eli nie ma istotnej zmiany, to procedura zostaje zako�czona. W programie Enterprise Miner
dost�pne s� nast�puj�ce metody doboru zmiennych objaniaj�cych do modelu: (1) krokowa
(stepwise) – zmienne objaniaj�ce s� kolejno wprowadzane do modelu, zaczynaj�c od modelu
bazowego (bez zmiennych objaniaj�cych); dodawane s� zmienne, które s� znacz�co powi�zane ze
zmienn� objanian�. Wprowadzona do modelu zmienna mo�e zosta� usuni�ta, je�eli polepszy to
warto� przyj�tej miary jakoci modelu. W tej metodzie zmienne wprowadzane we wczeniejszym
etapie mog� zosta� usuni�te pó�niej, je�eli oka�e si�, �e b�d�c wród zmiennych w modelu nie
przyczyniaj� si� do jego polepszenia. (2) w przód (forward) – zmienne objaniaj�ce s� kolejno
wprowadzane do modelu. Najpierw rozpatruje si� model bez zmiennych objaniaj�cych. Potem
dodaje si� zmienn� najsilniej skorelowan� ze zmienn� objanian�. Potem dodaje si� kolejn�zmienn�, która polepsza model a� osi�gnie si� najlepsz� jako� modelu. Zmienne wprowadzone do
modelu nie s� usuwane; (3) w tył (backward) – najpierw jest rozwa�any model ze wszystkimi
zmiennymi objaniaj�cymi, a nast�pnie kolejno s� usuwane zmienne, które nie wywieraj�znacz�cego wpływu na zmienn� objanian�. Post�powanie kontynuuje si� do momentu, gdy
usuni�cie kolejnej zbadanej zmiennej nie daje znacz�cej poprawy. Zmienne usuni�te nie s� ju�wprowadzane do modelu. Wyniki estymacji modelu mo�na przedstawi� w postaci graficznej.
Rys. 3. Wyniki z modelu regresji krokowej
ródło: Opracowanie własne przy wykorzystaniu programu Enterprise Miner.
Oznaczenia: ksdao – kapitał stały do aktywów ogółem, upfwpo – udział przychodów
finansowych w przychodach ogółem, of – obci��enia finansowe, nidao – nakłady inwestycyjne do
aktywów ogółem, kwdat – kapitał własny do aktywów (maj�tku) trwałych, nfdao – nadwy�ka
finansowa do aktywów ogółem, uzpcuzk – udział zobowi�za� z tytułu podatków, ceł, ubezpiecze�w zobowi�zaniach, ukfwkup – udział kosztów finansowych w kosztach uzyskania przychodów, wu
POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�
Seria: Studia i Materiały, nr 22, 2009
89
– wska�nik unieruchomienia, wndodao – wynik na działalnoci operacyjnej do aktywów ogółem,
uu – zmienna objaniana: przedsi�biorstwo z orzeczeniem upadłoci lub z post�powaniem
układowym
Przyjrzyjmy si� wynikom uzyskanym w przypadku poszczególnych modeli regresji.
Rozpatrzmy przykładowo wykresy dla regresji krokowej (rys 3). Pierwszy wykres (w lewej cz�ci)
przedstawia zmienne objaniaj�ce wyst�puj�ce w oszacowanym modelu, uporz�dkowane malej�co
według wartoci bezwzgl�dnych współczynników t-Studenta (Effect T-scores). Wartoci ujemne s�zaznaczone słupkami – jasnym kolorem, wartoci dodatnie – ciemnym. Legenda umieszczona
w dolnej cz�ci wykresów pozwala na prawidłow� interpretacj� wartoci wska�nika Effect T-
scores dla ka�dego ze słupków na wykresach. Współczynnik t-Studenta jest ilorazem oszacowania
parametru stoj�cego przy zmiennej modelu i jego bł�du szacunku. Warto� bezwzgl�dna tego
wska�nika informuje o istotnoci zmiennej w oszacowanym modelu. Zmienne na wykresach s�uporz�dkowane malej�co według wartoci bezwzgl�dnej wska�nika. Na rysunku 3 – w prawej
cz�ci, przedstawiono wyniki w postaci wykresu, przedstawiaj�cego zale�no� mi�dzy wartociami
przewidywanymi (into) a obserwowanymi (from) wartociami zmiennej objanianej. Wykres jest
graficzn� ilustracj� tablicy klasyfikacji krzy�owej. Słupki na głównej przek�tnej dotycz�przedsi�biorstw, dla których model poprawnie przewiduje warto� zmiennej objanianej. Je�eli
model jest dobry, to powinna istnie� zgodno� wartoci przewidywanych (oczekiwanych)
z wartociami obserwowanymi: słupki na wykresie na przeci�ciu tych samych wartoci into i from
powinny by� najwy�sze. Tak jest w naszym przypadku, co wskazuje, �e model dobrze nadaje si�do identyfikacji przedsi�biorstw z orzeczon� upadłoci� lub post�powaniem układowym. Zmienne
o najwi�kszej istotnoci w przypadku modelu regresji w przód oraz w tył zamieszczono
w przypisie.7 W przypadku tych modeli, podobnie jak regresji krokowej, tak�e istnieje zgodno�wartoci przewidywanych z wartociami obserwowanymi, co moglimy stwierdzi� analizuj�c
wykres ilustracji tablicy klasyfikacji krzy�owej.
9. Drzewa decyzyjne
Drzewa decyzyjne stanowi� graficzn� reprezentacj� algorytmu rekurencyjnego podziału, który
polega na hierarchicznym podziale wielowymiarowej przestrzeni cech (w której znajduje si� zbiór
obiektów) na rozł�czne podzbiory a� do osi�gni�cia ich jednorodnoci ze wzgl�du na wyró�nion�cech� – zmienn� objanian�. W praktyce proces podziału jest cz�sto zatrzymywany wczeniej, aby
unikn�� tworzenia podzbiorów o bardzo małej liczbie elementów. Warunkiem zatrzymania procesu
podziału, mo�e by� maksymalna warto� okrelaj�ca liczb� poziomów drzewa (oznacza to
7 Zmienne obja�niaj�ce o najwi�kszej istotno�ci w przypadku modelu regresji w przód: nidao – nakłady inwestycyjne do
aktywów ogółem, upfwpo – udział przychodów finansowych w przychodach ogółem, ksdao – kapitał stały do aktywów
ogółem, of – obci��enia finansowe, uzpcuzk – udział zobowi�za� z tytułu podatków, ceł, ubezpiecze� w zobowi�zaniach,
nfdao – nadwy�ka finansowa do aktywów ogółem, kwdat – kapitał własny do aktywów (maj�tku) trwałych, ukfwkup –
udział kosztów finansowych w kosztach uzyskania przychodów, wu – wska�nik unieruchomienia, wndodao – wynik na
działalno�ci operacyjnej do aktywów ogółem, uzwamo – udział zapasów w aktywach (maj�tku) obrotowych.
Zmienne obja�niaj�ce o najwi�kszej istotno�ci w przypadku modelu regresji w tył: nfdao – nadwy�ka finansowa do
aktywów ogółem, upfwpo – udział przychodów finansowych w przychodach ogółem, of – obci��enia finansowe, ksdao –
kapitał stały do aktywów ogółem, nidao – nakłady inwestycyjne do aktywów ogółem, uzpcuzk – udział zobowi�za� z
tytułu podatków, ceł, ubezpiecze� w zobowi�zaniach, kwdat – kapitał własny do aktywów (maj�tku) trwałych, kfdpo –
koszty finansowe do przychodów ogółem, zynszs – zys/strata ze sprzeda�y, amortyzacja, korpoz – korekty o pozycje.
Mirosława Lasek, Marek P�czkowski, Dariusz Wierzba
Zastosowanie analiz Data Mining w przewidywaniu gro�by upadło�ci lub konieczno�ci
prowadzenia post�powania układowego przedsi�biorstwa…
90
osi�gni�cie maksymalnej „gł�bokoci drzewa”) lub osi�gni�cie minimalnej liczebnoci w w�złach
podlegaj�cych podziałowi. Drzewa s� grafami spójnymi, nie zawieraj�cymi cykli. Drzewa decy-
zyjne umo�liwiaj� przedstawianie procesu podziału zbioru obiektów na jednorodne klasy, charak-
teryzowane okrelonymi wartociami atrybutów. Wewn�trzne wierzchołki okrelaj� sposób
dokonywania podziału w oparciu o wartoci cech obiektów. Wierzchołki ko�cowe, z których nie
wychodz� �adne kraw�dzie, nazywane s� li�mi drzewa. Kraw�dzie drzewa wskazuj� wartoci
cech, na podstawie których dokonywany jest podział. Na podstawie drzewa klasyfikacyjnego
mo�emy odczyta� reguły przynale�noci obiektów do poszczególnych klas. Istniej� ró�ne algoryt-
my generowania drzew klasyfikacyjnych: Chaid, Exhaustive Chaid, C&RT, Quest. Algorytmy
ró�ni� si� sposobem wyboru cech, w oparciu o które nast�puje podział zbioru obiektów, kryterium
zako�czenia podziału powstaj�cego podzbioru obiektów, sposobem przydzielania obiektów
znajduj�cych si� w liciu drzewa do okrelonej klasy, postaci� funkcji oceniaj�cej jako� podziału,
sposobem klasyfikacji obiektów o brakuj�cych wartociach cech, charakterem rozpatrywanych
zmiennych (cech obiektów): nominalne, porz�dkowe, ci�głe. Tworzone s� drzewa klasyfikacyjne
lub regresyjne. Algorytmy klasyfikacyjne pozwalaj� na podstawie zbioru ucz�cego znale��charakterystyki podzbiorów obiektów, tak aby w oparciu o uzyskane wyniki podziału mo�na było
dokona� klasyfikacji obiektów, których przynale�no� do klas nie jest znana. W algorytmach
regresyjnych celem jest znalezienie zwi�zku opisuj�cego wpływ jednej lub wybranej liczby cech na
wskazan� cech� ilociow�. Zalety drzew decyzyjnych w stosunku do metod takich jak analiza
dyskryminacyjna, czy analiza regresji s� nast�puj�ce: (i) unika si� koniecznoci weryfikowania
zało�e� dotycz�cych rozkładów zmiennych objaniaj�cych, (ii) w modelu mog� wyst�powa�jednoczenie zmienne jakociowe i ilociowe, (iii) metody s� mało wra�liwe na wyst�powanie
wartoci odstaj�cych (outliers) dla zmiennych objaniaj�cych, (iv) wykazuj� tolerancj� na poja-
wianie si� brakuj�cych wartoci obserwowanych zmiennych, (v) dobór zmiennych objaniaj�cych
jest dokonywany automatycznie podczas działania algorytmu. Problemy czasem stwarza du�a
zło�ono� drzewa, a tak�e mo�liwo� ró�nej interpretacji uzyskanych wyników. Nie ma tak�e
�adnych wskazówek dotycz�cych wyboru optymalnego modelu. Ustalenia takie jak chocia�by
wybór metody generowania drzewa, liczby poziomów drzewa, reguł zatrzymania procedury
generuj�cej drzewo s� podejmowane dosy� arbitralnie. Przydatne jest przeprowadzanie wielu
ró�nych eksperymentów przy zastosowaniu ró�nych modeli i zało�e�. W przypadku jakociowej
zmiennej objanianej ka�dy w�zeł drzewa programu Enterprise Miner zawiera domylnie informa-
cje: w pierwszej kolumnie wartoci zmiennej objanianej (1 lub 0) i nagłówek dla ostatniego
wiersza (Total), w drugiej kolumnie dla danych ze zbioru danych treningowych - w dwóch
pierwszych wierszach udział procentowy liczby obserwacji (firm) dla ka�dej wartoci zmiennej, w
dwóch nast�pnych wierszach: liczby obserwacji (firm) dla ka�dej wartoci zmiennej, w ostatnim
wierszu ł�czn� liczb� obserwacji (firm), w trzeciej kolumnie te same dane co w drugiej, ale dla
danych ze zbioru danych walidacyjnych.
Drzewo uzyskane w wyniku badania zbioru danych grupy „gazel” oraz grupy przedsi�biorstw
z orzeczeniem upadłoci lub post�powaniem układowym przedstawiono na rysunku 4. Wyniki
przedstawiono w postaci tradycyjnej drzewa decyzyjnego, cho� Enterprise Miner pozwala prze-
prowadzi� znacznie bogatsz� analiz� wyników i ró�ne postacie wykresów ilustruj�cych drzewa
decyzyjne, np. w postaci piercienia. Rysunek drzewa wskazuje, �e o podziale na firmy upadłe i z
post�powaniem układowym oraz „gazele” najsilniejszy wpływ ma zmienna zysk/strata brutto na
działalnoci operacyjnej. Pozostałe zmienne decyduj�ce o podziale, to wynik netto do aktywów
POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�
Seria: Studia i Materiały, nr 22, 2009
91
ogółem (ROA) skorygowany, kapitał (fundusz) własny, udział zobowi�za� z tytułu podatków, ceł,
ubezpiecze� w zobowi�zaniach, rotacja zobowi�za� krótkoterminowych.
Rys. 4. Drzewo decyzyjne analizy przedsi�biorstw
ródło: Opracowanie własne przy wykorzystaniu programu Enterprise Miner.
Oznaczenia: zynsbndo – zysk/strata brutto na działalnoci operacyjnej, roas – wynik netto do
aktywów ogółem (ROA) skorygowany, kapwl – kapitał (fundusz) własny, uzpcuzk – udział
zobowi�za� z tytułu podatków, ceł, ubezpiecze� w zobowi�zaniach, rzk – rotacja zobowi�za�krótkoterminowych
10. Sieci neuronowe
Algorytm w�zła Neural Network umo�liwia trenowanie, walidacj� i testowanie wielowar-
stwowych sieci neuronowych z zastosowaniem algorytmu propagacji wstecznej (multilayer
feedforward neural networks). Domylnie Neural Network tworzy sie�, która ma jedn� warstw�ukryt�. W modelach wielowarstwowych sieci neuronowych ka�dy neuron warstwy wejciowej
odpowiadaj�cy jednej zmiennej objaniaj�cej jest powi�zany z ka�dym neuronem warstwy ukrytej,
ka�dy neuron warstwy ukrytej jest powi�zany z ka�dym neuronem kolejnej warstwy, a ka�dy
neuron ostatniej warstwy ukrytej jest powi�zany z ka�dym neuronem warstwy wyjciowej sieci.
Neurony z warstw, które nie s� s�siednie, nie s� powi�zane. Nie s� te� powi�zane neurony tej
samej warstwy. Taka struktura sieci nosi nazw� perceptronu wielowarstwowego (Multilayer
Perceptron) [9] (por te� [1], s. 162). Algorytm umo�liwia utworzenie sieci wielowarstwowej o
Mirosława Lasek, Marek P�czkowski, Dariusz Wierzba
Zastosowanie analiz Data Mining w przewidywaniu gro�by upadło�ci lub konieczno�ci
prowadzenia post�powania układowego przedsi�biorstwa…
92
ró�nej liczbie warstw i ró�nej liczbie neuronów w warstwach.8 Przebieg uczenia sieci neuronowej
mo�emy obserwowa� na monitorze podczas działania procedury. Mo�emy otrzyma� wykresy
wartoci funkcji bł�dów i statystyk dla kolejnych iteracji trenowania i walidacji sieci. Na rysunku 5
przedstawiono wykres przeci�tnego bł�du trenowania i walidacji w kolejnych iteracjach tworzenia
sieci.
Rys. 5. Wielko�ci przeci�tnego bł�du w kolejnych iteracjach trenowania i walidacji sieci neurono-
wej analizy „gazel” oraz przedsi�biorstw z orzeczeniem upadło�ci lub post�powaniem układowym
ródło: Opracowanie własne przy wykorzystaniu programu Enterprise Miner.
8 Działanie sztucznej sieci w uproszczeniu odpowiada działaniu „biologicznych struktur nerwowych”, zło�onych z
neuronów [9], (por te� [1], s. 158). Najwa�niejsza ró�nica polega na tym, �e neurony sztucznej sieci uporz�dkowane
s� w warstwy: warstw� wej�ciow�, warstw� wyj�ciow� i warstwy ukryte, a poł�czenia istniej� tylko pomi�dzy neuro-
nami s�siednich warstw [9], (por. te� [1], s. 162). Sygnały przekazywane s� w jednym kierunku: od warstwy wej�cio-
wej, poprzez kolejne warstwy ukryte do warstwy wyj�ciowej. Do neuronów docieraj� sygnały wej�ciowe, które w
sztucznej sieci neuronowej mno�one s� przez odpowiednie współczynniki zwane wagami poł�cze�, odpowiadaj�ce sile
poł�cze� synaptycznych mi�dzy biologicznymi neuronami. Wagi sztucznej sieci neuronowej s� modyfikowane na
podstawie przedstawianych sieci danych wzorcowych w trakcie procesu zwanego uczeniem lub trenowaniem sieci. W
przypadku neuronów warstwy wej�ciowej sygnałami wej�ciowymi s� warto�ci danych, podawanych do sieci z ze-
wn�trz, a w przypadku neuronów pozostałych warstw warto�ci po�rednie, pochodz�ce z wyj�� neuronów poprzednich
warstw. W ka�dym neuronie obliczana jest suma warto�ci wej�ciowych pomno�onych przez wagi, która okre�la sił�
reakcji neuronu [6], (por te� [1], s. 159). Uaktywnienie neuronu zachodzi, je�eli zostanie przekroczona pewna warto��
zwana warto�ci� progow� zadziałania (pobudzenia) neuronu. Wielko�� wyliczonego pobudzenia neuronu jest prze-
kształcana przez tzw. funkcj� aktywacji, daj�c w wyniku sygnał wyj�ciowy (warto�� wyj�ciow�) neuronu. Warto�ci
wyj�ciowe neuronów warstwy wyj�ciowej stanowi� wynik działania sieci. Uczenie sieci neuronowej, zwane tak�e
trenowaniem sieci polega na modyfikacji warto�ci wag poł�cze� pomi�dzy neuronami w sieci. Wagi te modyfikowane
s� tak, aby sie� przyj�ła zało�one warto�ci wyj�ciowe dla okre�lonych warto�ci wej�ciowych. Podczas modyfikacji wag
ulega tak�e zmianie struktura sieci. Je�eli podczas modyfikacji waga poł�czenia mi�dzy neuronami w sieci przyjmie
warto�� zero, to poł�czenie zostanie usuni�te, poniewa� warto�� zerowa wagi jest równowa�na brakowi poł�czenia.
Je�eli neuron b�dzie miał wej�ciowe i wyj�ciowe wagi poł�cze� równe zero, to jako zb�dny mo�e zosta� usuni�ty, co
powoduje zmian� w strukturze sieci.
POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�
Seria: Studia i Materiały, nr 22, 2009
93
11. Zako�czenie
Analizy Data Mining s� przydatne w poszukiwaniach charakterystyk kondycji finansowej
i maj�tkowej przedsi�biorstw. Poszukiwane s� takie charakterystyki, których wartoci pozwalaj�odró�ni� przedsi�biorstwa „słabe” (z zagro�eniem upadłoci lub post�powaniem układowym) od
przedsi�biorstw „dobrych” (np. zaliczanych do „gazel biznesu” gospodarki). Przeprowadzone
przez nas badania z wykorzystaniem licznego zbioru danych: przedsi�biorstw z orzeczeniem
upadłoci, post�powaniem układowym i „gazel biznesu” pozwoliły nam za pomoc� metod Data
Mining najpierw wst�pnie wyznaczy� istotne charakterystyki – za pomoc� algorytmu selekcji
zmiennych (w�zeł Variable Selection), a nast�pnie budowa� modele umo�liwiaj�ce przewidywa-
nie, którym przedsi�biorstwom grozi upadło� lub post�powanie układowe. Przetestowalimy
modele regresji logistycznej, drzew decyzyjnych i sieci neuronowych. Pokazalimy, �e w zale�no-
ci od posiadanych zbiorów danych (wielkoci finansowych i maj�tkowych) mo�emy otrzymywa�modele o ró�nej jakoci dopasowania do danych i z tego powodu nale�y zbudowa� ró�ne modele,
porówna� ich jako� (w�zeł Assessment), a w ko�cu wybra� model, który umo�liwi nam uzyskanie
jak najlepszych wyników w zakresie przewidywania kondycji przedsi�biorstw. Przeprowadzona
przez nas analiza wskazała na modele regresji logistycznej (krokowej, w przód, w tył) i sieci
neuronowych jako modele najlepiej nadaj�ce si� do przewidywania gro�by upadłoci lub prowa-
dzenia post�powania układowego przedsi�biorstwa. Odznaczaj� si� one przy tym bardzo podob-
nym poziomem dopasowania do danych i zdolnoci prognostycznych. Sporód zbudowanych
modeli najgorszym pod wzgl�dem dopasowania do danych i zdolnoci prognostycznych okazał si�model drzew decyzyjnych. Sporód wzi�tych pocz�tkowo pod uwag� 144 cech, wst�pna selekcja
przeprowadzona z wykorzystaniem współczynnika determinacji R2
wskazała na 30 cech o znacze-
niu diagnostycznym (przewidywania gro�by upadłoci lub podj�cia post�powania układowego). W
przypadku modeli regresji i modelu drzew decyzyjnych moglimy zidentyfikowa� cechy, które w
najwi�kszym stopniu rozstrzygały o tym, czy przedsi�biorstwo powinnimy zaliczy� do przedsi�-biorstw, którym grozi upadło� lub konieczno� prowadzenia post�powania układowego. Sie�neuronowa jest modelem „czarnej skrzynki” – nie ukazuje nam cech uj�tych w modelu i nie daje
nam takich mo�liwoci. Dla modeli regresji logistycznej i drzew decyzyjnych cechy te zostały
wymienione w artykule. W przypadku modeli regresji krokowej, w przód i w tył, wiele cech
powtarza si� w ka�dym z tych modeli. W modelu drzew decyzyjnych znacznie ró�ni� si� od
uwzgl�dnionych w modelach regresji, co mogło zadecydowa� o stwierdzonym zró�nicowaniu pod
wzgl�dem zdolnoci prognostycznych. Interpretacja merytoryczna (w naszym przypadku ekono-
miczne uzasadnienie) obecnoci poszczególnych cech w modelach wykracza poza zakres analiz
Data Mining, a niespodziewane pojawienie si� pewnej cechy w modelu jako prognostycznej mo�e
stanowi� „twórczy” wkład metod Data Mining w dziedzin� problemu (w naszym przypadku
przewidywania upadłoci lub potrzeby prowadzenia post�powania układowego).
Mirosława Lasek, Marek P�czkowski, Dariusz Wierzba
Zastosowanie analiz Data Mining w przewidywaniu gro�by upadło�ci lub konieczno�ci
prowadzenia post�powania układowego przedsi�biorstwa…
94
Bibliografia
1. Lasek M.: Data Mining. Zastosowania w analizach i ocenach klientów bankowych.
Oficyna Wydawnicza „Zarz�dzanie i Finanse”. Biblioteka Mened�era i Bankowca,
Warszawa 2002.
2. Lasek M.:, Od danych do wiedzy. Metody i techniki „Data Mining”. Optimum, nr 2,
2004, s. 17-37.
3. Lasek M.: Metody Data Mining w analizowaniu i prognozowaniu kondycji ekonomicznej
przedsi�biorstw. Zastosowania SAS Enterprise Miner. Centrum Doradztwa i Informacji
Difin, Warszawa 2007.
4. Maimon O., Rokach L. (eds.): The Data Mining and Knowledge Discovery Handbook.
Springer Science+Business Media, Inc., New York 2005.
5. Matignon R.: Data Mining Using SAS Enterprise Miner. John Wiley & Sons, Inc., New
Jersey 2007.
6. P�czkowski M.: Program ORKA 4.0. Sieci neuronowe. „Materiały na zaj�cia
laboratoryjne dla studentów szkół wy�szych”, Wydział Nauk Ekonomicznych
Uniwersytetu Warszawskiego, Warszawa 2007.
7. SAS Institute Inc.: Enterprise Miner Reference Help, SAS Institute Inc 2005.
8. Shmueli G., Patel N.R., Bruce P.C.: Data Mining for Business Intelligence. John Wiley
& Sons, Inc., New Jersey 2007.
9. Tadeusiewicz R.: Wprowadzenie do praktyki stosowania sieci neuronowych,
http://www.statsoft.pl , 2001.9
10. Triantaphyllou E., Felici G.: Data Mining and Knowledge Discovery Approaches Based
on Rule Induction Techniques. Springer Science+Business Media, Inc., New York 2007.
11. Ye N. (ed.): The Handbook of Data Mining. Lawrence Erlbaum Associates, Inc., New
Jersey 2003.
9 Artykuł był nadal dost�pny pod wskazanym adresem 9 stycznia 2009 r.
POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�
Seria: Studia i Materiały, nr 22, 2009
95
APPLICATION OF DATA MINING IN THE ENTERPRISE BANKRUPTCY PREDICTION – CONSTRUCTION OF MODELS, THEIR EVALUATION
AND SELECTION
Summary
In the article usefulness of Data Mining models for bankruptcy prediction are
discussed. Application of Data Mining prediction models such as logistic regression
model, decision tree model and neural network model are described. Considerations
are illustrated with the data from about six thousand enterprises, a proportion of
which was in bankruptcy situation.
Keywords: enterprise bankruptcy prediction, Data Mining prediction models, logistic regression,
decision trees, artificial neural networks
Mirosława Lasek
Marek P�czkowski
Dariusz Wierzba
Katedra Informatyki Gospodarczej i Analiz Ekonomicznych
Wydział Nauk Ekonomicznych
Uniwersytet Warszawski
00-241 Warszawa, ul. Długa 44/50
e-mail: [email protected]