Zastosowanie narzędzi eksploracji danych Data Mining do ... · Data Mining jako nowoczesna...

14
EUGENIA FRONCZAK MALGORZATA MICHALCEWICZ Uniwersytet Technologiczno – Przyrodniczy w Bydgoszczy ZASTOSOWANIE NARZDZI EKSPLORACJI DANYCH DATA MINING DO TWORZENIA MODELI ZARZDZANIA WIEDZ Streszczenie W dobie intensywnego postpu technologicznego w przedsibiorstwach reje- strowane s tysice rónego rodzaju danych. Wiedza zawarta w ogromnych zbiorach danych jest ukryta pod postaci wzorców, trendów, regularnoci i osobliwoci. Jed- nak poniewa czlowiek i techniki statystycznej analizy danych nie s w stanie ich przeanalizowa stosuje si techniki eksploracji danych, aby z duych zbiorów danych wycign wnioski wspomagajce procesy decyzyjne, prognozy czy przewidywania. Stosowanie wyspecjalizowanych narzdzi Data Mining umoliwia budowanie mode- li, testowanie modeli i stosowanie ich do nowych danych. W artykule przedstawiono zastosowanie narzdzi eksploracji danych do tworzenia modeli zarzdzania wiedz. Slowa kluczowe: Data Mining, modele zarzdzania wiedz, eksploracja danych, odkrywanie no- wej wiedzy 1. Wprowadzenie Dynamika zmian w gospodarce powoduje, e zarzdzanie wiedz oraz eksploracja danych od- grywa znaczc rol w dzialalnoci wszystkich przedsibiorstw na rynku. Wiedza w tworzona i stosowane w organizacji jest najcenniejszym zasobem i jedynym ródlem trwalej przewagi kon- kurencyjnej. Dlatego jednym z najwikszych wyzwa, przed jakim stoj organizacje w Polsce jest tworzenie wizji "zarzdzania wiedz" w realne rozwizania oraz optymalne wykorzystanie posia- danych zasobów intelektualnych i niematerialnych tak, by w sposób trwaly przyczynialy si one do tworzenia wartoci dodanej. Data Mining sluy take do zautomatyzowanego odkrywania statystycznych zalenoci i schematów w bardzo duych bazach danych [1], [6], [19]. Odkrywane, wczeniej nieznane za- lenoci i schematy, przedstawiane najczciej w formie regul logicznych, drzew decyzyjnych lub sieci neuronowych mog posiada du warto ekonomiczn i mog by uyte do wspomagania podejmowania decyzji finansowych i marketingowych w przedsibiorstwie. Eksploracja danych (Data Mining) jest obecnie bardzo intensywnie rozwijajc si dziedzin wiedzy. Glównym powodem jest gromadzenie przez ludzi coraz to wikszych iloci danych (np. typowy supermarket rejestruje dziennie dziesitki tysicy operacji sprzeday), które coraz trudniej jest analizowa za pomoc metod znanych z klasycznych baz danych (zapytanie, podsumowanie, zestawienie itp.). Istnieje przekonanie, e gdy ilo danych zaczyna przekracza pewn warto krytyczn, staj si one praktycznie bezwartociowe (szukanie igly w stogu siana). Uytkownicy zaczynaj „ton” w tym ogromie aby jako rozwiza problem, naley opracowa zupelnie inne metody analizowania zgromadzonych danych [9].

Transcript of Zastosowanie narzędzi eksploracji danych Data Mining do ... · Data Mining jako nowoczesna...

EUGENIA FRONCZAK

MAŁGORZATA MICHALCEWICZ

Uniwersytet Technologiczno – Przyrodniczy w Bydgoszczy

ZASTOSOWANIE NARZ�DZI EKSPLORACJI DANYCH DATA MINING

DO TWORZENIA MODELI ZARZ�DZANIA WIEDZ�

Streszczenie

W dobie intensywnego post�pu technologicznego w przedsi�biorstwach reje-

strowane s� tysi�ce ró�nego rodzaju danych. Wiedza zawarta w ogromnych zbiorach

danych jest ukryta pod postaci� wzorców, trendów, regularno�ci i osobliwo�ci. Jed-

nak poniewa� człowiek i techniki statystycznej analizy danych nie s� w stanie ich

przeanalizowa stosuje si� techniki eksploracji danych, aby z du�ych zbiorów danych

wyci�gn� wnioski wspomagaj�ce procesy decyzyjne, prognozy czy przewidywania.

Stosowanie wyspecjalizowanych narz�dzi Data Mining umo�liwia budowanie mode-

li, testowanie modeli i stosowanie ich do nowych danych. W artykule przedstawiono

zastosowanie narz�dzi eksploracji danych do tworzenia modeli zarz�dzania wiedz�.

Słowa kluczowe: Data Mining, modele zarz�dzania wiedz�, eksploracja danych, odkrywanie no-

wej wiedzy

1. Wprowadzenie

Dynamika zmian w gospodarce powoduje, �e zarz�dzanie wiedz� oraz eksploracja danych od-

grywa znacz�c� rol� w działalno�ci wszystkich przedsi�biorstw na rynku. Wiedza w tworzona

i stosowane w organizacji jest najcenniejszym zasobem i jedynym �ródłem trwałej przewagi kon-

kurencyjnej. Dlatego jednym z najwi�kszych wyzwa�, przed jakim stoj� organizacje w Polsce jest

tworzenie wizji "zarz�dzania wiedz�" w realne rozwi�zania oraz optymalne wykorzystanie posia-

danych zasobów intelektualnych i niematerialnych tak, by w sposób trwały przyczyniały si� one

do tworzenia warto�ci dodanej.

Data Mining słu�y tak�e do zautomatyzowanego odkrywania statystycznych zale�no�ci

i schematów w bardzo du�ych bazach danych [1], [6], [19]. Odkrywane, wcze�niej nieznane za-

le�no�ci i schematy, przedstawiane najcz��ciej w formie reguł logicznych, drzew decyzyjnych lub

sieci neuronowych mog� posiada du�� warto� ekonomiczn� i mog� by u�yte do wspomagania

podejmowania decyzji finansowych i marketingowych w przedsi�biorstwie.

Eksploracja danych (Data Mining) jest obecnie bardzo intensywnie rozwijaj�c� si� dziedzin�wiedzy. Głównym powodem jest gromadzenie przez ludzi coraz to wi�kszych ilo�ci danych (np.

typowy supermarket rejestruje dziennie dziesi�tki tysi�cy operacji sprzeda�y), które coraz trudniej

jest analizowa za pomoc� metod znanych z klasycznych baz danych (zapytanie, podsumowanie,

zestawienie itp.). Istnieje przekonanie, �e gdy ilo� danych zaczyna przekracza pewn� warto�krytyczn�, staj� si� one praktycznie bezwarto�ciowe (szukanie igły w stogu siana). U�ytkownicy

zaczynaj� „ton�” w tym ogromie aby jako� rozwi�za problem, nale�y opracowa zupełnie inne

metody analizowania zgromadzonych danych [9].

POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�

Seria: Studia i Materiały, nr 27, 2010

127

Poniewa� współczesne systemy bazodanowe s� bardzo wydajne i pojemne, st�d rzeczywistym

problemem jest nie to, jak je gromadzi, ale jak z nich efektywnie korzysta [9].

Eksploracja danych to dziedzina interdyscyplinarna. Czerpie wiedz� z systemów baz danych,

statystyki, systemów wspomagania decyzji, sztucznej inteligencji, uczenia maszynowego, wizuali-

zacji danych czy przetwarzania równoległego. Sposób prezentacji odkrytej z danych wiedzy

nazywa si� modelem wiedzy.

2. Data Mining jako nowoczesna technologia okrywania nowej wiedzy

Eksploracja danych to „...proces odkrywania nowych, wcze�niej nieznanych, potencjalnie

u�ytecznych, zrozumiałych i poprawnych wzorców w bardzo du�ych wolumenach danych" [7].

Eksploracja danych wykorzystuje ró�ne modele wiedzy do reprezentowania wzorców obecnych w

danych. Modele te obejmuj�, mi�dzy innymi, reguły asocjacyjne [1], reguły cykliczne i okresowe

[15], reguły dyskryminacyjne i charakterystyczne [3], klasyfikatory bayesowskie [12], drzewa de-

cyzyjne [17, 18], wzorce sekwencji [2], skupienia obiektów [5], przebiegi czasowe, osobliwo�ci

i wyj�tki. Wiedza odkryta w danych mo�e by postrzegana jako warto� dodana, podnosz�ca ja-

ko� danych i znacz�co polepszaj�ca jako� decyzji podejmowanych na podstawie danych.

Zdaniem W. Stanisławskiego i E. Szydłowskiej proces identyfikacji wzorców to odkrywanie

wiedzy (Knowledge Discovery). Wzorzec jest tu rozumiany jako zwi�zki, korelacje, trendy, de-

skryptory rzadkich zdarze� itp. Według autorów eksploracja danych to jedna z faz procesu

odkrywania wiedzy, co przedstawia rysunek 1.

Rysunek 1. Proces odkrywania wiedzy

�ródło: Cios K.J., Pedrycz W., Swiniarsk R.W.: “Data Mining Methods for Knowledge Discov-

ery”, Kluwer Academic Publisher Group, 2000, ISBN 0-387-33333-9 [4].

Odkrywanie wiedzy obejmuje cały proces akwizycji wiedzy, pocz�wszy od selekcji danych

�ródłowych, poprzez czyszczenie, transformacj�, kompresj� danych, odkrywanie wzorców,

a sko�czywszy na ocenie odkrytych wzorców. Na cały proces składaj� si� [10]: sformułowanie

problemu, wybór danych, czyszczenie danych, integracja danych, transformacja danych, eksplora-

cja danych, wizualizacja i ocena odkrytych wzorców, i wreszcie zastosowanie wzorców.

Dane w przedsi�biorstwie gromadzone s� w ró�nych postaciach baz. Mog� to by płaskie pli-

ki, bazy relacyjne, obiektowe. Dane te trzeba odpowiednio przygotowa. Najlepszymi danymi do

procesu eksploracji s� dane pochodz�ce z hurtowni danych. Poza tym dane, które s� wynikiem

analizy mo�na przedstawi za pomoc� narz�dzi wizualizacji. W procesie eksploracji mo�na wy-

ró�ni trzy etapy, które przedstawia rysunek 2.

Eugenia Fronczak, Małgorzata Michalcewicz

Zastosowanie narz�dzi eksploracji danych Data Mining

do tworzenia modeli zarz�dzania wiedz�

128

1.

OPISANIE DANYCH

2.

ZBUDOWANIE I TESTOWANIE

PREDYKCYJNEGO MODELU

3.

DO�WIADCZALNA

WERYFIKACJA MO-

DELU

na podstawie staty-

stycznych analiz i

wykresów mo�na za-

uwa�y podstawowe

wła�ciwo�ci danych

na podstawie danych tworzony jest mo-

del opieraj�cy si� na poznanych

wzorach danych, nast�pnie taki model

jest sprawdzany na innym zbiorze. Do-

brze zbudowany model nie powinien

si� myli, a jego wyniki musz� w du-

�ym stopniu pokrywa si� z

rzeczywistymi warto�ciami

dla zaprojektowanego mo-

delu wykonywana jest

do�wiadczalna weryfikacja

w celu upewnienia si� czy

mo�na polega na progno-

zach takiego modelu

Rysunek 2. Etapy procesu eksploracji

�ródło: Opracowanie własne.

W�ród metod eksploracji danych mo�na wyró�ni wiele technik, które przedstawia poni�sza

tabela 1.

Tabela 1. Podział metod eksploracji danych

PODZIAŁ METOD EKSPLORACJI DANYCH

Podział ze wzgl�du na wyniki analizy Podział ze wzgl�du na zbiór danych wej�cio-

wych

Techniki predykcyjne Techniki deskrypcyjne

(segmentacji)

Techniki uczenia nad-

zorowanego

(supervised learning)

(uczenie

z nauczycielem)

Techniki uczenia bez

nadzoru

(unsupervised

learning)

(uczenie bez

nauczyciela)

na podstawie znalezio-

nych wzorców dokonuj�przewidywa� i uogól-

nie� warto�ci

nieznanych atrybutów,

zachowa�, cech nowego

obiektu

wykorzystuj� poznane

wzorce do opisywania

danych i uchwycenia

ogólnych cech opisywa-

nych obiektów, zawieraj�si� tu przede wszystkim

zagadnienia grupowania

dane wej�ciowe sta-

nowi� pewien zbiór

ucz�cy, gdzie dla okre-

�lonego zestawu

warto�ci atrybutów

poznawane s� warto�ci

atrybutu wyj�ciowego,

podczas tworzenia

zbioru ucz�cego musi

by znane prawdziwe

przypisanie ka�dego

obiektu do klasy

algorytm odkrywania

wiedzy nie dysponu-

je zbiorem ucz�cym,

algorytm eksploracji

danych stara si�sformułowa model

najlepiej pasuj�cy do

obserwowanych da-

nych

ETAPY PROCESU EKSPLORACJI

POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�

Seria: Studia i Materiały, nr 27, 2010

129

Przykłady zastosowania Przykłady technik uczenia

- maj� zastosowanie tam,

gdzie istotne jest osza-

cowanie cechy

wyj�ciowej,

- na podstawie dotychcza-

sowych relacji z

klientem pozwalaj�przewidzie przyszłe

zdarzenia,

- pozwalaj� na ocen� ry-

zyka

ubezpieczeniowego

zwi�zanego z klientem,

- pozwalaj� na oszacowa-

nie

prawdopodobie�stwa

przej�cia klienta do

konkurencyjnego usłu-

godawcy.

- wykorzystywane w

celu zaklasyfikowania

klientów o podobnych

zachowaniach i ce-

chach do odr�bnych

grup,

- pozwalaj� na odkry-

wanie grup podobnych

klientów,

- pozwalaj� na znajdo-

wanie zbiorów

produktów cz�sto ku-

powanych razem,

- umo�liwiaj� identyfi-

kacj� osobliwo�ci

wyst�puj�cych w da-

nych.

- techniki klasyfikacji

(drzewa decyzyjne,

algorytmy bazuj�ce

na n najbli�szych s�-siadach, sieci

neuronowe, statystyka

bayesowska),

- techniki regresji.

- techniki analizy

skupie� (cluster-

ing),

- samoorganizuj�ce

si� mapy,

- algorytmy maksy-

malizacji warto�ci

oczekiwanej

(expectation-

maximization).

�ródło: Opracowanie własne.

3. Wady Data Mining

Analiza danych nie jest prostym zagadnieniem, dlatego podczas tego procesu pojawiaj� si�ró�ne problemy:

1. Ogromne rozmiary danych – Problem zło�ono�ci czasowej i poszukiwania zale�no�ci

mi�dzy warto�ciami atrybutów wymaga stosowania metod heurystycznych lub zmniej-

szania obszaru poszukiwa�. Zmniejszanie obszaru poszukiwa� mo�e by wykonywane

horyzontalnie(poprzez przeprowadzenie dyskretyzacji warto�ci cech) lub w płaszczy�nie

pionowej (poprzez usuwanie nadmiernych cech).

2. Wiedza analityczna – Do przeprowadzenia projektu Data Mining niezb�dne jest odpo-

wiednie przygotowanie analityczne, a tak�e dodatkowo znajomo� zagadnie�biznesowych oraz zdolno� przeło�enia problemów biznesowych na wła�ciwe techniki

analityczne. Jednak najlepsze rezultaty stosowania technologii Data Miting mo�na osi�-gn� poprzez wyj�cie od problemów biznesowych.

3. Dobrze wykwalifikowani specjali�ci – Osoba rozumiej�ca problem biznesowy powinna

tak�e rozumie, w jaki sposób dost�pne techniki analityczne i zastosowane narz�dzie

rozwi�zuje ten problem (w celu unikni�cia pułapek). Dlatego projekt Data Mining pro-

wadzony jest zwykle przez zaawansowanych analityków. Poza tym taki projekt wymaga

tak�e zaanga�owania u�ytkowników biznesowych (mened�erów, doradców), którzy ro-

zumiej� rozwa�any problem i analizowane dane oraz ludzi, którzy rozumiej�wykonywane analizy.

4. Wysokie koszty – Wdra�anie systemów Data Mining wi��e si� nie tylko z du�ymi kosz-

tami, ale tak�e z reorganizacj� całego lub cz��ci przedsi�biorstwa. Systemy te nie zawsze

Eugenia Fronczak, Małgorzata Michalcewicz

Zastosowanie narz�dzi eksploracji danych Data Mining

do tworzenia modeli zarz�dzania wiedz�

130

ułatwi� proces zarz�dzania i funkcjonowania firmy, a przy nieumiej�tnym jego wdra�aniu

mog� go jeszcze bardziej utrudni.5. Problem integracji odkrywanej wiedzy z istniej�c� wiedz�. 6. Dynamiczna natura danych – W bazach danych ci�gle s� dodawane nowe elementy, a ist-

niej�ce s� modyfikowane, wła�nie dlatego narz�dzia Data Mining musz� by cały czas

rozwijane, a dostarczona wiedza powinna by aktualizowana.

7. Brak inteligentnego systemu zapyta� – Brakuje inteligentnego j�zyka zapyta� (komuni-

kacja) z systemami Data Mining. Zdarza si�, �e system Data Mining dedykowany do

eksploracji danych nie potrafi zintegrowa posiadanych ju� narz�dzi do analizy i wizuali-

zacji danych.

8. Bł�dy niesystematyczne i brakuj�ce warto�ci – Podczas analizy danych pojawiaj� si� bł�-dy niesystematyczne (szumy). Ze wzgl�du na ten problem metody analizy nie powinny

by zbyt wra�liwe na tego typu zachowania, aby dochodziło do zakłócania reguł. Taki

problem pojawia si� równie� w przypadku brakuj�cych warto�ci.

4. Zalety Data Mining

Do głównych korzy�ci z wdro�enia systemów Data Mining zaliczaj� si�: • usprawnienie sterowania procesem i podejmowania decyzji,

• odkrywanie ukrytej wiedzy zawartej w du�ych zbiorach danych,

• nieobci��anie komunikacj� z zewn�trznymi narz�dziami analitycznymi,

• przewidywanie przyszłych przedsi�wzi�, • prosta obsługa du�ych zbiorów danych,

• porównanie wielu modeli i szybki wybór najlepszego z nich

• odkrywanie wiedzy z ró�norodnych baz danych i ró�nych typów z danych,

• poprawa ogólnej sprawno�ci firmy,

• zastosowanie w wielu dziedzinach: projektowanie i doskonalenie produktu, analiza danych

na temat klientów zgromadzonych w systemach transakcyjnych i hurtowniach danych,

znajdowanie wzorców zachowa�, sugeruj�cych np. skłonno� do zakupu pewnego rodza-

ju produktu.

Wprowadzenie systemów Data Mining pozwala wykonywa kiedy� niemo�liwe do zrealizo-

wania analizy biznesowe i tworzy niezawodny fundament do efektywnego podejmowania decyzji

i trafnego prognozowania wskazuj�cego drog� do sukcesu. Jednak wi�kszo� korzy�ci z wdro�e-

nia systemów Data Mining jest niemierzalna. Próbuje si� oceni skuteczno� negocjacji wspartych

systemem, ale problemem s� tu punkty odniesienia - wzrost sprzeda�y czy przychodów nie musi

by zwi�zany z wprowadzeniem systemu, ale spowodowany czynnikami zewn�trznymi, np. wzro-

stem popytu, zmianami preferencji klientów. Bardzo trudne jest te� przeliczenie na zysk

osi�ganych celów strategicznych firmy. Z perspektywy zarz�du koszt systemu wspomagania decy-

zji i wska�nik zwrotu z inwestycji mog� mie drugorz�dne znaczenie przy podejmowaniu decyzji

o wdro�eniu w firmie tego rozwi�zania [11].

5. Narz�dzia Data Mining

Narz�dzia Data Mining to zaawansowane narz�dzia dr��enia i eksploracji danych słu��ce do

automatycznego znajdowania zwi�zków mi�dzy danymi. Narz�dzia tej klasy wykorzystuj� wiele

wyrafinowanych technik takich jak na przykład sieci neuronowe, drzewa decyzyjne, sieci Bayesa,

POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�

Seria: Studia i Materiały, nr 27, 2010

131

algorytmy genetyczne, clustering czy regresja. Narz�dzia tej klasy s� wykorzystywane przez anali-

tyków mi�dzy innymi do segmentacji bazy klientów, prognozowania, pozycjonowania produktu

na rynku, a tak�e do wykrywania oszustw w czasie rzeczywistym. [13]

Do najbardziej popularnych pakietów programowych oferuj�cych metody Data Mining nale-

��: • Oracle Data Mining (ODM),

• SQL Server Data Mining Business Inteligence,

• Statistica Data Miner,

• SAS Enterprise Miner,

• IBM Inteligent Miner for Data.

Oracle Data Mining (ODM)

Zdaniem W. Stanisławskiego i E. Szydłowskiej baz� danych Oracle charakteryzuje poł�czenie

procesu odkrywania wiedzy z systemem zarz�dzania baz� danych, posiada ona tak�e szereg funk-

cji umo�liwiaj�cych rozbudowane analizy danych. Mo�liwa jest dzi�ki temu realizacja w jednym

systemie baz danych ró�nych procesów takich jak: przygotowywanie danych, ich transformacja,

generowanie oraz wykorzystywanie modeli. Daje to tak�e du�e mo�liwo�ci programistom, po-

przez poł�czenie technik eksploracji z aplikacjami bazodanowymi. Oracle Data Mining (ODM)

jest komponentem oferuj�cym analizy danych jest. W jego skład wchodz� trzy elementy:

• Data Mining Engine (DME) – zapewnia infrastruktur�, zawieraj�c� zestaw usług Data Mi-

ning udost�pnianych dla klientów API,

• interfejs aplikacji (API) – umo�liwia dost�p do funkcji i algorytmów zaimplementowanych

w DME,

• reporytozium metadanych – wykorzystywane poprzez DME do udost�pniania obiektów

wygenerowanych w trakcie analiz [16].

W interfejsie aplikacji mo�na wyodr�bni trzy cz��ci. Ka�da z nich skierowana jest do innego

typu u�ytkownika.

a) Oracle Data Mining Predictive Analytics (PA) zawiera dwa programy: przewidywanie

(ang. Predict) oraz wyja�nianie (ang. Explain). W przewidywaniu wykorzystywane s� al-

gorytmy klasyfikacji i regresji, a w wyja�nianiu algorytm wa�no�ci atrybutów. Programy

s� w pełni zautomatyzowane, od u�ytkownika wymagane jest tylko odpowiednie sforma-

towanie danych wej�ciowych. Program przewidywania skierowany dla u�ytkowników

których głównym celem jest uzyskanie w krótkim czasie rzetelnych wyników np, dyrek-

torów marketingu.

b) Drugi interfejs jest skierowany do programistów, dost�pny jest w dwóch j�zykach: Java

i PL/SQL. Oba API s� ze sob� kompatybilne i mo�na budowa modele z wykorzystaniem

skryptów PL/SQL, a testowa przy u�yciu aplikacji Javy, pozwala on tak�e na wdra�anie

wbudowanych algorytmów do aplikacji klienckich.

c) Oracle Data Miner to narz�dzie graficzne, pozwalaj�ce na realizacj� zada� eksploracji

oraz wizualn� reprezentacj� wyników. Przeznaczone jest ono dla analityków bizneso-

wych, którzy orientuj� si� w badanych zagadnieniach i potrafi� dobra algorytm

stosownie do posiadanych danych i oczekiwanych wyników. Wykorzystywane jest tak�e

Eugenia Fronczak, Małgorzata Michalcewicz

Zastosowanie narz�dzi eksploracji danych Data Mining

do tworzenia modeli zarz�dzania wiedz�

132

przez programistów do wyboru kierunku rozwoju aplikacji poprzez wst�pn� analiz� da-

nych, tworzenie przykładowych modeli oraz wizualne sprawdzanie ich efektywno�ci.

Zaimplementowane algorytmy pozwalaj�ce na tworzenie modeli eksploracji w ODM podzie-

lono na dwie grupy zaprezentowane w tabeli 2.

Tabela 2. Algorytmy pozwalaj�ce na tworzenie modeli eksploracji w ODM

Algorytmy z nauczycielem Algorytmy bez nauczyciela

klasyfikacja

- naiwny klasyfikator Bayesa (Naive Bayes)

- adaptacyjna sie Bayes (Adaptive Bayes Network)

- SVM (Suport Victor Machine)

- indukcja drzew decyzyjnych (Decision Tree)

analiza skupie�- algorytm k-�rednich (k-Means)

- O-Cluster

regresja

- SVM (Suport Victor Machine)

reguły asocjacji

-apriori

wa�no� atrybutów

- minimalna długo� opisu (Minimum description

Length)

ekstrakcja cech

-NMF (Non-Negative Matrix nFactorization)

�ródło: Opracowanie własne.

SQL Server Data Mining

SQL Server nale�y do rodziny technologii Business Intelligence, której wszystkie elementy

współpracuj� ze sob� w celu dostarczenia wszechstronnej platformy umo�liwiaj�cej organizacjom

stosowanie analizy predykcyjnej na ka�dym etapie cyklu �ycia danych. [22] Microsoft® SQL Se-

rver® 2008 oferuje analiz� predykcyjn� za po�rednictwem pełnego i intuicyjnego zestawu

narz�dzi Data Mining. Gł�boka integracja z platform� Microsoft Business Intelligence umo�liwia

dost�p do danych w ka�dym momencie, elastyczna platforma pozwala umieszczenie funkcji pre-

dykcji w dowolnej aplikacji. [21]

Firma Microsoft zmierzaj�c do stworzenia kompleksowej platformy Business Intelligence

(BI), która mo�e by integrowana z codziennymi działaniami firmy i efektywnie wykorzystywana

przez pracowników w całej organizacji, nie tylko przez garstk� wyspecjalizowanych analityków

przedefiniowała mo�liwo�ci raportowania i analizy w Microsoft® SQL Server®. Dzi�ki temu Bu-

siness Intelligence uwa�ana do tej pory za zbyt kosztowne lub skomplikowane pod wzgl�dem

implementacji rozwi�zanie, teraz korzysta z kompleksowych mo�liwo�ci tworzenia, renderowania

i dostarczania raportów przy pomocy usług SQL Server Reporting Services oraz z bogatej funk-

cjonalno�ci przetwarzania analitycznego online (OLAP) dostarczanej przez usługi SQL Server

Analysis Services. �cisła integracja mi�dzy takimi produktami Business Inteligence a wszech-

obecnym systemem Microsoft Office umo�liwiła masowy dost�p do analizy biznesowej.

Aby poprawi sprawno� i efektywno� operacyjn� firm nale�y wykorzysta analiz� predyk-

cyjn� danych biznesowych i stosowa w procesach biznesowych inteligentny system

podejmowania decyzji. Osi�gni�cie tego celu jest mo�liwe poprzez wykorzystanie funkcjonalnych

algorytmów Data Mining. Algorytmy te zapewniaj� ogromne mo�liwo�ci w zakresie analizowania

zbiorów danych, porównywania nowych danych z faktami i zachowaniami historycznymi, identy-

fikowania klasyfikacji oraz relacji mi�dzy jednostkami i atrybutami biznesowymi oraz

POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�

Seria: Studia i Materiały, nr 27, 2010

133

udost�pniania trafnych wgl�dów predykcyjnych we wszystkich systemach i dla wszystkich u�yt-

kowników podejmuj�cych decyzje biznesowe. Wychodz�c naprzeciw przekonaniu, �e Data

Mining to specjalistyczna, skomplikowana i kosztowna technologia firma Microsoft zaoferowała

rozwi�zanie, w którym wszechstronne technologie Data Mining zostały doł�czone do usług SQL

Server Analysis Services przy jednoczesnym zapewnieniu bezpo�redniej integracji z systemem

Microsoft Office 2007. Takie rozwi�zanie w poł�czeniu z korporacyjnymi mo�liwo�ci SQL Server

Analysis Services zapewnia wszystkim dost�p do bogatych funkcji oraz analiz Data Mining, które

stanowi� klucz do sukcesu.

Dzi�ki �cisłej integracji technologii Data Mining w SQL Server 2008 z systemem Office

2007, uniwersalnemu �rodowisku programistycznemu, korporacyjnym mo�liwo�ciom oraz rozsze-

rzalnemu zestawowi bogatych i innowacyjnych algorytmów Data Mining uwzgl�dniaj�cych

typowe problemy biznesowe mo�liwe jest stosowanie technologii Data Mining w sposób intuicyj-

ny i samoobsługowy, co pozwala firmom sprawnie ocenia sytuacj�. Analiza predykcyjna kiedy� była stosowana tylko przez pracowników - ekspertów w dziedzi-

nie statystyki. Technologia Data Mining w SQLServer 2008 oferuje kompleksowa analiz�predykcyjn�, która udost�pnia analizy oraz predykcje wielu u�ytkownikom. Dodatek Microsoft

SQL Server 2008 Data Mining dla Office 2007, pokazany na rysunku 3, umo�liwia pracownikom

korzystaj�cym z informacji zastosowanie zaawansowanej technologii Data Mining w znanym �ro-

dowisku arkuszy kalkulacyjnych. Dzi�ki temu u�ytkownicy mog� w łatwy sposób uzyskiwarzetelne informacje, które zapewniaj� natychmiastowe i znacz�ce wskazówki pomocne w podej-

mowaniu codziennych decyzji.

Narz�dzia Table Analysis dla Microsoft Office Excel® 2007 ukrywaj� zło�ono� technologii

Data Mining za intuicyjnymi zadaniami, dostarczaj�c mechanizmy, które pozwalaj� u�ytkowni-

kom w łatwy i niemal niezauwa�alny sposób przechodzi mi�dzy analiz� a odkrywaniem wiedzy.

Komponent kliencki Data Mining dla Office Excel 2007 oferuje dost�p do pełnego procesu two-

rzenia rozwi�zania Data Mining, który zapewnia zaawansowanym u�ytkownikom wi�cej

informacji, sprawdzanie poprawno�ci i du�� kontrol�. Co wi�cej, szablony Data Mining dla apli-

kacji Visio umo�liwiaj� u�ytkownikom renderowanie opatrzonych adnotacjami wizualizacji

graficznych modeli Data Mining. Generalnie integracja funkcji SQL Server 2008 Data Mining

z systemem Office 2007 tworzy kompleksowy, intuicyjny ekosystem biznesowy z funkcj� pracy

zespołowej, który upowszechnia dost�p do analizy predykcyjnej i pomaga w dostarczaniu infor-

macji wspieraj�cych podejmowanie decyzji biznesowych w całej organizacji. [21]

Eugenia Fronczak, Małgorzata Michalcewicz

Zastosowanie narz�dzi eksploracji danych Data Mining

do tworzenia modeli zarz�dzania wiedz�

134

Rysunek 3. Dodatek Data Mining dla programu Microsoft Office Excel 2007

�ródło: „Analiza predykcyjna z wykorzystaniem SQL Server 2008”, cz. I, Baza Wiedzy Microsoft

TechNet, 27 czerwca 2008 [21].

Dodatek Data Mining dla systemu Office 2007 oferuje wiele korzy�ci, które przedstawia rysu-

nek 4.

System Office 2007 stanowi idealne narz�dzie dla pracowników wykorzystuj�cych informa-

cje, ale programi�ci BI, którzy rozwijaj� rozwi�zania na skal� korporacyjn�, najcz��ciej wybieraj�SQL Server Business Intelligence Development Studio, poniewa� oferuje ono �rodowisko bazuj�-ce na projektach, uzupełnione funkcjonalno�ci� debugowania i integracj� z systemem kontroli

�ródła, co pozwala na tworzenie kompleksowych rozwi�za� BI. Oczywi�cie masowe rozpo-

wszechnianie funkcji Data Mining jest u�yteczne tylko wtedy, gdy programi�ci mog� budowarozwi�zania Data Mining, które szybko i z łatwo�ci� realizuj� okre�lone wymagania biznesowe.

SQL Server Business Intelligence Development Studio stanowi uniwersalne �rodowisko programi-

styczne bazuj�ce na systemie programistycznym Microsoft Visual Studio®. Przy u�yciu Business

Intelligence Development Studio programi�ci mog� tworzy struktury Data Mining okre�laj�ce

tabele i kolumny, które maj� zosta uwzgl�dnione podczas analizy, a tak�e mog� dodawa wiele

modeli Data Mining, które stosuj� algorytmy Data Mining na danych w tych tabelach. Szablon

projektu Analysis Services w Business Intelligence Development Studio, pokazany na rysunku 5,

zawiera intuicyjne narz�dzie Data Mining Designer słu��ce do tworzenia i wy�wietlania modeli

Data Mining. Dostarcza równie� funkcje Cross-validation, Lift chart oraz Profit chart, które słu��do porównywania i kontrastowania jako�ci modeli w sposób wizualny i przy pomocy statystycz-

nych ocen bł�dów oraz trafno�ci przed wdro�eniem tych modeli. [21]

SQL Server Analysis Services oferuje wiele korzy�ci:

• szybki rozwój,

• wysoka dost�pno�, • wyj�tkowa wydajno� i skalowalno�, • stabilne zabezpieczenia,

POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�

Seria: Studia i Materiały, nr 27, 2010

135

• wi�ksze mo�liwo�ci zarz�dzania dzi�ki SQL Server Management Studio.

To sprawia, �e technologie Data Mining umo�liwiaj�ce analiz� predykcyjn� mog� rozwija si�wraz z firm� i zapewniaj� wydajne, skalowalne rozwi�zanie dopasowane dla dowolnej firmy.

W odpowiedzi na szeroki zakres wymaga� biznesowych ró�nych organizacji, SQL Server Data

Mining oferuje szeroki zestaw funkcji.

WSZECHSTRONNO�� INTUICYJNO�� WSPӣPRACA zapewnia szeroki zakres na-

rz�dzi Data Mining

dostosowanych do wielu po-

trzeb (Dodatek Data Mining

dla sytemu Office 2007)

U�ytkownicy mog�: • analizowa dane,

• odkrywa ukryte trendy

oraz relacje mi�dzy produk-

tami, klientami, rynkami,

pracownikami oraz innymi

czynnikami,

• przewidywa potrzeby,

• poznawa mechanizmy

działania,

• odnajdowa ukryty poten-

cjał,

• usprawnia procesy bizne-

sowe,

• bezpo�rednio wpływa na

rentowno� firmy.

dostarcza znacz�ce wgl�dy dla

ka�dego u�ytkownika (znajome

�rodowisko Microsoft Office)

Narz�dzia Table Analysis dla

Office Excel 2007 szybko dostar-

czaj� czytelne i znacz�ce wyniki

analiz w trzech prostych krokach:

• definiowanie danych - okre�le-

nie danych i stworzenie w

arkuszu kalkulacyjnym Office

Excel 2007 tabeli definiuj�cej

dane poddawane analizie,

• identyfikowanie zadania - wy-

branie odpowiedniego zadania

Data Mining, które ma zostawykonane na danych,

• pobieranie wyniku - analiza

danych wyj�ciowych za pomo-

c� wizualizacji bezpo�rednio w

�rodowisku Office Excel 2007.

dzielenie wgl�dów w obr�bie

całej organizacji

Dzi�ki zaawansowanym na-

rz�dziom publikacji systemu

Office 2007 mo�na dzieliodkrycia i informowa o de-

cyzjach biznesowych

w obr�bie całej organizacji.

U�ytkownicy mog�:• udost�pni wynik analizy

za po�rednictwem interak-

tywnych wizualizacji

graficznych w diagramach

Office Visio 2007,

• udost�pni tabele, raporty

oraz diagramy przy pomo-

cy Microsoft Office

SharePoint® Server 2007.

Rysunek 4. Korzy�ci dodatku Data Mining dla systemu Office 2007

�ródło: Opracowanie własne.

Korzy�ci dodatku Data Mining dla systemu Office 2007

Eugenia Fronczak, Małgorzata Michalcewicz

Zastosowanie narz�dzi eksploracji danych Data Mining

do tworzenia modeli zarz�dzania wiedz�

136

Rysunek 5. Data Mining Designer w Business Intelligence Development Studio

�ródło: „Analiza predykcyjna z wykorzystaniem SQL Server 2008”, cz. I, Baza Wiedzy Microsoft

TechNet, 27 czerwca 2008 [21].

Technologia ta realizuje nast�puj�ce zadania:

1. analiza koszyka produktów – odkrywa, które elementy s� kupowane razem, aby odpo-

wiednio rozmieszcza produkty na półkach co mo�e pomóc w zwi�kszeniu zysków,

2. analiza migracji klientów – przewiduje, którzy klienci rozwa�aj� anulowanie usługi

i szuka argumentów, które mog� ich powstrzyma przed odej�ciem,

3. analiza rynku – okre�la segmenty rynku, grupuj�c ze sob� podobnych klientów,

4. prognozowanie – przewiduje sprzeda� i stan magazynu, pokazuje powi�zania mi�dzy ni-

mi, dzi�ki czemu przewiduje opó�nienia i poprawia wydajno�, 5. eksploracja danych – analizuje rentowno� klientów i porównuje klientów preferuj�cych

ró�ne marki tego samego produktu, w celu odkrywania nowych mo�liwo�ci,

6. uczenie bez nadzoru – znajduje nieznane wcze�niej relacje mi�dzy ró�nymi elementami

w firmie w celu wspomagania decyzji,

7. analiza witryny sieci Web – odkrywa sposób korzystania z witryny sieci Web przez u�yt-

kowników, wyszukuje podobne wzorce u�ycia, aby poprawi funkcjonalno�, 8. analiza kampanii – pozwala zwi�kszy zwrot inwestycji w działaniach marketingowych

adresuj�c je do klientów, którzy przypuszczalnie zareaguj� na promocj�, 9. jako� danych – wyszukuje i obsługuje anomalia podczas wprowadzania lub ładowania

danych, aby poprawi jako� informacji,

10. analiza tekstu – analizuj�c opinie, wyszukuje popularne tematy oraz trendy, które intere-

suj� klientów lub pracowników, w ten sposób wspomaga decyzje przy u�yciu danych

nieustrukturyzowanych.

SQL Server 2008 Analysis Services obejmuj� technologi� Data Mining, która wspiera wiele

bogatych i innowacyjnych algorytmów. Wi�kszo� z tych algorytmów została zaprojektowana

POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�

Seria: Studia i Materiały, nr 27, 2010

137

z my�l� o typowych wyzwaniach biznesowych. W technologii SQL Server Data Mining mo�na

wyró�ni nast�puj�ce algorytmy pozwalaj�ce na tworzenie modeli eksploracji:

• Asocjacja (Association),

• Indukcja drzew decyzyjnych (Decision Trees),

• Linear Regression,

• Logistic Regression,

• Clustering,

• Sequence Clustering,

• Time Series,

• Neural Network,

• Naiwny klasyfikator Bayesa (Naive Bayes),

• Text Mining.

Rozwi�zanie Data Mining SQL Server 2008 udost�pnia funkcje analizy predykcyjnej wielu

u�ytkownikom w obr�bie całej korporacji. Zastosowanie w procesie biznesowym takiego inteli-

gentnego i intuicyjnego w obsłudze systemu podejmowania decyzji wpływa na sprawno�i efektywno� operacyjn� firm. W przypadku, gdy istnieje potrzeba wbudowania funkcjonalno�ci

Data Mining w konkretn� aplikacj�, zastosowania analizy biznesowej w istniej�cym procesie biz-

nesowym lub rozszerzenia technologii Data Mining dla specyficznego problemu biznesowego,

SQL Server oferuje elastyczn� i rozszerzaln� platform� programistyczn�. Pozwala ona wł�czapredykcj� i analizy w specjalistyczne aplikacje biznesowe, a dzi�ki zastosowaniu procedur skła-

dowanych Microsoft .NET, algorytmów typu plug-in, niestandardowych wizualizacji oraz j�zyka

PMML pozwala rozszerza standardowe technologie Data Mining w SQL Server 2008 w taki spo-

sób, aby realizowały nietypowe potrzeby biznesowe charakterystyczne dla okre�lonej firmy.

6. Podsumowanie

We współczesnych realiach systemy Data Mining staj� si� coraz istotniejsze dla funkcjono-

wania przedsi�biorstw, gdy� umo�liwiaj� ich decydentom podejmowanie optymalnych decyzji

w dynamicznie zmieniaj�cym si� otoczeniu, w którym potrzeby klientów oraz działania konkuren-

cji wysuwaj� si� na pierwszy plan. Zaimplementowane w instytucjach zaawansowane modele

predykcyjne, ekonomiczne, odkrywania wzorców na podstawie ogromnych baz danych, oraz na-

rz�dzia sztucznej inteligencji sprawiaj�, i� współczesne organizacje mog� odkrywa dotychczas

nieznan� im wiedz� oraz twórczo j� wykorzystywa, w celu osi�gni�cia jeszcze wi�kszych korzy-

�ci. Jednak nale�y u�wiadomi sobie, i� systemy Data Mining nie s� uniwersaln� recept� na

problemy z jakimi stykaj� si� decydenci przedsi�biorstw, s� jedynie kolejnym u�ytecznym narz�-dziem, które wspomaga decydenta w procesie podejmowania przez niego decyzji, zwykle

„ilo�ciowych”. Bowiem, w rzeczywisto�ci społeczno – gospodarczej wiele zjawisk i procesów nie

jest mierzalnych, w sensie ilo�ciowym. Przedsi�biorstwa stykaj� si� równie� z problemami jako-

�ciowymi, których nie mo�na rozwi�za za pomoc� metod i systemów Data Mining. Ponadto

umysł człowieka jest zawodny i nie jest w stanie ogarn�, ani wysnu logicznych wniosków ze

zbiorów ogromnych baz danych. Nale�y pami�ta, i� jednak człowiek tworzy powy�sze nowe me-

tody, a nast�pnie to wła�nie człowiek wysnuwa logiczne wnioski na podstawie „wniosków”

komputera. Zatem to nadal umysł człowieka, a nie komputer pełni dominuj�c� rol� w ka�dym

przedsi�biorstwie.

Eugenia Fronczak, Małgorzata Michalcewicz

Zastosowanie narz�dzi eksploracji danych Data Mining

do tworzenia modeli zarz�dzania wiedz�

138

Korzy�ci� z wdro�enia systemów Data Mining w firmie jest znalezienie pewnych reguł doty-

cz�cych funkcjonowania firmy, mo�e tak�e pomóc z zarz�dzaniu relacjami z otoczeniem firmy.

Wnioski wynikaj�ce z odkrytych zale�no�ci mog� te� posłu�y do sformułowania oferty bardziej

odpowiadaj�cej profilowi obsługiwanych klientów, wyj� naprzeciw ich zapotrzebowaniom.

Omawiana technologia daje mo�liwo� zdobycia zysków dla firmy b�d�cych nast�pstwem wy-

krycia nieprawidłowo�ci albo nadu�y. Wiedza pozyskana w procesie eksploracji danych stanowi

jeden z najcenniejszych zasobów i stanowi �ródło przewagi konkurencyjnej.

Bibliografia

[1] Agrawal R., Imielinski T., Swami A.: “Mining Association Rules Between Sets of

Items in Large Databases”, Proc. ACM SIGMOD Conference, p. 207–216, Washington

DC, USA, May 1993.

[2] Agrawal R., Srikant R.: “Mining sequential patterns”, In Proc. of the 11th International

Conference on Data Engineering, Taipei, Taiwan, 1995.

[3] Cendrowska J.: “PRISM: An algorithm for inducing modular rules”. International

Journal of Man-Machine Studies 27(4), p. 25–32, 1987.

[4] Cios K.J., Pedrycz W., Swiniarsk R.W.: “Data Mining Methods for Knowledge Dis-

covery”, Kluwer Academic Publisher Group, 2000, ISBN 0-387-33333-9.

[5] Everitt B.S., Landau S., Leese M.: “Cluster analysis”, Arnold Publishers, 2001.

[6] Fayyad U., Piatetsky-Shapiro G., Smyth P.: “The KDD Process for Extracting Useful

Knowledge from Volumes of Data”, Comm. of the ACM, Vol. 39, No. 11, November

1996.

[7] Fayyad U., Piatetsky-Shapiro G., Smyth P., Uthurusamy R.: “Advances in Knowledge

Discovery and Data Mining’, AAAI/MIT Press, 1996.

[8] Gawrylczyk A.: „Zastosowanie i znaczenie technologii „data mining” w bankowo�ci”,

Studenckie Koło Naukowe Economicus 2008.

[9] Gramacki A., Gramacki J.: „Nowa metoda grupowania danych koszyka sklepowego”,

Przegl�d Telekomunikacyjny, rocznik LXXXI, nr 6/2008.

[10] Han J., Kamber M.: “Data Mining: Concepts and Techniques”. Morgan Kaufmann,

2000.

[11] Kozi�ski M.: „Zamiast kryształowej kuli”, PCKurier 5/2003.

[12] Langey P., Iba W., Thompson K.: “An analysis of Bayesian classifiers”. In Proc. of 10th

National Conference on Artificial Intelligence, San Jose, CA, AAAI Press, p. 223–228,

1992.

[13] Morawski O.: „Hurtownie danych i systemy wspomagania decyzji”.

[14] Morzy M.: „Eksploracja danych – przegl�d dost�pnych metod i dziedzin zastosowa�”.

[15] Ozden B., Ramaswamy S., Silberschatz A.: “Cyclic Association Rules”, In Proc. 1998

International Conference on Data Engineering (ICDE'98), p. 412–421, Orlando, FL,

1998.

[16] Stanisławski W., Szydłowska E.: „Analiza narz�dzia Data Mining ORACLE 10g do

klasyfikacji komórek nowotworowych w cytometrycznym systemie skaningowym”,

XII Konferencja PLOUG, Zakopane, Pa�dziernik 2006.

[17] Quinlan J.R.: “Induction of decision trees”. Machine Learning 1(1), p. 81–106.

[18] Quinlan J.R.: C4.5: “Programs for machine learning”. Morgan Kaufman, 1993.

POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�

Seria: Studia i Materiały, nr 27, 2010

139

[19] Zakrzewicz M.: "Data Mining i odkrywanie wiedzy w bazach danych", Materialy konf.

Polish Oracle Users Group PLOUG'97, s. 57–67, Zakopane, 1997.

[20] Zakrzewicz M.: “On-Line Data Mining”.

[21] „Analiza predykcyjna z wykorzystaniem SQL Server 2008”, cz. I, Baza Wiedzy Micro-

soft TechNet, 27 czerwca 2008.

[22] „Analiza predykcyjna z wykorzystaniem SQL Server 2008”, cz. II, Baza Wiedzy

Microsoft TechNet, 27 czerwca 2008.

[23] „Zarz�dzanie wiedz� w Polsce 2004”, Raport badawczy firmy KPMG, Knowledge

Management 2004.

THE GENERAL-PURPOSE OF EXPLORATION DATA TOOLS “DATA MINING” TO CREATING MODELS OF KNOWLEDGE MANAGEMENT

Summary

In day of intensive technological progress in enterprises are recorded thousands

the different kind of data. Knowledge contained in huge files of data is hidden under

figure of standards, trends, regularity and peculiar. However because the people and

technics of statistical analysis can’t analyse data, it applies the exploration of data

technics to draw out the conclusions the helping decission processes, prognosis or

prediction with large files of data. The applying of specialized Data Mining tools,

makes possible constructing the model, testing the model and applying the model to

new data. In this article was introduced the application exploration data tools “Data

mining” to creating models of knowledge management.

Keywords: Data Mining, model of knowledge management, exploration data, discovering the new

knowledge

Eugenia Fronczak,

Małgorzata Michalcewicz

Katedra Informatyki w Zarz�dzaniu

Wydział Zarz�dzania

Uniwersytet Technologiczno-Przyrodniczy im. Jana i J�drzeja �niadeckich w Bydgoszczy

ul. Prof. S. Kaliskiego 7, 85-789 Bydgoszcz

e-mail: [email protected]

[email protected]