Post on 01-Mar-2019
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
101
WYKORZYSTANIE ANALIZY ASOCJACYJNEJ W ZARZĄDZANIU SERWISEM FLOTY POJAZDÓW
Mateusz Marzec, Reliability Solutions Sp. z o.o.;
Akademia Górniczo-Hutnicza, Katedra Robotyki i Mechatroniki
Stale rosnące koszty utrzymania taboru autobusowego wymuszają potrzebę kształto-
wania odpowiedniej polityki serwisowej. Niezbędne do tego celu są tworzone przez
eksploatatorów serwisowe bazy danych, które zawierają informację o zaistniałych
awariach i wykonanych naprawach. Ze względu na obszerność baz danych oraz w wielu
przypadkach ich nieustrukturyzowaną formę, „ręczna” analiza danych w poszukiwaniu
odpowiednich zależności może być bardzo czasochłonna i nieefektywna. Rozwój metod
KDD (ang. Knowledge Discovery in Databases) stwarza nowe możliwości rozwiązy-
wania tego typu zadań. Niniejsze opracowanie proponuje zastosowanie podejścia
z wykorzystaniem narzędzi text mining oraz data mining. Efektywność tych narzędzi
została sprawdzona empirycznie na podstawie serwisowej bazy danych dużego pol-
skiego przedsiębiorstwa transportowego. Baza ta zawiera informacje z 3 letniego okresu
prowadzenia serwisu floty liczącej 300 autobusów. W pierwszej kolejności, z wyko-
rzystaniem metod Text Mining, dokonano ekstrakcji atrybutów w celu ustruktury-
zowania informacji zawartych w bazie danych. Następnie, z wykorzystaniem analizy
asocjacyjnej, wskazano relację między uszkodzeniami poszczególnych podzespołów
w badanych autobusach. W wielu przypadkach okazało się, że awarie nieistotne
z punktu widzenia czasu ich napraw, kosztów oraz bezpieczeństwa mogą być przyczyną
innych istotnych awarii (ang. downstream failure). Takie informacje poza zwiększeniem
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
102
bezpieczeństwa pasażerów mogą poprawić również dostępność floty pojazdów, poprzez
minimalizację czasu napraw oraz poprawę niezawodności, co przyniesie pozytywny
skutek ekonomiczny.
Problem gotowości technicznej środków transportu
Obecnie od eksploatowanych przez przewoźników środków transportu wymagany jest
bardzo wysoki poziom gotowości technicznej. Spowodowane jest to przede wszystkim
wymaganiami ekonomicznymi. W szczególności wysokie wymagania stawiane są
flotom autobusów miejskich, których przestoje generują poważne straty finansowe. Jak
wynika z badań przeprowadzonych przy współpracy z Miejskim Przedsiębiorstwem
Komunikacyjnym w Krakowie, straty te w przypadku autobusów klasy maxi sięgają
średnio 2500 zł/dobę, a w przypadku autobusów klasy mega 3000 zł/dobę [1]. Należy
wziąć pod uwagę również koszty napraw oraz innych działań serwisowych. W celu
zapewnienia realizacji zaplanowanych zadań przewozowych każdy przewoźnik utrzy-
muje rezerwowe środki transportu, aby wykorzystać je w przypadku awarii i koniecz-
nego przestoju. Mając na uwadze alternatywne metody zapewnienia gotowości floty,
można stwierdzić, że w wielu przypadkach polityka utrzymania zwiększonej rezerwy
jest nieuzasadniona ekonomicznie.
Dobrą alternatywą jest utrzymanie gotowości floty poprzez odpowiednie planowanie
serwisu. Do tego celu niezbędna jest analiza danych eksploatacyjno-serwisowych. Dane
tego typu zawierają informacje o sposobie eksploatacji maszyn (środowisko pracy, czas
eksploatacji, użytkownik itp.), jak również informacje o awariach i wykonanych napra-
wach. Analizując dane eksploatacyjno-serwisowe, jesteśmy w stanie wskazać m.in.
zależności między poszczególnymi awariami oraz zależności między awariami a czynni-
kami determinującymi sposób eksploatacji maszyn. Może okazać się przykładowo, że
awaria osuszacza klimatyzacji (wypuszczenie granulatu) powoduje awarię kompresora
(zatarcie), co skutkuje przestojem maszyny i poważnymi konsekwencjami finansowymi.
Uzasadniona ekonomicznie wydaje się więc wymiana osuszacza w oparciu o stałe
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
103
interwały czasowe lub ocenę jego stanu technicznego. Mając na uwadze zależności
między awariami a sposobem eksploatacji maszyn, możemy również posłużyć się przy-
kładem kompresora. Kompresor układu klimatyzacji autobusu eksploatowanego w re-
gionach o wysokiej temperaturze może uleć zatarciu w wyniku braku wydajności wenty-
latora skraplacza, który zmniejsza ciśnienie oraz temperaturę czynnika w chłodnicy
klimatyzacji. Mając z kolei na uwadze te fakty, należy rozważyć montaż dwóch
wentylatorów, co pozwoli zwiększyć ich wydajność. Wskazując zestawy reguł postaci
„JEŚLI-TO”, jesteśmy w stanie nie tylko określić właściwą strategię serwisową maszyn,
ale również wskazać ich błędy konstrukcyjne, co znacznie zwiększa gotowość
operacyjną. Takie informacje są niezwykle istotne zarówno dla eksploatatorów, jak
i producentów maszyn.
Analiza danych eksploatacyjno-serwisowych
Niniejsza praca przedstawia przebieg oraz wyniki analizy danych przeprowadzonej dla
dużego przedsiębiorstwa komunikacyjnego w Polsce z wykorzystaniem oprogramo-
wania STATISTICA. Obiektem analizy była flota licząca 180 pojazdów autobusowych
klasy maxi oraz mega. Dane obejmowały trzyletni okres eksploatacji floty, a ich forma
została przedstawiona w tab. 1.
Tabela 1. Dane dotyczące zaistniałych awarii.
Nr Nr autobusu Przebieg Nr części Nazwa części Działanie serwisowe
1 AA001 80 000 AUX345672
Końcówka
ramienia
dolnego
niesprawna końcówka ramienia
dolnego drzwi - wymiana
2 AA002 10 000 BDI53455 Prowadnik akcja serwisowa wymiany sworzni
i prowadników drzwi
3 AA001 120 000 QWW673484 Przegub drzwi niesprawny potencjometr -
wymiana przegubu drzwi
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
104
Jak można zauważyć, nie wszystkie pozycje w tabeli odnoszą się do awarii. Pozycja nr 2
jest związana z wymianą „prowadnika” w ramach akcji serwisowej producenta. Chcąc
wyszukać zależności między awariami, należy więc wyłączyć z bazy danych wszystkie
pozycje niezwiązane z awarią. Aby to zrobić, należy poddać analizie opisy działań
serwisu w kolumnie „działanie serwisowe”. Niestety opisy te mają formę nieustruktu-
ryzowanego tekstu, którego „ręczna” analiza może być bardzo czasochłonna, szczegól-
nie w przypadku dużych zbiorów danych. Aby wskazać, czy dany rekord w bazie
danych jest związany z awarią czy zaplanowanym działaniem serwisowym (np.
wymiana prewencyjna, kontrola, akcja serwisowa), wykorzystano narzędzia text mining.
Wykorzystanie narzędzi text mining do sklasyfikowania tekstu [2]
Text mining jest procesem wykorzystującym odpowiednie algorytmy obliczeniowe do
przetwarzania danych testowych w celu ekstrakcji interesującej nas wiedzy. Text mining
przebiega w sposób automatyczny, dając nam możliwość szybkiej i dogłębnej analizy
tekstu wg zadanych kryteriów.
Analiza text mining danych opisanych w poprzedniej sekcji pracy przebiegała w pięciu
etapach:
1. określenie celu i zakresu analizy,
2. przygotowanie danych źródłowych,
3. zdefiniowania analizy,
4. przetworzenie danych,
5. wykonanie obliczeń.
1. Określenie celu i zakresu analizy
W pierwszym etapie analizy text mining należało określić cel i zakres analizy. Jak
wcześniej wspomniano, obiektem analizy były dane dotyczące działań serwisowych
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
105
przeprowadzonych w okresie trzech lat na flocie liczącej 180 autobusów. Baza danych
liczyła 200 000 rekordów, które zawierały następujące informacje:
ID pojazdu, na którym przeprowadzono działania serwisowe,
przebieg autobusu w dniu serwisu,
ID części bezpośrednio związanej z serwisem,
nazwa tej części,
opis podjętego działania serwisowego.
Celem analizy było zakwalifikowanie rekordów w bazie danych do jednej z dwóch
kategorii:
awaria,
wymiana prewencyjna.
W tym celu poddano analizie opisy przeprowadzonych działań serwisowych.
2. Przygotowanie danych źródłowych
W drugim etapie przekształcono dane do postaci, która dawała możliwość współpracy
z oprogramowaniem STATISTICA. Wiązało się to z wykonaniem następujących
czynności:
1. obróbka analizowanych danych opisowych,
2. „ręczne” zakwalifikowanie losowo wybranej próbki danych do jednej z dwóch kate-
gorii (awaria/prewencja),
3. podział danych na próbę uczącą i testującą klasyfikator.
Obróbka analizowanych danych opisowych polegała na sprawdzeniu pisowni (z wyko-
rzystaniem komercyjnego oprogramowania), usunięciu znaków formatujących oraz na
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
106
ujednoliceniu sposobu kodowania znaków (jest to niezwykle istotne w przypadku
tekstów w języku polskim). W efekcie przykładowe zdanie:
„niesprawna końcówka ramienia dolnego drzwi – wymiana”
przybrało następującą formę:
„niesprawna koncowka ramienia dolnego drzwi wymiana”.
W wyniku wstępnej obróbki danych otrzymano tekst bez jakichkolwiek znaków forma-
tujących o ujednoliconym sposobie kodowania znaków.
W kolejnym kroku, przy pomocy doświadczonych pracowników działu serwisu, zakwa-
lifikowano 5% losowo wybranych opisów napraw jako naprawy poawaryjne lub pre-
wencyjne. Ta próbka danych posłuży programowi STATISTICA do zbudowania modelu
klasyfikatora, za pomocą którego program automatycznie zakwalifikuje pozostałe 95%
danych.
W ostatnim kroku próbkę danych podzielono w stosunku 50/50 na grupę uczącą i testu-
jącą. Taki podział pozwoli „wytrenować” klasyfikator oraz sprawdzić jego dokładność.
W efekcie tych działań dane wejściowe do analizy text mining miały formę
przedstawioną w tabeli 2.
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
107
Tabela 2. Dane wejściowe do analizy.
Nr Opis Awaria? Podział
1 awaria modulatora wymiana modulatora EBS TAK Testing
2 pekniety wspornik Wymiana wspornika katowego mocowania
oponczy TAK Training
3 Obsluga techniczna P1 NIE Training
4 Akumulator - nie utrzymuje pojemnosci wymiana akumulatora TAK Training
5 Akcja serwisowa wymiany uchwytow paskowych NIE Testing
6 uzupelnienie brakujacej instalacji elektrycznej NIE Testing
7 Wymiana klocków hamulcowych NIE Training
... ... ... ...
3. Zdefiniowanie analizy
Zdefiniowanie analizy polegało na wskazaniu programowi STATISTICA danych będą-
cych przedmiotem analizy. Po wybraniu narzędzia Text Mining wyświetliło się okno
dialogowe, gdzie wskazano dane tekstowe (rys. 1).
Aby zoptymalizować analizę, w zakładce Words wybrano przygotowaną wcześniej stop-
listę. Wykorzystanie stoplisty pozwoliło wyeliminować wyrazy, które nie miały żadnego
znaczenia dla analizy (np. „Kraków”, „autobus”, „kierowca” itp.).
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
108
Rys. 1. Zdefiniowanie analizy.
Rys. 2. Wybór stoplisty.
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
109
Pozostałe opcje pozostawiono przy wartościach domyślnych, po czym wybrano przycisk
Index.
4. Przetworzenie danych
Po wybraniu przycisku Index program przystąpił do przetwarzania danych. W tym celu
oprogramowanie wykonało następujące czynności:
1. usunięcie znaków interpunkcyjnych,
2. przekształcenie opisów na listy wyrazów,
3. usunięcie wyrazów nieistotnych (wskazanych przez stoplistę),
4. redukcja wyrazów do rdzenia.
W pierwszej kolejności program usunął z tekstu znaki interpunkcyjne, a następnie
utworzył dla opisów listy ich wyrazów. W efekcie opisy:
opis 1: „niesprawna koncowka ramienia dolnego drzwi wymiana”
opis 2: „akcja serwisowa wymiany sworzni i prowadnikow drzwi”
opis 3: „niesprawny potencjometr wymiana przegubu drzwi”
przybrały formę list przedstawionych w tabeli 3.
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
110
Tabela 3. Opisy awarii w formie list wyrazów.
opis 1 opis 2 opis 3
niesprawna akcja niesprawny
koncowka serwisowa potencjometr
ramienia wymiany wymiana
dolnego sworzni przegubu
drzwi prowadnikow drzwi
wymiana drzwi
W kolejnych krokach program usunął z list wyrazy nieistotne (zgodnie z wybraną
wcześniej stoplistą), a pozostałe wyrazy na listach sprowadził do ich rdzenia, czyli do
formy podstawowej. Forma podstawowa oznacza, że wyrazy "chłodnica" i "chłodnicy"
będą miały swoją wspólną formę podstawową "chłodnic".
Rys. 3. Sposób tworzenia listy wyrazów.
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
111
Rys. 4. Wyselekcjonowane wyrazy.
W dalszej kolejności program utworzył jedną wspólną listę wyrazów (zgodnie z regułą
przedstawioną na rys. 3), a następnie obliczył liczbę wystąpień każdego wyrazu w anali-
zowanym zbiorze opisów i wskazał te, które wystąpiły więcej niż jeden raz. W efekcie
tych działań program utworzył listę zawierającą ok. 3000 słów, z których 222 wystąpiły
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
112
więcej niż jeden raz (rys. 4). Te 222 wyrazy posłużyły do utworzenia macierzy
częstości.
Macierz częstości jest podejściem do reprezentacji dokumentu tekstowego w pamięci
komputera, które polega na reprezentacji wektorowej. Podstawowa idea reprezentacji
wektorowej sprowadza się do tego, że dowolny dokument jest reprezentowany w postaci
wektora częstości występowania słów kluczowych. W celu utworzenia macierzy częs-
tości należało dodać 222 kolumny do arkusza danych, a następnie przypisać do nich
poszczególne słowa (rys. 5). Utworzona w ten sposób macierz częstości przybrała formę
przedstawioną w tabeli 4.
Rys. 5. Utworzenie macierzy częstości.
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
113
Tabela 4. Macierz częstości.
niesprawna koncowka ramienia dolnego ... Awaria Podział
niesprawna koncowka ramienia
dolnego drzwi wymiana 1 1 1 1 ... TAK Training
akcja serwisowa wymiany
sworzni i prowadnikow drzwi 0 0 0 0 ... NIE Testing
niesprawny potencjometr
wymiana przegubu drzwi 1 0 0 0 ... TAK Testing
... ... ... ... ... ... ... ...
5. Wykonanie obliczeń
Utworzona macierz częstości miała formę, która dała możliwość przeprowadzenia odpo-
wiednich obliczeń. Do najczęściej wykorzystywanych metod analizy macierzy częstości
możemy zaliczyć:
metoda oparta na rozkładzie według wartości osobliwych (SVD),
taksonomiczne metody grupowania,
drzewa klasyfikacyjne,
sieci neuronowe,
metoda wektorów nośnych (wspierających, podtrzymujących),
analiza powiązań.
Metody te zostały opisane w [5]. Mając na uwadze cel analizy, do obliczeń macierzy
częstości wykorzystano drzewa klasyfikacyjne (C&RT). Drzewa klasyfikacyjne wyko-
rzystuje się do wyznaczania przynależności przypadków lub obiektów do klasy jakoś-
ciowej zmiennej zależnej na podstawie pomiarów jednej lub więcej zmiennych
objaśniających (predyktorów) [4].
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
114
Aby zbudować odpowiednie drzewo klasyfikacyjne, w pierwszej kolejności przeprowa-
dzono selekcję odpowiednich predyktorów. Jest to niezwykle ważny etap, ponieważ
drzewa klasyfikacyjne stają się niepraktyczne, gdy liczba zmiennych przekracza kilka
setek. Do selekcji predyktorów wykorzystano narzędzie Feature selection i wprowa-
dzono ustawienia, które przedstawione zostały na rys. 6.
Rys. 6. Selekcja predyktorów.
Następnie wybrano narzędzie drzew klasyfikacyjnych C&RT w zakładce Data Mining.
Jako zmienną zależną wybrano kolumnę awaria (wymiana poawaryjna), a jako predyk-
tory wybrano wyselekcjonowane wcześniej wyrazy. Na zakładce Validation zaznaczono
dodatkowo podział danych na dane uczące i testujące. Wszystkie ustawienia przedsta-
wione zostały na rys. 7, a drzewo klasyfikacyjne na rys. 8.
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
115
Rys. 7. Ustawienia opcji dla drzew klasyfikacyjnych.
Tak zbudowany model klasyfikacyjny charakteryzował się 99% (tabela 5) skutecz-
nością, co pozwoliło wykorzystać go do zakwalifikowania wszystkich pozostałych
rekordów.
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
116
Tabela 5. Dokładność klasyfikatora.
Observed Predicted YES Predicted NO Row total
Number YES 2981 25 3006
Column Percentage
98.87% 0.76%
Row Percentage
99.17% 0.83%
Total Percentage
47.16% 0.40% 47.56%
Number NO 34 3281 3315
Column Percentage
1.13% 99.24%
Row Percentage
1.03% 98.97%
Total Percentage
0.54% 51.91% 52.44%
Count All Groups 3015 3306 6321
Total Percent
47.70% 52.30%
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
117
Rys. 8. Model drzewa klasyfikacyjnego.
Wykorzystanie analizy asocjacyjnej
do wskazania zależności między awariami [3]
Opisana we wcześniejszej sekcji pracy analiza text mining pozwoliła wskazać w bazie
danych rekordy związane z awariami. Aby wyszukać zależności między tymi awariami,
wykorzystano reguły asocjacyjne. Regułą asocjacyjną nazywamy implikację postaci
X⇒Y, gdzie: X i Y są dowolnymi podzbiorami elementów ze zbioru β i zachodzi X⊂β,
Y⊂β i X∩Y=∅ [6]. Badania nad regułami asocjacyjnymi motywowane były zagadnie-
niami analizy koszykowej (ang. Market Basket Analysis), wykorzystywanej m.in. w hi-
permarketach do wskazania grup produktów kupowanych jednocześnie - znajdujących
Tree 1 graph for wymiana poawaryjna
Num. of non-terminal nodes: 7, Num. of terminal nodes: 8
ID=1 N=6321NIE
ID=2 N=2646NIE
ID=5 N=2626NIE
ID=3 N=3675TAK
ID=12 N=3031TAK
ID=14 N=3011TAK
ID=16 N=2997TAK
ID=4 N=20TAK
ID=6 N=2620NIE
ID=7 N=6TAK
ID=18 N=2989TAK
ID=19 N=8NIE
ID=17 N=14NIE
ID=15 N=20NIE
ID=13 N=644NIE
wymiana
<= 0,271005 > 0,271005
Concept1
<= 0,000086 > 0,000086
Concept14
<= 0,004014 > 0,004014
Concept9
<= 0,007415 > 0,007415
Concept15
<= 0,005351 > 0,005351
Concept11
<= 0,015323 > 0,015323
akcja
<= 0,900426 > 0,900426
YES (TAK)
NO (NIE)
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
118
sie w jednym „koszyku”. Tego typu informacje mogą być wykorzystane do odpowied-
niego rozmieszczenia towarów na półkach, co spowoduje większą sprzedaż.
Ważność reguł asocjacyjnych opisuje się z wykorzystaniem takich wskaźników jak:
wsparcie, zaufanie i przyrost. Wartości progowe tych zmiennych ustala użytkownik pod-
czas definiowania analizy. Pozwala to odrzucić reguły asocjacyjne o marginalnym
znaczeniu.
Wsparcie zestawu to frakcja rekordów zawierających ten zestaw. Innymi słowy, jest to
miara, jak często wystąpiła awaria jedno- lub k-elementowa. Duże wsparcie danej części
świadczy o jej dużej awaryjności.
Zaufanie jest to prawdopodobieństwo warunkowe, że zestawy zawierające część A będą
również zawierać część B. Innymi słowy, reguła ta pozwala ustalić, jakie jest prawdopo-
dobieństwo awarii części A, jeśli doszło do awarii części B. Reguły ze 100% wsparciem
posłużyły m.in. do ustalenia zestawów naprawczych, co usprawniło proces wydawania
części z magazynu.
Przyrost jest definiowany na podstawie zaufania i wsparcia. Jeśli występuje zestaw
„jeśli A, to C” ze 100% zaufaniem, tzn. zawsze, kiedy dochodzi do awarii części A,
dochodzi również do awarii części C i jednocześnie wsparcie awarii części C jest niskie
(tzn. awaria części C występuje rzadko), to taki zestaw będzie miał wysoki przyrost.
Innymi słowy, wysoki przyrost zestawu „jeśli A, to C” będzie świadczyć o tym, że
awaria części C jest spowodowana w głównej mierze awarią części A.
Aby przeprowadzić analizę, należało w pierwszej kolejności podzielić dane na „koszy-
ki”. Program STATISTICA daje możliwość tworzenia koszyków przy wykorzystaniu
parametru czasu. W przypadku bazy danych dotyczących awaryjności autobusów takie
rozwiązanie nie było jednak optymalne. Jeśli przykładowo za pomocą parametru czasu
program utworzyłby koszyki obejmujące okres 3 dni, to awaria dnia trzeciego koszyka
n nie zostałaby skojarzona z awarią w pierwszym dniu koszyka n+1. W związku z tym
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
119
przy wykorzystaniu narzędzia Macro w zakładce Tools napisano program w środowisku
Visual Basic, który umożliwił tworzenie koszyków za pomocą dynamicznie przesuwa-
jącej się ramki. W celu wyjaśnienia zasady działania programu posłużono się przykła-
dem z tabeli 6. W przypadku skorzystania z programu STATISTICA i wyboru analizy
sekwencyjnej z parametrem czasu 3 dni program utworzyłby 2 koszyki, przez co awaria
z dnia 3 stycznia nie zostałaby skojarzona z awarią z dnia 4 i 5 stycznia. W przypadku
wspomnianego wcześniej programu działającego w oparciu o dynamiczną ramkę można
odpowiednio przygotować koszyki danych zawierające w sobie sekwencję zdarzeń.
Taka forma danych wejściowych pozwala na zastosowanie analizy niesekwencyjnej do
ostatecznego rozwiązania wspomnianego wcześniej problemu. Należy jednak zdawać
sobie sprawę z faktu, że takie praktyki mogą wpływać na zaburzenie rzeczywistych
wartości wsparcia, zaufania i przyrostu. Przykładowo podzespół o kodzie 7364 pojawia
się aż w trzech koszykach, wówczas gdy jego awaria wystąpiła tylko raz.
Tabela 6. Przykład tworzenia koszyków danych za pomocą makra.
dane normalna ramka dynamiczna ramka
bus no. data nr
części
nr
części
ID
koszyka
nr
części
ID
koszyka
nr
części
ID
koszyka
DC501 1-01-
2009 1356 1356 1 1356 1 7364 3
DC501 2-01-
2009 2485 2485 1 2485 1 1124 3
DC501 3-01-
2009 7364 7364 1 7364 1 3845 3
DC501 4-01-
2009 1124 1124 2 2485 2 1124 4
DC501 5-01-
2009 3845 3845 2 7364 2 3845 4
DC501 6-01-
2009 4445 4445 2 1124 2 4445 4
Tak przygotowane koszyki stanowiły dane wejściowe do analizy asocjacyjnej. W celu
przeprowadzenia analizy asocjacyjnej posłużono się narzędziem Association Rules w za-
kładce Data Mining i wprowadzono ustawienia, które zostały przedstawione na rys. 9.
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
120
Rys. 9. Ustawienia analizy asocjacyjnej.
Wyniki analizy asocjacyjnej można przedstawić na wykresach sieciowych i wykresach
reguł, by na ich podstawie zinterpretować wyniki. Na rys. 10 przedstawiono przykła-
dowy wykres sieciowy dla awarii z układu drzwi.
Analizując wykres, można wyróżnić ważne relacje:
1. końcówka ramienia dolnego (bottom arm tip) ↔ przegub drzwi z potencjometrem
(door hinge with a potentiometer),
2. prowadnica dolna drzwi (bottom door track) ↔ prowadnik dolny (door bearing),
3. końcówka ramienia dolnego lewa (left bottom arm tip) ↔ końcówka ramienia
dolnego prawa (right bottom arm tip),
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
121
Rys. 10. Wykres sieciowy części z układu drzwi.
W przypadku sekwencji 1 trudne warunki eksploatacji końcówki ramienia dolnego pro-
wadzą do jej szybkiego zużywania się, a w konsekwencji do powstania oporów podczas
pracy drzwi. Opór pracy drzwi przekłada się z kolei na szybkie zużycie przegubu z po-
tencjometrem, którego awarie generują największe koszty napraw w badanym autobusie.
Mając na uwadze te fakty, uzasadnione ekonomicznie jest więc prowadzenie serwisu
w oparciu o wymiany prewencyjne końcówki ramienia dolnego, co w znacznym stopniu
zniweluje ilość awarii przegubu z potencjometrem. Duży przyrost sekwencji (2) jest
związany z faktem wzajemnego zużywania się części. Informacje tego typu mogą posłu-
żyć do wskazania błędów konstrukcyjnych.
Copyright © StatSoft Polska 2014, info@DaneWiedzaSukceS.pl
122
Podsumowanie
W artykule przedstawiono przebieg oraz wyniki analizy data mining dla danych doty-
czących awaryjności autobusów. Przeprowadzona analiza text mining wykazała bardzo
wysoką dokładność klasyfikatora (99%) w automatycznej analizie tekstu. Narzędzia text
mining pozwoliły znacznie zmniejszyć nakład pracy w przygotowywaniu danych wej-
ściowych do analizy asocjacyjnej. Przeprowadzona w dalszym etapie analiza asocja-
cyjna wskazała wiele znaczących reguł, których znajomość dała możliwość opracowania
odpowiedniej strategii eksploatacji floty pojazdów, jak również wskazania cennych dla
konstruktorów informacji dotyczących wad konstrukcyjnych pojazdów.
Literatura
1. Marzec M.: Analiza dostępności obiektów mechatronicznych, Praca dyplomowa
magisterska, Akademia Górniczo-Hutnicza, 2012.
2. Marzec M., Uhl T., Michalak D.: Verification of text mining techniques accuracy
when dealing with urban buses maintenance data, w druku.
3. Marzec M., Uhl T.: „Using data mining tools to show correlations between failures
occurring in city buses” Diagnostyka, Vol. 4(64), 3-9, 2012.
4. StatSoft, Inc. (2011). STATISTICA (data analysis software system), version 10.
www.statsoft.com.
5. Lula P.: Text mining jako narzędzie pozyskiwania informacji z dokumentów teksto-
wych, Data Mining: poznaj siebie i swoich klientów, StatSoft Polska, 2005.
6. Klosgen W., Żytkow M.: Handbook of data mining and knowledge discovery,
Oxford University Press, 2002.