WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...
Transcript of WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...
WERONIKA BUDZYŃSKA
ARKADIUSZ GOLA
Katedra Organizacji Przedsiębiorstwa,
Politechnika Lubelska
WYBRANE ZASTOSOWANIA
PAKIETU STATISTICA DO ANALIZY
DANYCH W PRZEDSIĘBIORSTWIE
Streszczenie: W artykule przedstawiono możliwości wykorzystania oprogra-
mowania Statistica jako narzędzia do grupowania danych, analizy i interpretacji
w branży. Zaprezentowano przykłady regresji i analizy wariancji.
Słowa kluczowe: Statystyka, analiza danych, zarządzanie jakością
1. Wprowadzenie
Mnogość informacji sprawia, że ich właściwa interpretacja i zdolność oceny ich
przydatności jest sprawą zasadniczą. Także w szeroko rozumianej inżynierii
produkcji umiejętność interpretacji i dalszej predykcji pomagają właściwie oce-
nić proces oraz podjąć odpowiednie decyzje. Metody ilościowe prognozowania
opierają się o narzędzia zwane predykatorami, którymi są różnego rodzaju mo-
dele budowane dla zmiennej prognozowanej (modele trendu, adaptacyjne mo-
dele trendu, modele autoregresyjne) [9]. Statystyka matematyczna jest, zatem tą
dziedziną wiedzy, która pozwala wyniki próby odnieść do całej badanej popula-
cji. Badanie statystyczne jest procesem czteroetapowym [10]. Obejmuje ono:
przygotowanie badania,
obserwacje i zbieranie informacji,
opracowanie materiału,
analizę statystyczną.
Weronika Budzyńska, Arkadiusz Gola 16
Badanie jest przygotowywane w konkretnym celu, jego odpowiednie sfor-
mułowanie może pomóc w dobraniu odpowiednich narzędzi do jego przepro-
wadzenia. Zbieranie informacji jest ich zwykłym magazynowaniem, dopiero
opracowanie materiału pozwala go pogrupować, a jego analiza odpowiednio
opisać.
Współczesne procesy wytwarzania są bardzo często skomplikowane, mają
bardzo wiele cech. Zazwyczaj w toku procesu zbieramy mnóstwo danych:
ustawień procesu, właściwości surowców oraz parametrów, takich jak tempera-
tura i ciśnienie. Zdarza się, że od czasu do czasu w procesie występują proble-
my z jego jakością, albo że następuje trwałe obniżenie wydajności procesu.
Zastosowanie technik analizy danych ułatwia szybkie wykrycie przyczyny tego
typu problemów [2].
2. Wprowadzenie do programu STATISTICA
Pakiet Statistica firmy StatSoft (rysunek 1) jest narzędziem rozbudowanym, po-
zwalającym opracowywać materiał statystyczny w sposób kompleksowy, prezen-
tując dane nie tylko w sposób graficzny, ale umożliwiając pełną ich analizę: po-
cząwszy od statystyki opisowej po zaawansowane analizy regresji czy wariancji.
Oprogramowanie to pozwala między innymi na realizację zagadnień typu:
analiza wariancji (ANOVA i MANOVA), testy istotności i nieparametryczne,
analiza korelacji i regresji – prostej i wielorakiej, analiza kanoniczna, czynni-
kowa, log-liniowa oraz wiele innych narzędzi pozwalających na pełną interpre-
tację danych [11].
Przemysł maszynowy korzysta z pakietu Statistica jako integralnej części
systemu sterowania jakością i programu Six Sigma. Kilka z największych firm
tej branży posiada globalną licencję na program Statistica, korzystając z syste-
mu we wszystkich swoich oddziałach [13].
Ulepszenie oferowanego produktu oraz lepsza regulacja procesu produkcji
poprzez możliwość określenia najczęstszych rodzajów awarii, czynników mają-
cych wpływ na usterkę danego typu, czy zależności (korelacji) pomiędzy róż-
nymi usterkami, to tylko niektóre zalety programu. Serwis gwarancyjny i moni-
torowanie procesów to główne obszary wykorzystania pakietu, np. do
określania wskazówek i reguł mogących obniżyć koszt napraw i przeglądów
gwarancyjnych (algorytmy data i text mining).
Ocena metod tworzenia ontologii… 17
Rys. 1. Okno wejściowe programu STATISTICA (ver. 10)
Rozbudowany pakiet Statistica zawiera także, na przykład, zestaw modeli
predykcyjnych mogących służyć do monitorowania ciśnienia oleju, obrotów,
ciśnienia wody i szeregu innych parametrów związanych z działaniem urządze-
nia. Producent wśród zalet wymienia także możliwość w pełni zautomatyzowa-
nego raportowania wszystkich alarmujących lub wyjątkowych zdarzeń już w
momencie, gdy wcześniejsze obserwacje wskazują na możliwość ich wystąpienia.
Dzięki temu producent może zawiadomić klienta zanim wystąpi problem i trafnie
podjąć decyzję o konieczności wysłania techników w celu regulacji urządzenia.
Także w segmencie sprzedaży i marketingu StatSoft oferuje szeroki zestaw
technik analitycznych zawartych w programach z rodziny Statistica służących
określaniu regionalnych wzorców zachowania klientów oraz szacowaniu możli-
wości cross-sellingowych i up-sellingowych na podstawie danych o wcześniej-
szych zakupach, branży czy lokalizacji geograficznej, w której działa klient.
3. Elementy statystyki matematycznej
3.1. Statystyka opisowa
Statystyka opisowa jest tym elementem statystyki, który dzięki graficznemu
przedstawieniu miar położenia, koncentracji, zmienności oraz średnich wyni-
ków badanych procesów pozwala interpretować zachodzące zjawiska oraz ba-
dać odchylenia od zadanego poziomu tolerancji.
Weronika Budzyńska, Arkadiusz Gola 18
Do podstawowych parametrów statystycznych należą:
miary położenia: średnia (arytmetyczna, harmoniczna, geometryczna), mo-
dalna, kwantyle (pierwszy, drugi-mediana, trzeci, decyle),
miary zmienności: rozstęp, wariancja, odchylenie standardowe,
miary asymetrii: skośność,
miary koncentracji: kurtoza.
Miary położenia wskazują miejsce wartości najlepiej reprezentującej
wszystkie wielkości zmiennej. Innymi słowy mówią o przeciętnym poziome
rozważanej cechy [10].
Rozstęp jest najprostszą, ale niedoskonała miarą rozproszenia. Jest on róż-
nicą między największy, a najmniejszym otrzymanym wynikiem. Wariancja
oraz odchylenie standardowe obrazują rozrzut wyników od średniej wielkości.
Im wyniki próby są bardziej zróżnicowane tym większe jest odchylenie stan-
dardowe. Średnia oraz odchylenie standardowe są tymi miarami, które wyko-
rzystuję się bardzo często w tworzeniu kart kontrolnych procesu.
Asymetrię można określić, porównując średnią arytmetyczną z medianą
i modalną. Wartość dodatnia współczynnika asymetrii wskazuje na asymetrię
prawostronną zaś ujemna na lewostronną rozkładu badanej cechy.
Do opisu koncentracji wyników wokół średniej służy kurtoza – im jest
większa tym większa jest skupienie cech.
Powyższe wskaźniki mają swoje szerokie zastosowania pośrednie i bezpo-
średnie, np. mapy zadowolenia klienta mogą być budowane na podstawie
wskaźników absolutnych (wartości przeciętne – średnie arytmetyczne lub me-
diany - dla danych cech i ich odchylenia standardowe lub rozstępy międzykwar-
tylowe) lub względnych (w odniesieniu do cech produktu najgroźniejszego
konkurenta lub cech produktu odniesienia – najczęściej produktu idealnego).
Prezentowane mapy są najczęściej zestawieniami wartości średnich arytme-
tycznych porównywanych cech i przyjęcia określonych schematów ich klasyfi-
kacji na osiach układu współrzędnych. Do zalet tych metod można zaliczyć
prostotę ich tworzenia i klarowność interpretacji [8].
W programie Statistica do dyspozycji są dwie ścieżki dostępu do statystyki opi-
sowej: zakładka Statystyka – Statystyki podstawowe i tabele oraz zakładka: Wykresy
(graficzna prezentacja wyników). Możliwość wykorzystania parametrów staty-
stycznych do analizy danych został pokazany na poniższym przykładzie.
Przykład 1
Poddano próbie rozciągania znormalizowane próbki badanego materiału. Wy-
niki, obrazujące zależność czasu, po którym nastąpiło rozerwanie, od siły dzia-
łającej na próbkę przedstawiono w tabeli 1.
Ocena metod tworzenia ontologii… 19
Po wyborze parametrów i statystyk opisowych (rysunek 2) otrzymano wy-
niki (średnia arytmetyczna, mediana, moda, liczności mody, wartość maksy-
malna, wielkość minimalna, wariancja, odchylenie standardowe, skośność, kur-
tozę) oraz histogram (rysunek 3).
Tab. 1. Dane wejściowe dla Przykładu 1
Lp. Czas [S] Siła [N] Lp. Czas [S] Siła [N] Lp. Czas [S] Siła [N]
1. 50 1500 11. 52 1490 21. 55 1520
2. 55 1550 12. 51 1520 22. 51 1500
3. 57 1490 13. 49 1550 23. 51 1460
4. 55 1520 14. 55 1510 24. 53 1530
5. 47 1530 15. 52 1550 25. 46 1500
6. 48 1500 16. 55 1530 26. 49 1510
7. 53 1510 17. 52 1510 27. 54 1490
8. 55 1500 18. 50 1490 28. 54 1520
9. 61 1470 19. 48 1470 29. 54 1500
10. 60 1450 20. 47 1500 30. 48 1510
Rys. 2. Okno menu do wyboru statystyk opisowych
Weronika Budzyńska, Arkadiusz Gola 20
Rys. 3. Histogram i wyniki końcowe
3.2. Weryfikacja hipotez
Posiadając pewne dane empiryczne oraz wiedzę o zjawisku można stawiać
pewne hipotezy, dotyczące zarówno parametrów rozkładów badanych zjawisk,
jak i zależności miedzy nimi. Podstawowe pojęcia w zagadnieniach związanych
z weryfikacją hipotez są: przestrzeń próby (i wiedza o niej), hipotezy staty-
styczne oraz testy statystyczne.
Hipoteza statystyczna jest założeniem, które odnosi się bądź to do niezna-
nego poziomu parametru w zbiorowości generalnej, albo też do nieznanej po-
staci rozkładu zmiennych losowych w danej zbiorowości [6]. W ten sposób
dzielimy testy na parametryczne i nieparametryczne. Inny podział mówi o hipo-
tezach: zerowych (założenie braku różnic między wynikami) oraz alternatyw-
nych (przeciwnych do hipotezy zerowej). Procedura weryfikacji prawdziwości
hipotezy to test statystyczny.
W programie Statistica weryfikacja hipotez dotycząca wartości średniej jest
dostępna w poleceniu test T dla pojedynczych średnich. Ścieżka dostępu do niego
to: Statystyka - Statystyki podstawowe i tabele – test t dla pojedynczej próby. Przy
Statystyki: SIŁA [N]
N ważnych= 30,000000
Średnia=1506,000000
Mediana=1505,000000
Moda= 1,000000
Liczność Mody =7,000000
Minimum=1450,000000
Maksimum=1550,000000
Wariancja=604,137931
Odch.std= 24,579217
Skośność= -0,188695
Skośność= -0,188695
Kurtoza= 0,188542
Ocena metod tworzenia ontologii… 21
pomocy dostępnych opcji można wykonać test t dla pojedynczych średnich
(rysunek 4).
Rys. 4. Weryfikacja hipotez statystycznych w programie Statictica
3.3. Korelacja i regresja
Często jest tak, że posiadamy zbiór interesujących nas danych i na ich podsta-
wie chcemy przewidywać na przyszłość, czyli prognozować. W tym celu bu-
dowane są modele, które w mniejszym bądź większym stopniu są odzwiercie-
dleniem badanej rzeczywistości [9]. Na sam model może wpływać tylko jeden
czynnik (model liniowy) bądź wiele czynników (wieloczynnikowy, model nie-
liniowy), dodatkowo w różnym stopniu. Jednak by móc stwierdzić, czy model
jest dobrze dopasowany do zjawiska trzeba przede wszystkim posiadać wiedzę
na jego temat, jak również szereg narzędzi i parametrów opisujących i weryfi-
kujących. Tych narzędzi dostarcza nam statystyka matematyczna, a tym samym
pakiet Statistica.
Zagadnienie korelacji, a przede wszystkim regresji jest dziedziną obszerną
w zastosowaniach gdyż możliwości predykcyjne są bardzo istotnym elementem
dla każdego przedsiębiorcy. Ma to związek z pewnym modelowaniem przyszło-
ści na podstawie przeszłości, np.:
Wytrzymałość = 16,3 + 1,57 • ciśnienie formowania + 4,16 • stężenie kwasu + ε
Weronika Budzyńska, Arkadiusz Gola 22
W modelu Wytrzymałość jest zmienną zależną (lub objaśnianą), a ciśnienie
formowania oraz stężenie kwasu predyktorami (używane są również nazwy
zmienne niezależne lub objaśniające). Losowość uwzględniamy poprzez skład-
nik ε, który oznacza błąd losowy i zawiera w sobie m.in. wpływ niemierzonych
i niemierzalnych czynników. Z praktycznego punktu widzenia wartości ε po-
winny być niewielkie, a w przypadku stosowania tradycyjnych metod staty-
stycznych często zakłada się, że ma on rozkład normalny o wartości oczekiwa-
nej 0 [1]. Zastosowanie metody korelacji i regresji poprzez analizę reszt
przedstawiono w przykładzie 2.
Przykład 2
Zbadano wpływ czterech czynników na czas stygnięcia odlewu. Zebrane dane
przedstawiono w tabeli (Rys. 5). Zadaniem jest ocena istotności wpływu po-
szczególnych czynników na czas stygnięcia oraz budowa najlepiej dopasowane-
go modelu dla celów oszacowania wielkości wpływu poszczególnych czynników.
Zdefiniowanymi zmiennymi w analizowanym modelu są:
Czas stygnięcia – zmienna zależna,
Czynniki 1,2,3,4 – zmienne niezależne.
Rys. 5. Dane dla przykładu 2
Przystępujemy do budowy modelu. Potrzebne narzędzia znajdziemy w za-
kładce: Statystyka – Statystyki podstawowe i tabele – Regresja wieloraka. W
opcji: Zmienne należy zaznaczyć wszystkie zmienne. Otrzymujemy statystyki
podsumowujące (rysunek 6).
Ocena metod tworzenia ontologii… 23
Rys. 6. Wyniki regresji wielorakiej
Już na tym etapie można stwierdzić, że model jest dobrze dopasowany. Do-
pasowanie modelu mierzone jest na tym etapie przy pomocy wskaźników: Wie-
lorakieR2 i SkorygowaneR2. Wielorakie R2 wynosi ok. 0, 95, zaś Skorygowa-
neR2: 0, 93. Oznacza to, że w 93% zmienność modelu została wyjaśniona przez
zmienność zmiennych niezależnych. Model jest bardzo dobrze wyjaśniany
przez zmienne objaśniające: czynniki 1,2,3,4. Różnica pomiędzy tymi dwoma
wskaźnikami polega na tym, że wskaźnik WielorakieR2 rośnie wraz z ilością
dodawanych do modelu zmiennych. Trzeba, zatem być ostrożnym w jego inter-
pretacji, ponieważ dopasowanie modelu nie wzrasta wraz z ilością zmiennych.
Istotny jest ich wpływ na zmienna zależną. Możemy, bowiem dodawać dużą
liczbę zmiennych nieistotnych a rzeczywisty proces pokaże, ze model nie opisu-
je poprawnie zjawiska modelowanego. Błąd ten eliminuje SkorygowaneR2,
które to pokazuje rzeczywiste dopasowanie modelu, niezależne od ilości doda-
wanych zmiennych nieistotnie wpływających na model. Statystyka F wynosi
ok. 69,314 i jest statystycznie istotna (p < 0, 1). Dzięki tej statystyce uzyskuje-
my następujące informacje:
liniowy jest charakter zależności,
spośród wszystkich parametrów strukturalnych modelu przynajmniej je-
den, który stoi przy zmiennej oprócz wyrazu wolnego jest niezerowy,
współczynnik korelacji R wielorakie jest rożny od zera, statystycznie istotny.
Wielkość błędu standardowego estymacji interpretowana jest w oparciu o
znajomość modelowanego zjawiska. Wybierając opcje: Podsumowanie wyniki
regresji oraz w zakładce Więcej - Nadmiarowość otrzymujemy wyniki podsu-
mowujące przedstawione na rysunku 7.
Otrzymane wyniki interpretujemy następująco. Czynnik2 należy usunąć
z modelu, ponieważ nie jest on istotny statystycznie (p > 0,1). Analizując do-
datkowo wyniki nadmiarowości można powiedzieć, że nie mamy tu do czynie-
nia z klasycznym przypadkiem nadmiarowości (Tolerancja jest nie mniejsza od
0,1), ale korelacje cząstkowe i semiczastkowe dla Czynnika2 są niskie. To de-
Weronika Budzyńska, Arkadiusz Gola 24
cyduje o usunięciu go z modelu. Pozostałe czynniki: 1,3,4 w istotny sposób
wpływają na model. Przystępujemy zatem ponownie do budowy modelu, tym
razem rezygnując podczas wyboru zmiennych z Czynnika2. Wyniki podsumo-
wujące dla regresji zostały przedstawione na rys. 8.
Rys. 7. Podsumowanie wyników regresji oraz tabela wyników nadmiarowości
Rys. 8. Podsumowanie wyników regresji oraz tabela wyników nadmiarowości
Analizując powyższe wyniki możemy stwierdzić, że otrzymaliśmy model
właściwy. Charakteryzuje się on R na poziomie 0,97, R2 = 0,95 oraz Skorygo-
wanymR2=0,94. W porównaniu z poprzednim, model poprawił się. Wzrósł pa-
rametr PoprawR2 oraz spadł błąd standardowy estymacji. Ponadto wszystkie
analizowane czynniki w sposób istotny wpływają na model. Model jest bardzo
dobrze dopasowany: 94% zmienności zostało wyjaśnione przez Czynniki 1,3,4.
Statystyka F=95,6 jest statystycznie istotna, oznacza to, że budowa modelu
Ocena metod tworzenia ontologii… 25
liniowego jest właściwa. Ponadto przynajmniej jeden parametr strukturalny jest
różny od zera oraz parametr R, również różny od zera, jest statystycznie istotny.
Ostatecznie otrzymaliśmy model poprawiony, w którym wszystkie czynniki
istotnie wpływają na czas stygnięcia. Ostateczna postać modelu to:
y = 0,320810*Czynnik1+0,570396*Czynnik2+0,319116*Czynnik3+1,0419
Z modelu możemy odczytać także, że największy wpływ na czas stygnięcia
ma Czynnik2, podczas gdy Czynnik1 i Czynnik4 mają podobny wpływ.
Istotnym jest by przed przystąpieniem do budowy modelu sprawdzić zało-
żenia modelu regresji wielorakiej:
Liniowa postać zależności pomiędzy zmiennym objaśniającymi a zmienną
objaśnianą (analiza wykresów rozrzutu).
Brak współliniowości zmiennych objaśniających (brak nadmiarowości
oceniany przez współczynnik tolerancji, który nie powinien spaść poniżej
wartości: (0,1)).
Reszty mają rozkład normalny standaryzowany (analiza reszt).
Homoscedastycznośc reszt (Wariancja składnika resztowego jest taka sama
dla wszystkich obserwacji).
Autokoleracja reszt (Statystyka Durbina –Watsona).
Należy również pamiętać o wpływie przypadków odstających na wygląd
prostej podczas analizy wykresów rozrzutu. W istotny, bowiem sposób wpływa-
ją na jej położenie.
3.4. Analiza wariancji
Analiza wariancji jest zagadnieniem bardzo obszernym jednakże bardzo istotnym
w zagadnieniach inżynierii produkcji. Wariancja (jak również odchylenie stan-
dardowe) należy do miar rozrzutu wyników danej próby od średniej. Jeżeli zatem
zależy nam na stabilności przebiegu naszego procesu, wariancja powinna być jak
najmniejsza. W literaturze podaje się także pewne wady metod analizy wariancji
[5]. Wariancja analizowana jest również w przypadku kart kontrolnych.
Wieloczynnikowa analiza wariancji służy do testowania istotności różnic
średnich pomiędzy populacjami generowanymi przez kilka czynników różnicu-
jących. Sama jednak analiza nie daje odpowiedzi na pytanie, który czynnik
różnicuje najmocniej. Służy do tego analiza takich współczynników jak: eta
kwadrat (η2), cząstkowe eta kwadrat (ηp2) oraz omega kwadrat (ω2). Zastoso-
wanie analizy wariancji pokazano w przykładzie 3.
Weronika Budzyńska, Arkadiusz Gola 26
Przykład 3
W oparciu o dane przedstawione na rys. 9 zbadać, czy istnieją istotne czynniki
wpływające na średnia ocenę drinka Margarita. Podać procentowy wpływ każ-
dego istotnego czynnika oraz ich kombinacji.
Rys. 9. Dane dla przykładu 3
Wyniki przedstawione na rysunku 10 pozwalają rozpoznać zmienne nieza-
leżne istotnie wpływające na ocenę klientów. Program czynniki istotne staty-
stycznie zaznacza kolorem czerwonym. Należą do nich zmienne: TEQUILA,
TYP, TEQUILA*TYP. Ostatnie oznaczenie: TEQUILA*TYP oznacza interak-
cje obydwu czynników, tj. wynik oddziaływania na ocenę klienta poziomu jed-
nego czynnika zależy od poziomu drugiego czynnika.
Rysunej 11 pozwala natomiast zauważyć wpływ danej zmiennej na zmien-
ność oceny konsumenta. Informuje nas o tym wielkość cząstkowe eta kwadrat
(ηp2). Największy wpływ na efekt końcowy (a więc odbiór u konsumenta, oce-
nę) ma zmienna TYP (rodzaj drinka: I, II, III): ok. 69% zmienności zmiennej
zależnej jest wyjaśnione przez zmienność czynnika klasyfikującego, czyli
zmienność oceny klienta zależy w 69% od tego jaki wypije typ drinka. W 32%
zależy od ilości alkoholu w drinku (32% zmienności zmiennej zależnej jest
wyjaśnione przez zmienność czynnika TEQUILA).
Ocena metod tworzenia ontologii… 27
Rys. 10. Tabela jednowymiarowych testów istotności
Rys. 11. Tabela wpływu zmiennych i ich interakcji na ocenę konsumenta
Wykres I (rysunek 12) pokazuje, że średnia wartość oceny konsumenta jest
największa dla Tequili 5%. Następnie maleje osiągając najmniejszą wartość dla
tequili 15%, jednakże średnia ta jest porównywalna z oceną dla tequili 10%.
Wniosek: Im mniej procentowa tequila, tym ocena konsumenta jest większa.
Wykres II pokazuje, ze najmniejsza średnia oceny występuje przy typie I
i II. Mają one, bowiem średnie porównywalne względem siebie. Największa
średnia oceny występuje dla typu drinka II. Istnieje też istotna różnica pomiędzy
ocena typu II a pozostałymi.
Z przedstawionej analizy wynika istotna informacja dla właściciela restau-
racji: nie jest obojętna procentowa zawartość alkoholu, który jest używany
w danym typie drinka. Wybierając Tequilę 5% najwyższą ocenę uzyska ona dla
II typu drinka.
Weronika Budzyńska, Arkadiusz Gola 28
Rys. 12. Oczekiwane średnie brzegowe dla efektów
Ocena metod tworzenia ontologii… 29
4. Wprowadzenie do statystycznego sterowania proce-
sami technologicznymi
W nadzorowaniu jakości wykorzystywane są przede wszystkim informacje
o charakterze losowym zmian. Poszczególne działania służące do osiągnięcia
żądanej jakości wyrobów określane są mianem Statystycznego sterowania pro-
cesami (SPC – Statistical Process Control) [7]. Pierwszym etapem w staty-
stycznym sterowaniu procesami jest problem diagnostyki zakłóceń, dokonywa-
nej za pomocą monitorowania charakterystyk jakości. W przedsiębiorstwie
statystyka znajduje głównie zastosowanie w dwóch sektorach: w ocenie jakości
procesów oraz sterowaniu procesami wspomaganym przez karty kontrolne.
4.1. Liczbowe wskaźniki zdolności w ocenie jakości procesów
Bardzo ważnym problemem jest oszacowanie poziomu jakości wytwarzanych
wyrobów. Ocena ta jest potrzebna w mierzeniu postępów i doskonaleniu proce-
sów. Najprostszym wskaźnikiem jest udział procentowy wadliwych wyrobów
w danej partii. Nie daje on jednak odpowiedzi na pytanie jak zapewnić odpo-
wiedni poziom wadliwości wyrobów na etapie ich produkcji.
Niezależnie od metody każda charakterystyka jakości ma swoją wartość
nominalną T oraz wymagany obszar zmienności wyrażony przez pole tolerancji
o zdefiniowanych granicach. Charakterystyki jakości muszą spełniać założone
granice tolerancji [7]. W idealnym modelowym przypadku proces powinien
utrzymywać wartość charakterystyk na poziomie wyznaczonego nominału.
W rzeczywistości taki proces jest niemożliwy i zawsze będą mu towarzyszyły
odchylenia. Dąży się do zminimalizowania tych odchyleń i niecentryczności
procesu. Jego zmienność jest określana przy pomocy matematycznych miar
rozproszenia i koncentracji. W sterowaniu jakością przede wszystkim są to:
odchylenie przeciętne, wariancja oraz odchylenie standardowe.
Wycentrowanie procesu e jest różnicą pomiędzy wartością nominalną a śred-
nia pochodzącą z procesu. Uniwersalnym wskaźnikiem jest tzw. wskaźnik zdol-
ności, który w najprostszej, podstawowej formie jest wyrażany przez formułę:
𝐶𝑝 =𝑈𝑆𝐿−𝐿𝑆𝐿
6𝜎 (1)
gdzie:
USL , LSL – odpowiednio: górna i dolna granica tolerancji,
6σ – rozproszenie procesu.
Weronika Budzyńska, Arkadiusz Gola 30
Znaczenie wskaźnika tolerancji dla odchyłek charakterystyki jakości mode-
lowanych przy pomocy rozkładu normalnego można wyjaśnić następująco [7]:
dla wskaźnika zdolności Cp = 1 pole tolerancji obejmuje +/-3σ, co jest
równoważne udziałowi braków ok. 0,27%,
dla wskaźnika zdolności Cp = 1,33 pole tolerancji obejmuj +/-4σ, co jest
równoważne udziałowi braków ok. 0,006%.
Wskaźnik ten był modyfikowany przez lata jednak zawsze w swojej naj-
bardziej ogólnej formie wyraża się przez iloraz obszaru tolerancji do rozpro-
szenia procesu. Opisana miara jakości wytwarzania nie jest jedyna. Inną przy-
kładową może być: ocena jakości przy pomocy funkcji strat. Nie zmienia to
jednak faktu, że metody te są doskonalone i dostosowywane do specyfiki
określonego przedsiębiorstwa.
4.2. Wprowadzenie do kart kontrolnych
Podstawowym narzędziem SPC są karty kontrolne, wykorzystywane do zapi-
sywania wyników pomiarów monitorowanego procesu oraz pozwalające na
ocenę stabilności jego przebiegu. W zależności od etapu wdrażania systemu
jakości i specyfiki przedsiębiorstwa możemy mieć do czynienia z kilkoma ro-
dzajami kart kontrolnych. Ich ogólny podział wyodrębnia dwa typy kart: karty
przy liczbowej ocenie właściwości oraz karty kontrolne przy atrybutowej (alter-
natywnej) ocenie właściwości [4].
Niezależnie od wyboru karty należy pamiętać, że powinna ona być instalo-
wana jak najbliżej stanowisk pracy dla szybkiego i skutecznego korygowania
procesu technologicznego. Podział kart kontrolnych ze względu na o ich zasto-
sowanie przedstawia rysunek 13.
Wielką zaletą karty kontrolnej jest łatwość jej interpretacji. Jeśli wyniki
pomiarów dla próbki wykroczą poza granice kontrolne (przerywane linie na
wykresie), to mamy sygnał o rozregulowaniu, sugerujący, że wystąpiło zdarze-
nie, któremu można przypisać nielosową przyczynę. Po znalezieniu przyczyn
zmian możemy je wyeliminować (lub zmniejszyć częstość ich występowania),
a co za tym idzie, uzyskać proces o mniejszej zmienności, bardziej stabilny oraz
przewidywalny – krótko mówiąc – lepszy [3].
W programie Statistica moduły umożliwiające statystyczne sterowanie ja-
kością znajdują się przede wszystkim w zakładce Statystyka - Statystyki przemy-
słowe. Znajdziemy się tam bogaty zestaw opcji, poczynając od kart kontrolnych
po analizy procesu, planowanie doświadczeń oraz Six Sigma.
Ocena metod tworzenia ontologii… 31
Rys. 13. Klasyfikacja kart kontrolnych [7]
Six Sigma to precyzyjnie zorganizowana, bazującą na realnych danych stra-
tegia eliminacji defektów, strat i wszelkich problemów z jakością, we wszyst-
kich dziedzinach produkcji, usług, zarządzania i w innych rodzajach działalno-
ści biznesowej. Podstawą podejścia Six Sigma jest połączenie technik
statystycznego sterowania jakością z innymi metodami statystycznymi [12].
Widok okna programu Statistica ze ścieżką dostępu do statystyk przemysło-
wych został pokazany na rysunku 14.
Dane skorelowane
Liczność próbki
(rodzaj obserwacji,
zmienne)
Modyfikowana
CUSUM
EWMA
Model ARIMA
karta
standardowa
z różnic x-X
X(model typu MA,
CUSUM, EWMA)
EWMA z granica-
mi ruchomymi lub
kart różnic z x-X
(X-model typu
ARIMA)
(jeśli średnia nie
jest ruchoma)
Opóźnienie
(n>1)
Opóźnienie
(n=1)
Opóźnienie
(ułamek)
Opóźnienie
(wykrycie)
Typ danych
(rodzaj obserwacji,
atrybuty) Średnia ruchoma
X/R
X/S
CUSUM
EWMA
X
MA
CUSUM
EWMA
n
np
CUSUM
EWMA
c
u
CUSUM
EWMA
Dla c, u
Weronika Budzyńska, Arkadiusz Gola 32
Rys. 14. Dostęp do statystyk przemysłowych w programie Statistica
5. Podsumowanie
Zarządzanie firmą jest nieustannym procesem podejmowania decyzji, który
może być zdefiniowany jako akt wyboru działania ze zbiorem możliwych po-
stępowań. Jest to sztuka polegająca przede wszystkim na umiejętności podej-
mowania decyzji. W dzisiejszych czasach przedsiębiorstwa dysponują dużą
ilością danych związanych z przebiegiem realizowanych procesów, jak również
będących wynikiem badań prowadzonych w otoczeniu przedsiębiorstw – co
w wielu przypadkach utrudnia proces decyzyjnych. Dlatego też firmy coraz
częściej stosują narzędzia analizy danych aby optymalizować działania oraz
spełnić wymagania norm. W wielu przypadkach, narzędziem coraz częściej
wykorzystywanym do analizy danych jest pakiet Statistica, będący produktem
firmy StatSoft.
Statistica jest uniwersalnym, zintegrowanym systemem służącym do staty-
stycznej analizy danych, tworzenia wykresów, operowania na bazach danych,
wykonywania transformacji danych i tworzenia aplikacji. W skład systemu
wchodzi wszechstronny zestaw zaawansowanych procedur analitycznych. Śro-
dowisko programu jest dostępne w polskiej wersji językowej. W niniejszym
opracowaniu wskazano wybranie możliwości zastosowania oprogramowania do
analizy danych w przedsiębiorstwie. W sposób szczególny podjęto zagadnienia
Ocena metod tworzenia ontologii… 33
dotyczące statystyki opisowej, problematyki weryfikacji hipotez badawczych
oraz analizy wariancji. Ponadto, w końcowej części dokonano wprowadzenia do
zagadnienia statystycznego sterowania procesami w ujęciu zarządzania proce-
sami technologicznymi. Przeprowadzane dyskusje zostały zilustrowane wybra-
nymi przykładami praktycznymi.
Literatura
1. Demski T.: Modelowanie procesów produkcyjnych, StatSoft 2005.
2. Demski T.: Wykrywanie przyczyn i przewidywanie problemów z jakością
na przykładzie przemysłu poligraficznego, StatSoft 2009.
3. Demski T.: Sterowanie jakością procesu o wielu właściwościach: wielo-
wymiarowe karty kontrolne i inne narzędzia, StatSoft 2010,
4. Greber T: O korzyściach z SPC, StatSoft 2009.
5. Longford T. N.: „Which model?” is the wrong question, Statistica Neer-
landica (2012) Vol.66 nr.3,pp 237-252.
6. Luszniewicz A.: Metody wnioskowania statystycznego, Państwowe Wy-
dawnictwo Ekonomiczne, Warszawa 1994.
7. Płaska S.: Wprowadzenie do statystycznego sterowania procesami techno-
logicznymi, Wyd. Politechniki Lubelskiej, Lublin 2000.
8. Sagan A.: Jeden obraz ukazuje więcej niż 10 liczb, czyli jak budować ma-
py zadowolenia klienta z wykorzystaniem programu STATISTICA, Stat-
Soft 2004, s.5-12.
9. Sobczyk M.: Prognozowanie: teoria, przykłady, zadania, Wyd. Placet,
Warszawa 2008.
10. Stanisz A.: Przystępny kurs statystyki z zastosowaniem STATISTICA PL
na przykładach z medycyny T.1, Wyd. Statsoft, Kraków 2007.
11. Stanisz A.: Przystępny kurs statystyki z zastosowaniem STATISTICA PL
na przykładach z medycyny T.2, Wyd. Statsoft, Kraków 2007.
12. Wajda R.: Zastosowanie narzędzi StatSoft do analizy danych w przemyśle,
StatSoft 2009.
13. http://www.statsoft.pl/
14. http://www.statsoft.pl/Czytelnia/Jakosc-SPC.