WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

19
WERONIKA BUDZYŃSKA [email protected] ARKADIUSZ GOLA [email protected] Katedra Organizacji Przedsiębiorstwa, Politechnika Lubelska WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY DANYCH W PRZEDSIĘBIORSTWIE Streszczenie: W artykule przedstawiono możliwości wykorzystania oprogra- mowania Statistica jako narzędzia do grupowania danych, analizy i interpretacji w branży. Zaprezentowano przykłady regresji i analizy wariancji. Słowa kluczowe: Statystyka, analiza danych, zarządzanie jakością 1. Wprowadzenie Mnogość informacji sprawia, że ich właściwa interpretacja i zdolność oceny ich przydatności jest sprawą zasadniczą. Także w szeroko rozumianej inżynierii produkcji umiejętność interpretacji i dalszej predykcji pomagają właściwie oce- nić proces oraz podjąć odpowiednie decyzje. Metody ilościowe prognozowania opierają się o narzędzia zwane predykatorami, którymi są różnego rodzaju mo- dele budowane dla zmiennej prognozowanej (modele trendu, adaptacyjne mo- dele trendu, modele autoregresyjne) [9]. Statystyka matematyczna jest, zatem tą dziedziną wiedzy, która pozwala wyniki próby odnieść do całej badanej popula- cji. Badanie statystyczne jest procesem czteroetapowym [10]. Obejmuje ono: przygotowanie badania, obserwacje i zbieranie informacji, opracowanie materiału, analizę statystyczną.

Transcript of WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Page 1: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

WERONIKA BUDZYŃSKA

[email protected]

ARKADIUSZ GOLA

[email protected]

Katedra Organizacji Przedsiębiorstwa,

Politechnika Lubelska

WYBRANE ZASTOSOWANIA

PAKIETU STATISTICA DO ANALIZY

DANYCH W PRZEDSIĘBIORSTWIE

Streszczenie: W artykule przedstawiono możliwości wykorzystania oprogra-

mowania Statistica jako narzędzia do grupowania danych, analizy i interpretacji

w branży. Zaprezentowano przykłady regresji i analizy wariancji.

Słowa kluczowe: Statystyka, analiza danych, zarządzanie jakością

1. Wprowadzenie

Mnogość informacji sprawia, że ich właściwa interpretacja i zdolność oceny ich

przydatności jest sprawą zasadniczą. Także w szeroko rozumianej inżynierii

produkcji umiejętność interpretacji i dalszej predykcji pomagają właściwie oce-

nić proces oraz podjąć odpowiednie decyzje. Metody ilościowe prognozowania

opierają się o narzędzia zwane predykatorami, którymi są różnego rodzaju mo-

dele budowane dla zmiennej prognozowanej (modele trendu, adaptacyjne mo-

dele trendu, modele autoregresyjne) [9]. Statystyka matematyczna jest, zatem tą

dziedziną wiedzy, która pozwala wyniki próby odnieść do całej badanej popula-

cji. Badanie statystyczne jest procesem czteroetapowym [10]. Obejmuje ono:

przygotowanie badania,

obserwacje i zbieranie informacji,

opracowanie materiału,

analizę statystyczną.

Page 2: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Weronika Budzyńska, Arkadiusz Gola 16

Badanie jest przygotowywane w konkretnym celu, jego odpowiednie sfor-

mułowanie może pomóc w dobraniu odpowiednich narzędzi do jego przepro-

wadzenia. Zbieranie informacji jest ich zwykłym magazynowaniem, dopiero

opracowanie materiału pozwala go pogrupować, a jego analiza odpowiednio

opisać.

Współczesne procesy wytwarzania są bardzo często skomplikowane, mają

bardzo wiele cech. Zazwyczaj w toku procesu zbieramy mnóstwo danych:

ustawień procesu, właściwości surowców oraz parametrów, takich jak tempera-

tura i ciśnienie. Zdarza się, że od czasu do czasu w procesie występują proble-

my z jego jakością, albo że następuje trwałe obniżenie wydajności procesu.

Zastosowanie technik analizy danych ułatwia szybkie wykrycie przyczyny tego

typu problemów [2].

2. Wprowadzenie do programu STATISTICA

Pakiet Statistica firmy StatSoft (rysunek 1) jest narzędziem rozbudowanym, po-

zwalającym opracowywać materiał statystyczny w sposób kompleksowy, prezen-

tując dane nie tylko w sposób graficzny, ale umożliwiając pełną ich analizę: po-

cząwszy od statystyki opisowej po zaawansowane analizy regresji czy wariancji.

Oprogramowanie to pozwala między innymi na realizację zagadnień typu:

analiza wariancji (ANOVA i MANOVA), testy istotności i nieparametryczne,

analiza korelacji i regresji – prostej i wielorakiej, analiza kanoniczna, czynni-

kowa, log-liniowa oraz wiele innych narzędzi pozwalających na pełną interpre-

tację danych [11].

Przemysł maszynowy korzysta z pakietu Statistica jako integralnej części

systemu sterowania jakością i programu Six Sigma. Kilka z największych firm

tej branży posiada globalną licencję na program Statistica, korzystając z syste-

mu we wszystkich swoich oddziałach [13].

Ulepszenie oferowanego produktu oraz lepsza regulacja procesu produkcji

poprzez możliwość określenia najczęstszych rodzajów awarii, czynników mają-

cych wpływ na usterkę danego typu, czy zależności (korelacji) pomiędzy róż-

nymi usterkami, to tylko niektóre zalety programu. Serwis gwarancyjny i moni-

torowanie procesów to główne obszary wykorzystania pakietu, np. do

określania wskazówek i reguł mogących obniżyć koszt napraw i przeglądów

gwarancyjnych (algorytmy data i text mining).

Page 3: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Ocena metod tworzenia ontologii… 17

Rys. 1. Okno wejściowe programu STATISTICA (ver. 10)

Rozbudowany pakiet Statistica zawiera także, na przykład, zestaw modeli

predykcyjnych mogących służyć do monitorowania ciśnienia oleju, obrotów,

ciśnienia wody i szeregu innych parametrów związanych z działaniem urządze-

nia. Producent wśród zalet wymienia także możliwość w pełni zautomatyzowa-

nego raportowania wszystkich alarmujących lub wyjątkowych zdarzeń już w

momencie, gdy wcześniejsze obserwacje wskazują na możliwość ich wystąpienia.

Dzięki temu producent może zawiadomić klienta zanim wystąpi problem i trafnie

podjąć decyzję o konieczności wysłania techników w celu regulacji urządzenia.

Także w segmencie sprzedaży i marketingu StatSoft oferuje szeroki zestaw

technik analitycznych zawartych w programach z rodziny Statistica służących

określaniu regionalnych wzorców zachowania klientów oraz szacowaniu możli-

wości cross-sellingowych i up-sellingowych na podstawie danych o wcześniej-

szych zakupach, branży czy lokalizacji geograficznej, w której działa klient.

3. Elementy statystyki matematycznej

3.1. Statystyka opisowa

Statystyka opisowa jest tym elementem statystyki, który dzięki graficznemu

przedstawieniu miar położenia, koncentracji, zmienności oraz średnich wyni-

ków badanych procesów pozwala interpretować zachodzące zjawiska oraz ba-

dać odchylenia od zadanego poziomu tolerancji.

Page 4: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Weronika Budzyńska, Arkadiusz Gola 18

Do podstawowych parametrów statystycznych należą:

miary położenia: średnia (arytmetyczna, harmoniczna, geometryczna), mo-

dalna, kwantyle (pierwszy, drugi-mediana, trzeci, decyle),

miary zmienności: rozstęp, wariancja, odchylenie standardowe,

miary asymetrii: skośność,

miary koncentracji: kurtoza.

Miary położenia wskazują miejsce wartości najlepiej reprezentującej

wszystkie wielkości zmiennej. Innymi słowy mówią o przeciętnym poziome

rozważanej cechy [10].

Rozstęp jest najprostszą, ale niedoskonała miarą rozproszenia. Jest on róż-

nicą między największy, a najmniejszym otrzymanym wynikiem. Wariancja

oraz odchylenie standardowe obrazują rozrzut wyników od średniej wielkości.

Im wyniki próby są bardziej zróżnicowane tym większe jest odchylenie stan-

dardowe. Średnia oraz odchylenie standardowe są tymi miarami, które wyko-

rzystuję się bardzo często w tworzeniu kart kontrolnych procesu.

Asymetrię można określić, porównując średnią arytmetyczną z medianą

i modalną. Wartość dodatnia współczynnika asymetrii wskazuje na asymetrię

prawostronną zaś ujemna na lewostronną rozkładu badanej cechy.

Do opisu koncentracji wyników wokół średniej służy kurtoza – im jest

większa tym większa jest skupienie cech.

Powyższe wskaźniki mają swoje szerokie zastosowania pośrednie i bezpo-

średnie, np. mapy zadowolenia klienta mogą być budowane na podstawie

wskaźników absolutnych (wartości przeciętne – średnie arytmetyczne lub me-

diany - dla danych cech i ich odchylenia standardowe lub rozstępy międzykwar-

tylowe) lub względnych (w odniesieniu do cech produktu najgroźniejszego

konkurenta lub cech produktu odniesienia – najczęściej produktu idealnego).

Prezentowane mapy są najczęściej zestawieniami wartości średnich arytme-

tycznych porównywanych cech i przyjęcia określonych schematów ich klasyfi-

kacji na osiach układu współrzędnych. Do zalet tych metod można zaliczyć

prostotę ich tworzenia i klarowność interpretacji [8].

W programie Statistica do dyspozycji są dwie ścieżki dostępu do statystyki opi-

sowej: zakładka Statystyka – Statystyki podstawowe i tabele oraz zakładka: Wykresy

(graficzna prezentacja wyników). Możliwość wykorzystania parametrów staty-

stycznych do analizy danych został pokazany na poniższym przykładzie.

Przykład 1

Poddano próbie rozciągania znormalizowane próbki badanego materiału. Wy-

niki, obrazujące zależność czasu, po którym nastąpiło rozerwanie, od siły dzia-

łającej na próbkę przedstawiono w tabeli 1.

Page 5: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Ocena metod tworzenia ontologii… 19

Po wyborze parametrów i statystyk opisowych (rysunek 2) otrzymano wy-

niki (średnia arytmetyczna, mediana, moda, liczności mody, wartość maksy-

malna, wielkość minimalna, wariancja, odchylenie standardowe, skośność, kur-

tozę) oraz histogram (rysunek 3).

Tab. 1. Dane wejściowe dla Przykładu 1

Lp. Czas [S] Siła [N] Lp. Czas [S] Siła [N] Lp. Czas [S] Siła [N]

1. 50 1500 11. 52 1490 21. 55 1520

2. 55 1550 12. 51 1520 22. 51 1500

3. 57 1490 13. 49 1550 23. 51 1460

4. 55 1520 14. 55 1510 24. 53 1530

5. 47 1530 15. 52 1550 25. 46 1500

6. 48 1500 16. 55 1530 26. 49 1510

7. 53 1510 17. 52 1510 27. 54 1490

8. 55 1500 18. 50 1490 28. 54 1520

9. 61 1470 19. 48 1470 29. 54 1500

10. 60 1450 20. 47 1500 30. 48 1510

Rys. 2. Okno menu do wyboru statystyk opisowych

Page 6: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Weronika Budzyńska, Arkadiusz Gola 20

Rys. 3. Histogram i wyniki końcowe

3.2. Weryfikacja hipotez

Posiadając pewne dane empiryczne oraz wiedzę o zjawisku można stawiać

pewne hipotezy, dotyczące zarówno parametrów rozkładów badanych zjawisk,

jak i zależności miedzy nimi. Podstawowe pojęcia w zagadnieniach związanych

z weryfikacją hipotez są: przestrzeń próby (i wiedza o niej), hipotezy staty-

styczne oraz testy statystyczne.

Hipoteza statystyczna jest założeniem, które odnosi się bądź to do niezna-

nego poziomu parametru w zbiorowości generalnej, albo też do nieznanej po-

staci rozkładu zmiennych losowych w danej zbiorowości [6]. W ten sposób

dzielimy testy na parametryczne i nieparametryczne. Inny podział mówi o hipo-

tezach: zerowych (założenie braku różnic między wynikami) oraz alternatyw-

nych (przeciwnych do hipotezy zerowej). Procedura weryfikacji prawdziwości

hipotezy to test statystyczny.

W programie Statistica weryfikacja hipotez dotycząca wartości średniej jest

dostępna w poleceniu test T dla pojedynczych średnich. Ścieżka dostępu do niego

to: Statystyka - Statystyki podstawowe i tabele – test t dla pojedynczej próby. Przy

Statystyki: SIŁA [N]

N ważnych= 30,000000

Średnia=1506,000000

Mediana=1505,000000

Moda= 1,000000

Liczność Mody =7,000000

Minimum=1450,000000

Maksimum=1550,000000

Wariancja=604,137931

Odch.std= 24,579217

Skośność= -0,188695

Skośność= -0,188695

Kurtoza= 0,188542

Page 7: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Ocena metod tworzenia ontologii… 21

pomocy dostępnych opcji można wykonać test t dla pojedynczych średnich

(rysunek 4).

Rys. 4. Weryfikacja hipotez statystycznych w programie Statictica

3.3. Korelacja i regresja

Często jest tak, że posiadamy zbiór interesujących nas danych i na ich podsta-

wie chcemy przewidywać na przyszłość, czyli prognozować. W tym celu bu-

dowane są modele, które w mniejszym bądź większym stopniu są odzwiercie-

dleniem badanej rzeczywistości [9]. Na sam model może wpływać tylko jeden

czynnik (model liniowy) bądź wiele czynników (wieloczynnikowy, model nie-

liniowy), dodatkowo w różnym stopniu. Jednak by móc stwierdzić, czy model

jest dobrze dopasowany do zjawiska trzeba przede wszystkim posiadać wiedzę

na jego temat, jak również szereg narzędzi i parametrów opisujących i weryfi-

kujących. Tych narzędzi dostarcza nam statystyka matematyczna, a tym samym

pakiet Statistica.

Zagadnienie korelacji, a przede wszystkim regresji jest dziedziną obszerną

w zastosowaniach gdyż możliwości predykcyjne są bardzo istotnym elementem

dla każdego przedsiębiorcy. Ma to związek z pewnym modelowaniem przyszło-

ści na podstawie przeszłości, np.:

Wytrzymałość = 16,3 + 1,57 • ciśnienie formowania + 4,16 • stężenie kwasu + ε

Page 8: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Weronika Budzyńska, Arkadiusz Gola 22

W modelu Wytrzymałość jest zmienną zależną (lub objaśnianą), a ciśnienie

formowania oraz stężenie kwasu predyktorami (używane są również nazwy

zmienne niezależne lub objaśniające). Losowość uwzględniamy poprzez skład-

nik ε, który oznacza błąd losowy i zawiera w sobie m.in. wpływ niemierzonych

i niemierzalnych czynników. Z praktycznego punktu widzenia wartości ε po-

winny być niewielkie, a w przypadku stosowania tradycyjnych metod staty-

stycznych często zakłada się, że ma on rozkład normalny o wartości oczekiwa-

nej 0 [1]. Zastosowanie metody korelacji i regresji poprzez analizę reszt

przedstawiono w przykładzie 2.

Przykład 2

Zbadano wpływ czterech czynników na czas stygnięcia odlewu. Zebrane dane

przedstawiono w tabeli (Rys. 5). Zadaniem jest ocena istotności wpływu po-

szczególnych czynników na czas stygnięcia oraz budowa najlepiej dopasowane-

go modelu dla celów oszacowania wielkości wpływu poszczególnych czynników.

Zdefiniowanymi zmiennymi w analizowanym modelu są:

Czas stygnięcia – zmienna zależna,

Czynniki 1,2,3,4 – zmienne niezależne.

Rys. 5. Dane dla przykładu 2

Przystępujemy do budowy modelu. Potrzebne narzędzia znajdziemy w za-

kładce: Statystyka – Statystyki podstawowe i tabele – Regresja wieloraka. W

opcji: Zmienne należy zaznaczyć wszystkie zmienne. Otrzymujemy statystyki

podsumowujące (rysunek 6).

Page 9: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Ocena metod tworzenia ontologii… 23

Rys. 6. Wyniki regresji wielorakiej

Już na tym etapie można stwierdzić, że model jest dobrze dopasowany. Do-

pasowanie modelu mierzone jest na tym etapie przy pomocy wskaźników: Wie-

lorakieR2 i SkorygowaneR2. Wielorakie R2 wynosi ok. 0, 95, zaś Skorygowa-

neR2: 0, 93. Oznacza to, że w 93% zmienność modelu została wyjaśniona przez

zmienność zmiennych niezależnych. Model jest bardzo dobrze wyjaśniany

przez zmienne objaśniające: czynniki 1,2,3,4. Różnica pomiędzy tymi dwoma

wskaźnikami polega na tym, że wskaźnik WielorakieR2 rośnie wraz z ilością

dodawanych do modelu zmiennych. Trzeba, zatem być ostrożnym w jego inter-

pretacji, ponieważ dopasowanie modelu nie wzrasta wraz z ilością zmiennych.

Istotny jest ich wpływ na zmienna zależną. Możemy, bowiem dodawać dużą

liczbę zmiennych nieistotnych a rzeczywisty proces pokaże, ze model nie opisu-

je poprawnie zjawiska modelowanego. Błąd ten eliminuje SkorygowaneR2,

które to pokazuje rzeczywiste dopasowanie modelu, niezależne od ilości doda-

wanych zmiennych nieistotnie wpływających na model. Statystyka F wynosi

ok. 69,314 i jest statystycznie istotna (p < 0, 1). Dzięki tej statystyce uzyskuje-

my następujące informacje:

liniowy jest charakter zależności,

spośród wszystkich parametrów strukturalnych modelu przynajmniej je-

den, który stoi przy zmiennej oprócz wyrazu wolnego jest niezerowy,

współczynnik korelacji R wielorakie jest rożny od zera, statystycznie istotny.

Wielkość błędu standardowego estymacji interpretowana jest w oparciu o

znajomość modelowanego zjawiska. Wybierając opcje: Podsumowanie wyniki

regresji oraz w zakładce Więcej - Nadmiarowość otrzymujemy wyniki podsu-

mowujące przedstawione na rysunku 7.

Otrzymane wyniki interpretujemy następująco. Czynnik2 należy usunąć

z modelu, ponieważ nie jest on istotny statystycznie (p > 0,1). Analizując do-

datkowo wyniki nadmiarowości można powiedzieć, że nie mamy tu do czynie-

nia z klasycznym przypadkiem nadmiarowości (Tolerancja jest nie mniejsza od

0,1), ale korelacje cząstkowe i semiczastkowe dla Czynnika2 są niskie. To de-

Page 10: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Weronika Budzyńska, Arkadiusz Gola 24

cyduje o usunięciu go z modelu. Pozostałe czynniki: 1,3,4 w istotny sposób

wpływają na model. Przystępujemy zatem ponownie do budowy modelu, tym

razem rezygnując podczas wyboru zmiennych z Czynnika2. Wyniki podsumo-

wujące dla regresji zostały przedstawione na rys. 8.

Rys. 7. Podsumowanie wyników regresji oraz tabela wyników nadmiarowości

Rys. 8. Podsumowanie wyników regresji oraz tabela wyników nadmiarowości

Analizując powyższe wyniki możemy stwierdzić, że otrzymaliśmy model

właściwy. Charakteryzuje się on R na poziomie 0,97, R2 = 0,95 oraz Skorygo-

wanymR2=0,94. W porównaniu z poprzednim, model poprawił się. Wzrósł pa-

rametr PoprawR2 oraz spadł błąd standardowy estymacji. Ponadto wszystkie

analizowane czynniki w sposób istotny wpływają na model. Model jest bardzo

dobrze dopasowany: 94% zmienności zostało wyjaśnione przez Czynniki 1,3,4.

Statystyka F=95,6 jest statystycznie istotna, oznacza to, że budowa modelu

Page 11: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Ocena metod tworzenia ontologii… 25

liniowego jest właściwa. Ponadto przynajmniej jeden parametr strukturalny jest

różny od zera oraz parametr R, również różny od zera, jest statystycznie istotny.

Ostatecznie otrzymaliśmy model poprawiony, w którym wszystkie czynniki

istotnie wpływają na czas stygnięcia. Ostateczna postać modelu to:

y = 0,320810*Czynnik1+0,570396*Czynnik2+0,319116*Czynnik3+1,0419

Z modelu możemy odczytać także, że największy wpływ na czas stygnięcia

ma Czynnik2, podczas gdy Czynnik1 i Czynnik4 mają podobny wpływ.

Istotnym jest by przed przystąpieniem do budowy modelu sprawdzić zało-

żenia modelu regresji wielorakiej:

Liniowa postać zależności pomiędzy zmiennym objaśniającymi a zmienną

objaśnianą (analiza wykresów rozrzutu).

Brak współliniowości zmiennych objaśniających (brak nadmiarowości

oceniany przez współczynnik tolerancji, który nie powinien spaść poniżej

wartości: (0,1)).

Reszty mają rozkład normalny standaryzowany (analiza reszt).

Homoscedastycznośc reszt (Wariancja składnika resztowego jest taka sama

dla wszystkich obserwacji).

Autokoleracja reszt (Statystyka Durbina –Watsona).

Należy również pamiętać o wpływie przypadków odstających na wygląd

prostej podczas analizy wykresów rozrzutu. W istotny, bowiem sposób wpływa-

ją na jej położenie.

3.4. Analiza wariancji

Analiza wariancji jest zagadnieniem bardzo obszernym jednakże bardzo istotnym

w zagadnieniach inżynierii produkcji. Wariancja (jak również odchylenie stan-

dardowe) należy do miar rozrzutu wyników danej próby od średniej. Jeżeli zatem

zależy nam na stabilności przebiegu naszego procesu, wariancja powinna być jak

najmniejsza. W literaturze podaje się także pewne wady metod analizy wariancji

[5]. Wariancja analizowana jest również w przypadku kart kontrolnych.

Wieloczynnikowa analiza wariancji służy do testowania istotności różnic

średnich pomiędzy populacjami generowanymi przez kilka czynników różnicu-

jących. Sama jednak analiza nie daje odpowiedzi na pytanie, który czynnik

różnicuje najmocniej. Służy do tego analiza takich współczynników jak: eta

kwadrat (η2), cząstkowe eta kwadrat (ηp2) oraz omega kwadrat (ω2). Zastoso-

wanie analizy wariancji pokazano w przykładzie 3.

Page 12: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Weronika Budzyńska, Arkadiusz Gola 26

Przykład 3

W oparciu o dane przedstawione na rys. 9 zbadać, czy istnieją istotne czynniki

wpływające na średnia ocenę drinka Margarita. Podać procentowy wpływ każ-

dego istotnego czynnika oraz ich kombinacji.

Rys. 9. Dane dla przykładu 3

Wyniki przedstawione na rysunku 10 pozwalają rozpoznać zmienne nieza-

leżne istotnie wpływające na ocenę klientów. Program czynniki istotne staty-

stycznie zaznacza kolorem czerwonym. Należą do nich zmienne: TEQUILA,

TYP, TEQUILA*TYP. Ostatnie oznaczenie: TEQUILA*TYP oznacza interak-

cje obydwu czynników, tj. wynik oddziaływania na ocenę klienta poziomu jed-

nego czynnika zależy od poziomu drugiego czynnika.

Rysunej 11 pozwala natomiast zauważyć wpływ danej zmiennej na zmien-

ność oceny konsumenta. Informuje nas o tym wielkość cząstkowe eta kwadrat

(ηp2). Największy wpływ na efekt końcowy (a więc odbiór u konsumenta, oce-

nę) ma zmienna TYP (rodzaj drinka: I, II, III): ok. 69% zmienności zmiennej

zależnej jest wyjaśnione przez zmienność czynnika klasyfikującego, czyli

zmienność oceny klienta zależy w 69% od tego jaki wypije typ drinka. W 32%

zależy od ilości alkoholu w drinku (32% zmienności zmiennej zależnej jest

wyjaśnione przez zmienność czynnika TEQUILA).

Page 13: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Ocena metod tworzenia ontologii… 27

Rys. 10. Tabela jednowymiarowych testów istotności

Rys. 11. Tabela wpływu zmiennych i ich interakcji na ocenę konsumenta

Wykres I (rysunek 12) pokazuje, że średnia wartość oceny konsumenta jest

największa dla Tequili 5%. Następnie maleje osiągając najmniejszą wartość dla

tequili 15%, jednakże średnia ta jest porównywalna z oceną dla tequili 10%.

Wniosek: Im mniej procentowa tequila, tym ocena konsumenta jest większa.

Wykres II pokazuje, ze najmniejsza średnia oceny występuje przy typie I

i II. Mają one, bowiem średnie porównywalne względem siebie. Największa

średnia oceny występuje dla typu drinka II. Istnieje też istotna różnica pomiędzy

ocena typu II a pozostałymi.

Z przedstawionej analizy wynika istotna informacja dla właściciela restau-

racji: nie jest obojętna procentowa zawartość alkoholu, który jest używany

w danym typie drinka. Wybierając Tequilę 5% najwyższą ocenę uzyska ona dla

II typu drinka.

Page 14: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Weronika Budzyńska, Arkadiusz Gola 28

Rys. 12. Oczekiwane średnie brzegowe dla efektów

Page 15: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Ocena metod tworzenia ontologii… 29

4. Wprowadzenie do statystycznego sterowania proce-

sami technologicznymi

W nadzorowaniu jakości wykorzystywane są przede wszystkim informacje

o charakterze losowym zmian. Poszczególne działania służące do osiągnięcia

żądanej jakości wyrobów określane są mianem Statystycznego sterowania pro-

cesami (SPC – Statistical Process Control) [7]. Pierwszym etapem w staty-

stycznym sterowaniu procesami jest problem diagnostyki zakłóceń, dokonywa-

nej za pomocą monitorowania charakterystyk jakości. W przedsiębiorstwie

statystyka znajduje głównie zastosowanie w dwóch sektorach: w ocenie jakości

procesów oraz sterowaniu procesami wspomaganym przez karty kontrolne.

4.1. Liczbowe wskaźniki zdolności w ocenie jakości procesów

Bardzo ważnym problemem jest oszacowanie poziomu jakości wytwarzanych

wyrobów. Ocena ta jest potrzebna w mierzeniu postępów i doskonaleniu proce-

sów. Najprostszym wskaźnikiem jest udział procentowy wadliwych wyrobów

w danej partii. Nie daje on jednak odpowiedzi na pytanie jak zapewnić odpo-

wiedni poziom wadliwości wyrobów na etapie ich produkcji.

Niezależnie od metody każda charakterystyka jakości ma swoją wartość

nominalną T oraz wymagany obszar zmienności wyrażony przez pole tolerancji

o zdefiniowanych granicach. Charakterystyki jakości muszą spełniać założone

granice tolerancji [7]. W idealnym modelowym przypadku proces powinien

utrzymywać wartość charakterystyk na poziomie wyznaczonego nominału.

W rzeczywistości taki proces jest niemożliwy i zawsze będą mu towarzyszyły

odchylenia. Dąży się do zminimalizowania tych odchyleń i niecentryczności

procesu. Jego zmienność jest określana przy pomocy matematycznych miar

rozproszenia i koncentracji. W sterowaniu jakością przede wszystkim są to:

odchylenie przeciętne, wariancja oraz odchylenie standardowe.

Wycentrowanie procesu e jest różnicą pomiędzy wartością nominalną a śred-

nia pochodzącą z procesu. Uniwersalnym wskaźnikiem jest tzw. wskaźnik zdol-

ności, który w najprostszej, podstawowej formie jest wyrażany przez formułę:

𝐶𝑝 =𝑈𝑆𝐿−𝐿𝑆𝐿

6𝜎 (1)

gdzie:

USL , LSL – odpowiednio: górna i dolna granica tolerancji,

6σ – rozproszenie procesu.

Page 16: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Weronika Budzyńska, Arkadiusz Gola 30

Znaczenie wskaźnika tolerancji dla odchyłek charakterystyki jakości mode-

lowanych przy pomocy rozkładu normalnego można wyjaśnić następująco [7]:

dla wskaźnika zdolności Cp = 1 pole tolerancji obejmuje +/-3σ, co jest

równoważne udziałowi braków ok. 0,27%,

dla wskaźnika zdolności Cp = 1,33 pole tolerancji obejmuj +/-4σ, co jest

równoważne udziałowi braków ok. 0,006%.

Wskaźnik ten był modyfikowany przez lata jednak zawsze w swojej naj-

bardziej ogólnej formie wyraża się przez iloraz obszaru tolerancji do rozpro-

szenia procesu. Opisana miara jakości wytwarzania nie jest jedyna. Inną przy-

kładową może być: ocena jakości przy pomocy funkcji strat. Nie zmienia to

jednak faktu, że metody te są doskonalone i dostosowywane do specyfiki

określonego przedsiębiorstwa.

4.2. Wprowadzenie do kart kontrolnych

Podstawowym narzędziem SPC są karty kontrolne, wykorzystywane do zapi-

sywania wyników pomiarów monitorowanego procesu oraz pozwalające na

ocenę stabilności jego przebiegu. W zależności od etapu wdrażania systemu

jakości i specyfiki przedsiębiorstwa możemy mieć do czynienia z kilkoma ro-

dzajami kart kontrolnych. Ich ogólny podział wyodrębnia dwa typy kart: karty

przy liczbowej ocenie właściwości oraz karty kontrolne przy atrybutowej (alter-

natywnej) ocenie właściwości [4].

Niezależnie od wyboru karty należy pamiętać, że powinna ona być instalo-

wana jak najbliżej stanowisk pracy dla szybkiego i skutecznego korygowania

procesu technologicznego. Podział kart kontrolnych ze względu na o ich zasto-

sowanie przedstawia rysunek 13.

Wielką zaletą karty kontrolnej jest łatwość jej interpretacji. Jeśli wyniki

pomiarów dla próbki wykroczą poza granice kontrolne (przerywane linie na

wykresie), to mamy sygnał o rozregulowaniu, sugerujący, że wystąpiło zdarze-

nie, któremu można przypisać nielosową przyczynę. Po znalezieniu przyczyn

zmian możemy je wyeliminować (lub zmniejszyć częstość ich występowania),

a co za tym idzie, uzyskać proces o mniejszej zmienności, bardziej stabilny oraz

przewidywalny – krótko mówiąc – lepszy [3].

W programie Statistica moduły umożliwiające statystyczne sterowanie ja-

kością znajdują się przede wszystkim w zakładce Statystyka - Statystyki przemy-

słowe. Znajdziemy się tam bogaty zestaw opcji, poczynając od kart kontrolnych

po analizy procesu, planowanie doświadczeń oraz Six Sigma.

Page 17: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Ocena metod tworzenia ontologii… 31

Rys. 13. Klasyfikacja kart kontrolnych [7]

Six Sigma to precyzyjnie zorganizowana, bazującą na realnych danych stra-

tegia eliminacji defektów, strat i wszelkich problemów z jakością, we wszyst-

kich dziedzinach produkcji, usług, zarządzania i w innych rodzajach działalno-

ści biznesowej. Podstawą podejścia Six Sigma jest połączenie technik

statystycznego sterowania jakością z innymi metodami statystycznymi [12].

Widok okna programu Statistica ze ścieżką dostępu do statystyk przemysło-

wych został pokazany na rysunku 14.

Dane skorelowane

Liczność próbki

(rodzaj obserwacji,

zmienne)

Modyfikowana

CUSUM

EWMA

Model ARIMA

karta

standardowa

z różnic x-X

X(model typu MA,

CUSUM, EWMA)

EWMA z granica-

mi ruchomymi lub

kart różnic z x-X

(X-model typu

ARIMA)

(jeśli średnia nie

jest ruchoma)

Opóźnienie

(n>1)

Opóźnienie

(n=1)

Opóźnienie

(ułamek)

Opóźnienie

(wykrycie)

Typ danych

(rodzaj obserwacji,

atrybuty) Średnia ruchoma

X/R

X/S

CUSUM

EWMA

X

MA

CUSUM

EWMA

n

np

CUSUM

EWMA

c

u

CUSUM

EWMA

Dla c, u

Page 18: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Weronika Budzyńska, Arkadiusz Gola 32

Rys. 14. Dostęp do statystyk przemysłowych w programie Statistica

5. Podsumowanie

Zarządzanie firmą jest nieustannym procesem podejmowania decyzji, który

może być zdefiniowany jako akt wyboru działania ze zbiorem możliwych po-

stępowań. Jest to sztuka polegająca przede wszystkim na umiejętności podej-

mowania decyzji. W dzisiejszych czasach przedsiębiorstwa dysponują dużą

ilością danych związanych z przebiegiem realizowanych procesów, jak również

będących wynikiem badań prowadzonych w otoczeniu przedsiębiorstw – co

w wielu przypadkach utrudnia proces decyzyjnych. Dlatego też firmy coraz

częściej stosują narzędzia analizy danych aby optymalizować działania oraz

spełnić wymagania norm. W wielu przypadkach, narzędziem coraz częściej

wykorzystywanym do analizy danych jest pakiet Statistica, będący produktem

firmy StatSoft.

Statistica jest uniwersalnym, zintegrowanym systemem służącym do staty-

stycznej analizy danych, tworzenia wykresów, operowania na bazach danych,

wykonywania transformacji danych i tworzenia aplikacji. W skład systemu

wchodzi wszechstronny zestaw zaawansowanych procedur analitycznych. Śro-

dowisko programu jest dostępne w polskiej wersji językowej. W niniejszym

opracowaniu wskazano wybranie możliwości zastosowania oprogramowania do

analizy danych w przedsiębiorstwie. W sposób szczególny podjęto zagadnienia

Page 19: WYBRANE ZASTOSOWANIA PAKIETU STATISTICA DO ANALIZY ...

Ocena metod tworzenia ontologii… 33

dotyczące statystyki opisowej, problematyki weryfikacji hipotez badawczych

oraz analizy wariancji. Ponadto, w końcowej części dokonano wprowadzenia do

zagadnienia statystycznego sterowania procesami w ujęciu zarządzania proce-

sami technologicznymi. Przeprowadzane dyskusje zostały zilustrowane wybra-

nymi przykładami praktycznymi.

Literatura

1. Demski T.: Modelowanie procesów produkcyjnych, StatSoft 2005.

2. Demski T.: Wykrywanie przyczyn i przewidywanie problemów z jakością

na przykładzie przemysłu poligraficznego, StatSoft 2009.

3. Demski T.: Sterowanie jakością procesu o wielu właściwościach: wielo-

wymiarowe karty kontrolne i inne narzędzia, StatSoft 2010,

4. Greber T: O korzyściach z SPC, StatSoft 2009.

5. Longford T. N.: „Which model?” is the wrong question, Statistica Neer-

landica (2012) Vol.66 nr.3,pp 237-252.

6. Luszniewicz A.: Metody wnioskowania statystycznego, Państwowe Wy-

dawnictwo Ekonomiczne, Warszawa 1994.

7. Płaska S.: Wprowadzenie do statystycznego sterowania procesami techno-

logicznymi, Wyd. Politechniki Lubelskiej, Lublin 2000.

8. Sagan A.: Jeden obraz ukazuje więcej niż 10 liczb, czyli jak budować ma-

py zadowolenia klienta z wykorzystaniem programu STATISTICA, Stat-

Soft 2004, s.5-12.

9. Sobczyk M.: Prognozowanie: teoria, przykłady, zadania, Wyd. Placet,

Warszawa 2008.

10. Stanisz A.: Przystępny kurs statystyki z zastosowaniem STATISTICA PL

na przykładach z medycyny T.1, Wyd. Statsoft, Kraków 2007.

11. Stanisz A.: Przystępny kurs statystyki z zastosowaniem STATISTICA PL

na przykładach z medycyny T.2, Wyd. Statsoft, Kraków 2007.

12. Wajda R.: Zastosowanie narzędzi StatSoft do analizy danych w przemyśle,

StatSoft 2009.

13. http://www.statsoft.pl/

14. http://www.statsoft.pl/Czytelnia/Jakosc-SPC.