Narzędzia metody i techniki modelowania procesów...
Transcript of Narzędzia metody i techniki modelowania procesów...
Narzędzia metody i techniki modelowania procesów społeczno-
gospodarczych
Mariusz Dacko
Dlaczego modelowanie procesów społeczno-gospodarczych jest procesem trudnym do przeprowadzenia?
Brak jednolitego spójnego systemu informacji (konieczność pozyskiwania danych z wielu niezależnych źródeł)
Braki istotnych danych na poziomie lokalnym
Konieczność posiadania gruntownej wiedzy nie tylko o modelowanych zjawiskach, ale też o stosowanych metodach
Konieczność dysponowania skomplikowanym i drogim oprogramowaniem (np. Statistica, SAS, Stella, Vensim)
Konieczność dysponowania dużymi zbiorami kompletnych, wiarygodnych i aktualnych danych
Przykład: badanie rozwoju obszarów wiejskich w Polsce: • Obszary wiejskie to 1571 gmin wiejskich i 602 części wiejskich gmin miejsko-wiejskich • Każda z tych jednostek musi być opisana szeregiem cech diagnostycznych,
które umożliwią obiektywną ocenę rozwoju • Wystarczy by badane jednostki zostały opisane zestawem 25 cech, a baza danych
rozrasta się do ponad 50 tys. pól
Kiedy potrzebne są modele?
Prowadzenie polityki państwa
Opracowywanie planów i strategii
Przewidywanie i wariantowanie przyszłości (symulacje, sądy warunkowe, gry)
Zarządzanie rozwojem firm, korporacji, miast, regionów
Stosowane metody
Regresja wieloraka
Sieci neuronowe
Drzewa decyzyjne
Uczenie maszyn (metoda k najbliższych sąsiadów)
Data mining
Regresja
ODL CENA
5,04 70
7,00 85
3,00 59
8,00 87
15,00 132
17,00 139
12,00 94
7,00 83
18,00 120
1,00 48
1,00 53
5,00 83
9,00 102
10,00 108
2,00 17
3,00 54
4,00 67
3,00 48
4,00 56
2,00 30
1,00 30
1,00 29
y = 6,036x + 34,55R2 = 0,8623
0
20
40
60
80
100
120
140
160
0,00 5,00 10,00 15,00 20,00
Regresja liniowa prosta
Regresja pozwala na matematyczny opis relacji pomiędzy zmienną zależną (endogeniczną), a zmienną objaśniającą (egzogeniczną)
Regresja liniowa prosta polega na zdefiniowaniu parametrów linii prostej, która będzie reprezentowała zbiór punktów odpowiadających wartościom obu zmiennych
0
20
40
60
80
100
120
140
160
0,00 5,00 10,00 15,00 20,00
y = ax + b
a = ?
b = ?
Parametry modelu
Wzory na parametry (współczynniki) modelu regresji prostej:
n
1i
22
i
n
1i
ii
xxn
1
)yxy(xn
1
a
n
xay
b
n
1i
n
1i
ii
Przykład zastosowania regresji prostej Model zależności między cenami jednostkowymi działek
budowlanych a wielkością miejscowości (tys. mieszk.)
Model ma postać: Y = 0,0003 X + 16.58
Jaka jest interpretacja modelu?
0
5
10
15
20
25
30
35
40
0 10000 20000 30000 40000 50000 60000
Liczba mieszkańców
Sre
dn
ia c
en
a jed
no
stk
ow
a
Regresja wieloraka
W przypadku regresji wielorakiej mamy do czynienia z równaniem hiperpłaszczyzny w przestrzeni n-wymiarowej
Łączy się tutaj metody matematyczne i statystyczne z wiedzą o modelowanych zjawiskach
Najistotniejsze Problemy: Nadanie odpowiednich rang zmiennym
jakościowym
Dobór optymalnej liczby zmiennych objaśniających
Uzyskanie stabilnych wyników
Usunięcie obserwacji odstających
Weryfikacja modelu
Podobne problemy
staną również przed
badaczami stosującymi
inne metody
jednoczesnej oceny
wpływu wielu
zmiennych
Weryfikacja modeli regresji:
współczynnik determinacji R2
statystyka F Snedecora – test globalny
statystyki t dla zmiennych niezależnych – testy istotności poszczególnych zmiennych objaśniających
analiza reszt
Regresja w arkuszu kalkulacyjnym Mamy tutaj kilka możliwości:
uruchomienie formuły tablicowej „reglinp”
zainstalowanie i wykorzystanie modułu analizy danych data analysis
wykorzystanie zaawansowanych możliwości wykresów Excela (linia trendu)
samodzielne opracowanie formuł obliczeniowych
Formuła tablicowa „reglinp”
Funkcja ta należy do kategorii f. statystycznych
Jej użycie wymaga zdefiniowania: zmiennych objaśniających i objaśnianej, postaci modelu (ze stałą lub bez) oraz opcjonalnego wyboru statystyk regresji
Edycja formuły jest kończona kombinacją trzech klawiszy: Ctrl + Shift + Enter
Powierzchnia Wys.
zabudowy Technologia Cena zł/m²
60,4 12 płyta 3 526,00
48,1 4 płyta 4 719,00
60,2 4 płyta 4 236,00
60,4 9 płyta 4 139,00
60,6 4 płyta 4 703,00
36 4 nowa 4 750,00
35,8 4 nowa 4 737,00
48,5 4 nowa 3 711,00
48,5 4 nowa 2 474,00
59,5 4 płyta 3 866,00
48,3 4 nowa 3 727,00
48,5 4 nowa 5 010,00
72,4 4 nowa 3 591,00
72,8 4 nowa 4 396,00
48,5 4 płyta 4 866,00
71,5 4 nowa 4 531,00
34,1 4 płyta 5 674,00
75 4 płyta 4 000,00
41,2 4 płyta 5 461,00
73,1 4 płyta 3 967,00
61,3 4 nowa 3 736,00
47,9 4 płyta 4 843,00
Wynik formuły „reglinp” jest tylko z pozoru pojedynczą komórką. Po rozciągnięciu na inne komórki staje się on tablicą.
an an-1 … a2 a1 b
sen sen-1 … se2 se1 seb
R2 sey
F df
ssreg ssresid
a, b – wartości współczynników regresji oraz stałej
se - standardowe wartości błędu dla współczynników regresji oraz stałej
R2 - współczynnik determinacji
sey - standardowy błąd oceny zmiennej zależnej
F – statystyka F Snedecora
df – liczba stopni swobody
ssreg - regresyjna suma kwadratów
ssresid - resztkowa suma kwadratów
Moduł analizy danych
Jest on domyślnie niedostępny i wymaga zainstalowania (Narzędzia – Dodatki – Analysis ToolPack)
Po instalacji na liście narzędziowej pojawi się zakładka o nazwie analiza danych, a w niej:
Regresja poprzez narzędzie analiza danych
Regresja - okno dialogowe
Po wskazaniu źródła danych (zmiennej zależnej i zmiennych niezależnych) oraz wyborze odpowiednich opcji, w nowym arkuszu generowane są w postaci raportu wyniki modelu regresji
Statystyki regresji
Wielokrotność R 0,93
R kwadrat 0,86
Dopasowany R kwadrat 0,86
Błąd standardowy 12,99
Obserwacje 22
ANALIZA WARIANCJI
df SS MS F Istotność F
Regresja 1 21141 21141 125 0,0000000
Resztkowy 20 3375 169
Razem 21 24516
Współczynniki Błąd standardowy t Stat Wartość-p
Wyraz wolny 34,55 4,37 7,90 0,00000014
Współczynnik
kierunkowy 6,04 0,54 11,19 0,00000000
Ocena wyników regresji uruchomionej poprzez moduł analizy danych
Sieci neuronowe
Sieci neuronowe
Sieci neuronowe zaliczamy do metod sztucznej inteligencji
Sieć składa się z połączonych ze sobą neuronów
Każdy neuron posiada co najmniej jedno wejście i wyjście
Neurony muszą zostać odpowiednio połączone - stawia to przed twórcą sieci problem wyboru jej najlepszej architektury
Typ : MLP 9:9-6-1:1 , Ind. = 1
Jakość ucz. = 0,859466 , Jakość w al. = 0,712944 , Jakość test. = 0,801599
Koncepcja sieci neuronowych
Do neuronów dociera pewna ilość wartości wejściowych Dane bezpośrednie Sygnały pośrednie pochodzące z wyjść innych neuronów
Każda wartość wprowadzana jest do neuronu przez połączenie o pewnej wadze
Każdy neuron posiada wartość progową, określającą jak silny musi być sygnał, by doszło do jego przekazania
W każdym neuronie obliczana jest ważona suma wejść, a następnie odejmowana jest od niej wartość progowa
Uzyskana w ten sposób wartość pomocnicza określa pobudzenie neuronu
Wartość reprezentująca pobudzenie neuronu przekształcana jest z kolei przez funkcję aktywacji neuronu
Wynik ten jest wartością wyjściową neuronu Wagi zostają odpowiednio skalibrowane w kolejnych etapach
uczenia sieci (tzw. epokach) dzięki porównaniu z rzeczywistością wyników jakie uzyskuje sieć
Sieć liniowa – najprostszy przykład sieci neuronowej Sieć taka nie posiada warstw
ukrytych
W modelu liniowym funkcją dopasowywaną do posiadanych danych jest hiperpłaszczyzna, a uczenie sieci polega na znalezieniu jej właściwego położenia i nachylenia
Typ : Liniow a 9:9-1:1 , Ind. = 2
Jakość ucz. = 0,782256 , Jakość w al. = 0,887699 , Jakość test. = 0,939853
Interpretacja i zasada działania takiej sieci jest identyczna z liniowym modelem regresji wielorakiej bez wyrazu wolnego
Wy = w1*x1 + w2*x2 + wi*xi
Proces przygotowania i wdrożenia modelu sieci neuronowej
Arkusz predykcji dla Cena zł/m2 (SM Jaroty) Próby: Uczenie
Data transakcji - Wejście
Powierzchnia - Wejście
Ulica - Wejście Piętro - Wejście
Liczba izb - Wejście
Wys. zabudowy -
Wejście
Technologia - Wejście
Cena zł/m2 - Zm.zal
Cena zł/m2 - Wyjście - 12. MLP 54-12-1
Cena zł/m2 - Reszty - 12. MLP 54-12-1
39465,00 60,2 MROZA II 4 4 płyta 4236,000 4399,298 -163,30
39468,00 60,4 ORŁOWICZA II 4 9 płyta 4139,000 3952,230 186,77
39470,00 60,6 KANTA I 4 4 płyta 4703,000 4362,340 340,66
39471,00 36,0 BOENIGKA parter 2 4 nowa 4750,000 5076,162 -326,16
39471,00 35,8 MURZYNOWSKIEGO parter 2 4 nowa 4737,000 5054,787 -317,79
39472,00 48,5 JAROSZYKA I 3 4 nowa 3711,000 4662,744 -951,74
39472,00 48,5 LEYKA I 3 4 nowa 2474,000 4593,995 -2120,00
39473,00 48,3 ORŁOWICZA I 3 4 nowa 3727,000 4498,767 -771,77
Sieci neuronowe w modelowaniu – wady i zalety
Tolerowanie braków danych!
Możliwość tworzenia modeli nieliniowych
Niższy niż w przypadku stosowania tradycyjnych metod statystycznych poziom wymaganej wiedzy teoretycznej
Bardzo szeroki obszar zastosowań
Zdolność generalizacji, czyli uogólniania wiedzy dla nowych danych
Brak konieczności dokonywania założeń, co do natury związku pomiędzy predyktorami a zmienną zależną
Brak przejrzystego modelu zależności
Niezwykłe możliwości sieci neuronowych sprawiły, że narzędzie to znalazło
zastosowanie w rozrywce (w grach komputerowych), w bankowości
(we wspomaganiu decyzji kredytowych), w zarządzaniu bezpieczeństwem
(rozpoznawanie twarzy przestępców na lotniskach)
Drzewa decyzyjne Układ drzewa 31 dla oczekiwanie na nabywcę
Liczba węzłów dzielonych: 19, liczba węzłów końcowych: 20
1
2
4
6 7
15
16
5
3
42
45
54
57
62
43
70
73
75
71
8 9 14
18 19
17
36 37 44
56
64 65
63
55 72
74
82 83
94 95
Istota działania drzew typu C&RT
Poszukiwanie zbioru logicznych warunków podziału, typu „jeżeli… to…” prowadzących do zaklasyfikowania badanych obiektów do poszczególnych węzłów drzewa
Odpowiedzi modelu drzewa przyjmują postać typu: jeżeli mieszkanie było sprzedawane w lokalizacji „A”, znajdowało się na pierwszym piętrze i miało powierzchnię nie większą niż 50 m2, to znajdowało nabywcę średnio po 3 miesiącach od daty rozpoczęcia jego budowy
O sprawności drzew może świadczyć przykład klasyfikacji huraganów: baroklinowy czy zwrotnikowy?
Budowa modeli drzew klasyfikacyjnych i regresyjnych C&RT wymaga określenia parametrów umożliwiających ocenę ich jakości i zapobieganie ich nadmiernemu rozrostowi Kontrola jakości: sprawdziany krzyżowe
Przerwanie procesu tworzenia nowych węzłów drzewa: przycinanie oraz określanie kryteriów minimalnej liczności przypadków w węźle
Proces przygotowania i wdrożenia modelu drzew decyzyjnych
Które z wielu zbudowanych drzew decyzyjnych wybrać?
Resub. cost
CV cost
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Tree number
1500
2000
2500
3000
3500
4000
4500
5000
5500
Co
st
Tree
number
End
nodes
CV
cost
CV
standard
error
Resub.
cost
Node
complexity
1 16 2231 59 2146 0
2 15 2253 59 2162 16
* 3 14 2251 59 2180 18
4 13 2292 59 2208 28
5 12 2368 60 2240 33
6 11 2374 60 2276 36
7 10 2375 60 2313 37
8 9 2381 60 2351 38
9 8 2506 63 2407 56
10 7 2543 65 2464 57
11 6 2616 66 2539 75
12 5 2660 67 2634 96
13 4 2965 73 2830 195
14 3 3080 73 3078 248
15 2 3737 75 3736 658
16 1 4937 92 4936 1200
Jako drzewo właściwej wielkości wybierane jest drzewo o najmniejszym rozmiarze, którego koszty
sprawdzianu krzyżowego (CV) będą nie większe od najmniejszych (w całej sekwencji drzew) kosztów
sprawdzianu krzyżowego powiększonych o wartość jednego błędu standardowego (CVse) tych kosztów.
Mamy więc: 2231+59 = 2290. Warunek ten spełniało drzewo nr 3.
Drzewo 6 dla Cena zł/m2
Liczba węzłów dzielonych: 9, liczba węzłów końcowych: 10
ID=1 N=270
Śr=4385,420296
Var=424890,649904
ID=2 N=66
Śr=5072,203333
Var=311834,295831
ID=3 N=204
Śr=4163,225784
Var=259497,882726
ID=8 N=116
Śr=3982,339655
Var=259725,610745
ID=10 N=47
Śr=4237,815319
Var=271764,744004
ID=13 N=46
Śr=4276,159130
Var=208571,023617
ID=11 N=69
Śr=3808,320000
Var=176784,414377
ID=18 N=51
Śr=3928,777647
Var=148330,055642
ID=9 N=88
Śr=4401,666591
Var=159213,043009
ID=4 N=25
Śr=4705,740000
Var=218562,455208
ID=5 N=41
Śr=5295,656585
Var=236888,589954
ID=12 N=1
Śr=2474,000000
Var=0,000000
ID=14 N=16
Śr=4549,723750
Var=104817,568286
ID=15 N=30
Śr=4130,258000
Var=202705,672689
ID=20 N=22
Śr=4146,771364
Var=161672,926803
ID=21 N=29
Śr=3763,403103
Var=74808,526456
ID=19 N=18
Śr=3467,023333
Var=99809,889367
ID=24 N=24
Śr=4129,777083
Var=169838,936537
ID=25 N=64
Śr=4503,625156
Var=117111,319766
Powierzchnia
<= 45,500000 > 45,500000
Ulica
= WAŃKOWICZA, ... = Inne
Ulica
= WAŃKOWICZA, ... = Inne
Powierzchnia
<= 53,500000 > 53,500000
Data transakcji
<= 39472,500000 > 39472,500000
Ulica
= WAŃKOWICZA, ... = Inne
Data transakcji
<= 39736,500000 > 39736,500000
Piętro
= II , ... = Inne
Piętro
= IV ... = Inne
Szacowanie cen mieszkań na lokalnym rynku nieruchomości w Olsztynie
Przykłady drzew regresyjnych
Przykłady drzew regresyjnych
Szacowanie cen działek budowlanych na lokalnym rynku nieruchomości w Zielonkach
Drzewo 17 dla Cena jednostkowa [zł/m2]
Liczba węzłów dzielonych: 4, l iczba węzłów końcowych: 5
ID=1 N=109
Śr=223,370585
Var=3879,989825
ID=2 N=87
Śr=246,621969
Var=1949,873957
ID=4 N=62
Śr=262,526973
Var=1551,566840
ID=7 N=60
Śr=257,855994
Var=888,195569
ID=6 N=2
Śr=402,656321
Var=1161,929695
ID=8 N=31
Śr=274,674848
Var=742,348625
ID=9 N=29
Śr=239,877220
Var=418,482239
ID=5 N=25
Śr=207,177560
Var=754,450709
ID=3 N=22
Śr=131,421931
Var=920,232269
PRZYŁĄCZE WODOCIĄGOWE
= 1 (istnieje) = 0 (brak)
PRZYŁĄCZE GAZOWE
= 1 (istnieje) = 0 (brak)
STRONA SPRZEDAJĄCA
= 0 (os.prawna) = 1 (os. fizyczna)
PRZYŁĄCZE KANALIZACYJNE
= 1 (istnieje) = 0 (brak)
Drzewa decyzyjne w modelowaniu – wady i zalety
Prosta i bardzo czytelna interpretacja wyników
Brak konieczności dokonywania założeń, co do natury związku pomiędzy predyktorami a zmienną zależną
Przydatność w sytuacjach gdy wiedza a priori o tym, które zmienne są ze sobą powiązane i w jaki sposób jest niepewna i jedynie intuicyjna
Możliwość oszacowania znaczenia poszczególnych predyktorów w procesie kształtowania się wartości modelowanej zmiennej
Możliwość modelowania zależności nieliniowych i niemonotonicznych
Uczenie maszyn (metoda KNN)
Predykcja dla nowego obiektu bazuje na porównaniu go ze zbiorem przykładowych (prototypowych) obiektów i wyszukaniu z nich k - najpodobniejszych
Na ich podstawie szacuje się nieznaną wartość lub dokonuje klasyfikacji obiektu
Wybór liczby K
K - jest to podstawowy parametr metody decydujący o jakości predykcji
Parametr ten może być traktowany jak miara stopnia wygładzania danych.
Przy małym K pojawi się duża zmienność predykcji
Przy dużym K wystąpi uogólnienie predykcji
K powinno być na tyle duże by zminimalizować możliwość błędnych klasyfikacji, ale też na tyle małe, by najbliżsi sąsiedzi
byli dostatecznie bliskimi sąsiadami obiektu
Jak ustalić optymalną liczbę k najbliższych sąsiadów?
Liczba najbliższych sąsiadów wz. Błąd sprawdzianu krzyżowego
K Optymalne = 14
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Liczba najbliższych sąsiadów
2,8E5
2,9E5
3E5
3,1E5
3,2E5
3,3E5
3,4E5
3,5E5
3,6E5
3,7E5
3,8E5
3,9E5
4E5
4,1E5
4,2E5
4,3E5
4,4E5
4,5E5
Błą
d s
pra
wdzi
an
u k
rzyż
ow
ego
Data Mining (DM)
Narzędzia data mining umożliwiają:
dostęp do danych i ich hurtowni
przygotowanie danych dla potrzeb data mining
przeprowadzenie procesu data mining
wizualizację, raportowanie i wykorzystanie wyników analiz
W jednym projekcie DM możemy wykorzystać wiele metod (np. regresję, SSN, KNN i drzewa decyzyjne). Modele mogą
następnie być wykorzystane do predykcji (wszystkie, bądź tylko najlepszy model lub kilka najlepszych z wielu modeli).
Projekty Data Mining – łączenie wielu metod