Narzędzia metody i techniki modelowania procesów...

Narzędzia metody i techniki modelowania procesów społeczno-

gospodarczych

Mariusz Dacko

Dlaczego modelowanie procesów społeczno-gospodarczych jest procesem trudnym do przeprowadzenia?

Brak jednolitego spójnego systemu informacji (konieczność pozyskiwania danych z wielu niezależnych źródeł)

Braki istotnych danych na poziomie lokalnym

Konieczność posiadania gruntownej wiedzy nie tylko o modelowanych zjawiskach, ale też o stosowanych metodach

Konieczność dysponowania skomplikowanym i drogim oprogramowaniem (np. Statistica, SAS, Stella, Vensim)

Konieczność dysponowania dużymi zbiorami kompletnych, wiarygodnych i aktualnych danych

Przykład: badanie rozwoju obszarów wiejskich w Polsce: • Obszary wiejskie to 1571 gmin wiejskich i 602 części wiejskich gmin miejsko-wiejskich • Każda z tych jednostek musi być opisana szeregiem cech diagnostycznych,

które umożliwią obiektywną ocenę rozwoju • Wystarczy by badane jednostki zostały opisane zestawem 25 cech, a baza danych

rozrasta się do ponad 50 tys. pól

Kiedy potrzebne są modele?

Prowadzenie polityki państwa

Opracowywanie planów i strategii

Przewidywanie i wariantowanie przyszłości (symulacje, sądy warunkowe, gry)

Zarządzanie rozwojem firm, korporacji, miast, regionów

Stosowane metody

Regresja wieloraka

Sieci neuronowe

Drzewa decyzyjne

Uczenie maszyn (metoda k najbliższych sąsiadów)

Data mining

Regresja

ODL CENA

5,04 70

7,00 85

3,00 59

8,00 87

15,00 132

17,00 139

12,00 94

7,00 83

18,00 120

1,00 48

1,00 53

5,00 83

9,00 102

10,00 108

2,00 17

3,00 54

4,00 67

3,00 48

4,00 56

2,00 30

1,00 30

1,00 29

y = 6,036x + 34,55R2 = 0,8623

0

20

40

60

80

100

120

140

160

0,00 5,00 10,00 15,00 20,00

Regresja liniowa prosta

Regresja pozwala na matematyczny opis relacji pomiędzy zmienną zależną (endogeniczną), a zmienną objaśniającą (egzogeniczną)

Regresja liniowa prosta polega na zdefiniowaniu parametrów linii prostej, która będzie reprezentowała zbiór punktów odpowiadających wartościom obu zmiennych

0

20

40

60

80

100

120

140

160

0,00 5,00 10,00 15,00 20,00

y = ax + b

a = ?

b = ?

Parametry modelu

Wzory na parametry (współczynniki) modelu regresji prostej:

n

1i

22

i

n

1i

ii

xxn

1

)yxy(xn

1

a

n

xay

b

n

1i

n

1i

ii

Przykład zastosowania regresji prostej Model zależności między cenami jednostkowymi działek

budowlanych a wielkością miejscowości (tys. mieszk.)

Model ma postać: Y = 0,0003 X + 16.58

Jaka jest interpretacja modelu?

0

5

10

15

20

25

30

35

40

0 10000 20000 30000 40000 50000 60000

Liczba mieszkańców

Sre

dn

ia c

en

a jed

no

stk

ow

a

Regresja wieloraka

W przypadku regresji wielorakiej mamy do czynienia z równaniem hiperpłaszczyzny w przestrzeni n-wymiarowej

Łączy się tutaj metody matematyczne i statystyczne z wiedzą o modelowanych zjawiskach

Najistotniejsze Problemy: Nadanie odpowiednich rang zmiennym

jakościowym

Dobór optymalnej liczby zmiennych objaśniających

Uzyskanie stabilnych wyników

Usunięcie obserwacji odstających

Weryfikacja modelu

Podobne problemy

staną również przed

badaczami stosującymi

inne metody

jednoczesnej oceny

wpływu wielu

zmiennych

Weryfikacja modeli regresji:

współczynnik determinacji R2

statystyka F Snedecora – test globalny

statystyki t dla zmiennych niezależnych – testy istotności poszczególnych zmiennych objaśniających

analiza reszt

Regresja w arkuszu kalkulacyjnym Mamy tutaj kilka możliwości:

uruchomienie formuły tablicowej „reglinp”

zainstalowanie i wykorzystanie modułu analizy danych data analysis

wykorzystanie zaawansowanych możliwości wykresów Excela (linia trendu)

samodzielne opracowanie formuł obliczeniowych

Formuła tablicowa „reglinp”

Funkcja ta należy do kategorii f. statystycznych

Jej użycie wymaga zdefiniowania: zmiennych objaśniających i objaśnianej, postaci modelu (ze stałą lub bez) oraz opcjonalnego wyboru statystyk regresji

Edycja formuły jest kończona kombinacją trzech klawiszy: Ctrl + Shift + Enter

Powierzchnia Wys.

zabudowy Technologia Cena zł/m²

60,4 12 płyta 3 526,00

48,1 4 płyta 4 719,00

60,2 4 płyta 4 236,00

60,4 9 płyta 4 139,00

60,6 4 płyta 4 703,00

36 4 nowa 4 750,00

35,8 4 nowa 4 737,00

48,5 4 nowa 3 711,00

48,5 4 nowa 2 474,00

59,5 4 płyta 3 866,00

48,3 4 nowa 3 727,00

48,5 4 nowa 5 010,00

72,4 4 nowa 3 591,00

72,8 4 nowa 4 396,00

48,5 4 płyta 4 866,00

71,5 4 nowa 4 531,00

34,1 4 płyta 5 674,00

75 4 płyta 4 000,00

41,2 4 płyta 5 461,00

73,1 4 płyta 3 967,00

61,3 4 nowa 3 736,00

47,9 4 płyta 4 843,00

Wynik formuły „reglinp” jest tylko z pozoru pojedynczą komórką. Po rozciągnięciu na inne komórki staje się on tablicą.

an an-1 … a2 a1 b

sen sen-1 … se2 se1 seb

R2 sey

F df

ssreg ssresid

a, b – wartości współczynników regresji oraz stałej

se - standardowe wartości błędu dla współczynników regresji oraz stałej

R2 - współczynnik determinacji

sey - standardowy błąd oceny zmiennej zależnej

F – statystyka F Snedecora

df – liczba stopni swobody

ssreg - regresyjna suma kwadratów

ssresid - resztkowa suma kwadratów

Moduł analizy danych

Jest on domyślnie niedostępny i wymaga zainstalowania (Narzędzia – Dodatki – Analysis ToolPack)

Po instalacji na liście narzędziowej pojawi się zakładka o nazwie analiza danych, a w niej:

Regresja poprzez narzędzie analiza danych

Regresja - okno dialogowe

Po wskazaniu źródła danych (zmiennej zależnej i zmiennych niezależnych) oraz wyborze odpowiednich opcji, w nowym arkuszu generowane są w postaci raportu wyniki modelu regresji

Statystyki regresji

Wielokrotność R 0,93

R kwadrat 0,86

Dopasowany R kwadrat 0,86

Błąd standardowy 12,99

Obserwacje 22

ANALIZA WARIANCJI

df SS MS F Istotność F

Regresja 1 21141 21141 125 0,0000000

Resztkowy 20 3375 169

Razem 21 24516

Współczynniki Błąd standardowy t Stat Wartość-p

Wyraz wolny 34,55 4,37 7,90 0,00000014

Współczynnik

kierunkowy 6,04 0,54 11,19 0,00000000

Ocena wyników regresji uruchomionej poprzez moduł analizy danych

Sieci neuronowe

Sieci neuronowe

Sieci neuronowe zaliczamy do metod sztucznej inteligencji

Sieć składa się z połączonych ze sobą neuronów

Każdy neuron posiada co najmniej jedno wejście i wyjście

Neurony muszą zostać odpowiednio połączone - stawia to przed twórcą sieci problem wyboru jej najlepszej architektury

Typ : MLP 9:9-6-1:1 , Ind. = 1

Jakość ucz. = 0,859466 , Jakość w al. = 0,712944 , Jakość test. = 0,801599

Koncepcja sieci neuronowych

Do neuronów dociera pewna ilość wartości wejściowych Dane bezpośrednie Sygnały pośrednie pochodzące z wyjść innych neuronów

Każda wartość wprowadzana jest do neuronu przez połączenie o pewnej wadze

Każdy neuron posiada wartość progową, określającą jak silny musi być sygnał, by doszło do jego przekazania

W każdym neuronie obliczana jest ważona suma wejść, a następnie odejmowana jest od niej wartość progowa

Uzyskana w ten sposób wartość pomocnicza określa pobudzenie neuronu

Wartość reprezentująca pobudzenie neuronu przekształcana jest z kolei przez funkcję aktywacji neuronu

Wynik ten jest wartością wyjściową neuronu Wagi zostają odpowiednio skalibrowane w kolejnych etapach

uczenia sieci (tzw. epokach) dzięki porównaniu z rzeczywistością wyników jakie uzyskuje sieć

Sieć liniowa – najprostszy przykład sieci neuronowej Sieć taka nie posiada warstw

ukrytych

W modelu liniowym funkcją dopasowywaną do posiadanych danych jest hiperpłaszczyzna, a uczenie sieci polega na znalezieniu jej właściwego położenia i nachylenia

Typ : Liniow a 9:9-1:1 , Ind. = 2

Jakość ucz. = 0,782256 , Jakość w al. = 0,887699 , Jakość test. = 0,939853

Interpretacja i zasada działania takiej sieci jest identyczna z liniowym modelem regresji wielorakiej bez wyrazu wolnego

Wy = w1*x1 + w2*x2 + wi*xi

Proces przygotowania i wdrożenia modelu sieci neuronowej

Arkusz predykcji dla Cena zł/m2 (SM Jaroty) Próby: Uczenie

Data transakcji - Wejście

Powierzchnia - Wejście

Ulica - Wejście Piętro - Wejście

Liczba izb - Wejście

Wys. zabudowy -

Wejście

Technologia - Wejście

Cena zł/m2 - Zm.zal

Cena zł/m2 - Wyjście - 12. MLP 54-12-1

Cena zł/m2 - Reszty - 12. MLP 54-12-1

39465,00 60,2 MROZA II 4 4 płyta 4236,000 4399,298 -163,30

39468,00 60,4 ORŁOWICZA II 4 9 płyta 4139,000 3952,230 186,77

39470,00 60,6 KANTA I 4 4 płyta 4703,000 4362,340 340,66

39471,00 36,0 BOENIGKA parter 2 4 nowa 4750,000 5076,162 -326,16

39471,00 35,8 MURZYNOWSKIEGO parter 2 4 nowa 4737,000 5054,787 -317,79

39472,00 48,5 JAROSZYKA I 3 4 nowa 3711,000 4662,744 -951,74

39472,00 48,5 LEYKA I 3 4 nowa 2474,000 4593,995 -2120,00

39473,00 48,3 ORŁOWICZA I 3 4 nowa 3727,000 4498,767 -771,77

Sieci neuronowe w modelowaniu – wady i zalety

Tolerowanie braków danych!

Możliwość tworzenia modeli nieliniowych

Niższy niż w przypadku stosowania tradycyjnych metod statystycznych poziom wymaganej wiedzy teoretycznej

Bardzo szeroki obszar zastosowań

Zdolność generalizacji, czyli uogólniania wiedzy dla nowych danych

Brak konieczności dokonywania założeń, co do natury związku pomiędzy predyktorami a zmienną zależną

Brak przejrzystego modelu zależności

Niezwykłe możliwości sieci neuronowych sprawiły, że narzędzie to znalazło

zastosowanie w rozrywce (w grach komputerowych), w bankowości

(we wspomaganiu decyzji kredytowych), w zarządzaniu bezpieczeństwem

(rozpoznawanie twarzy przestępców na lotniskach)

Drzewa decyzyjne Układ drzewa 31 dla oczekiwanie na nabywcę

Liczba węzłów dzielonych: 19, liczba węzłów końcowych: 20

1

2

4

6 7

15

16

5

3

42

45

54

57

62

43

70

73

75

71

8 9 14

18 19

17

36 37 44

56

64 65

63

55 72

74

82 83

94 95

Istota działania drzew typu C&RT

Poszukiwanie zbioru logicznych warunków podziału, typu „jeżeli… to…” prowadzących do zaklasyfikowania badanych obiektów do poszczególnych węzłów drzewa

Odpowiedzi modelu drzewa przyjmują postać typu: jeżeli mieszkanie było sprzedawane w lokalizacji „A”, znajdowało się na pierwszym piętrze i miało powierzchnię nie większą niż 50 m2, to znajdowało nabywcę średnio po 3 miesiącach od daty rozpoczęcia jego budowy

O sprawności drzew może świadczyć przykład klasyfikacji huraganów: baroklinowy czy zwrotnikowy?

Budowa modeli drzew klasyfikacyjnych i regresyjnych C&RT wymaga określenia parametrów umożliwiających ocenę ich jakości i zapobieganie ich nadmiernemu rozrostowi Kontrola jakości: sprawdziany krzyżowe

Przerwanie procesu tworzenia nowych węzłów drzewa: przycinanie oraz określanie kryteriów minimalnej liczności przypadków w węźle

Proces przygotowania i wdrożenia modelu drzew decyzyjnych

Które z wielu zbudowanych drzew decyzyjnych wybrać?

Resub. cost

CV cost

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Tree number

1500

2000

2500

3000

3500

4000

4500

5000

5500

Co

st

Tree

number

End

nodes

CV

cost

CV

standard

error

Resub.

cost

Node

complexity

1 16 2231 59 2146 0

2 15 2253 59 2162 16

* 3 14 2251 59 2180 18

4 13 2292 59 2208 28

5 12 2368 60 2240 33

6 11 2374 60 2276 36

7 10 2375 60 2313 37

8 9 2381 60 2351 38

9 8 2506 63 2407 56

10 7 2543 65 2464 57

11 6 2616 66 2539 75

12 5 2660 67 2634 96

13 4 2965 73 2830 195

14 3 3080 73 3078 248

15 2 3737 75 3736 658

16 1 4937 92 4936 1200

Jako drzewo właściwej wielkości wybierane jest drzewo o najmniejszym rozmiarze, którego koszty

sprawdzianu krzyżowego (CV) będą nie większe od najmniejszych (w całej sekwencji drzew) kosztów

sprawdzianu krzyżowego powiększonych o wartość jednego błędu standardowego (CVse) tych kosztów.

Mamy więc: 2231+59 = 2290. Warunek ten spełniało drzewo nr 3.

Drzewo 6 dla Cena zł/m2

Liczba węzłów dzielonych: 9, liczba węzłów końcowych: 10

ID=1 N=270

Śr=4385,420296

Var=424890,649904

ID=2 N=66

Śr=5072,203333

Var=311834,295831

ID=3 N=204

Śr=4163,225784

Var=259497,882726

ID=8 N=116

Śr=3982,339655

Var=259725,610745

ID=10 N=47

Śr=4237,815319

Var=271764,744004

ID=13 N=46

Śr=4276,159130

Var=208571,023617

ID=11 N=69

Śr=3808,320000

Var=176784,414377

ID=18 N=51

Śr=3928,777647

Var=148330,055642

ID=9 N=88

Śr=4401,666591

Var=159213,043009

ID=4 N=25

Śr=4705,740000

Var=218562,455208

ID=5 N=41

Śr=5295,656585

Var=236888,589954

ID=12 N=1

Śr=2474,000000

Var=0,000000

ID=14 N=16

Śr=4549,723750

Var=104817,568286

ID=15 N=30

Śr=4130,258000

Var=202705,672689

ID=20 N=22

Śr=4146,771364

Var=161672,926803

ID=21 N=29

Śr=3763,403103

Var=74808,526456

ID=19 N=18

Śr=3467,023333

Var=99809,889367

ID=24 N=24

Śr=4129,777083

Var=169838,936537

ID=25 N=64

Śr=4503,625156

Var=117111,319766

Powierzchnia

<= 45,500000 > 45,500000

Ulica

= WAŃKOWICZA, ... = Inne

Ulica


Powierzchnia

<= 53,500000 > 53,500000

Data transakcji

<= 39472,500000 > 39472,500000

Ulica


Data transakcji

<= 39736,500000 > 39736,500000

Piętro

= II , ... = Inne

Piętro

= IV ... = Inne

Szacowanie cen mieszkań na lokalnym rynku nieruchomości w Olsztynie

Przykłady drzew regresyjnych

Przykłady drzew regresyjnych

Szacowanie cen działek budowlanych na lokalnym rynku nieruchomości w Zielonkach

Drzewo 17 dla Cena jednostkowa [zł/m2]

Liczba węzłów dzielonych: 4, l iczba węzłów końcowych: 5

ID=1 N=109

Śr=223,370585

Var=3879,989825

ID=2 N=87

Śr=246,621969

Var=1949,873957

ID=4 N=62

Śr=262,526973

Var=1551,566840

ID=7 N=60

Śr=257,855994

Var=888,195569

ID=6 N=2

Śr=402,656321

Var=1161,929695

ID=8 N=31

Śr=274,674848

Var=742,348625

ID=9 N=29

Śr=239,877220

Var=418,482239

ID=5 N=25

Śr=207,177560

Var=754,450709

ID=3 N=22

Śr=131,421931

Var=920,232269

PRZYŁĄCZE WODOCIĄGOWE

= 1 (istnieje) = 0 (brak)

PRZYŁĄCZE GAZOWE


STRONA SPRZEDAJĄCA

= 0 (os.prawna) = 1 (os. fizyczna)

PRZYŁĄCZE KANALIZACYJNE


Drzewa decyzyjne w modelowaniu – wady i zalety

Prosta i bardzo czytelna interpretacja wyników

Brak konieczności dokonywania założeń, co do natury związku pomiędzy predyktorami a zmienną zależną

Przydatność w sytuacjach gdy wiedza a priori o tym, które zmienne są ze sobą powiązane i w jaki sposób jest niepewna i jedynie intuicyjna

Możliwość oszacowania znaczenia poszczególnych predyktorów w procesie kształtowania się wartości modelowanej zmiennej

Możliwość modelowania zależności nieliniowych i niemonotonicznych

Uczenie maszyn (metoda KNN)

Predykcja dla nowego obiektu bazuje na porównaniu go ze zbiorem przykładowych (prototypowych) obiektów i wyszukaniu z nich k - najpodobniejszych

Na ich podstawie szacuje się nieznaną wartość lub dokonuje klasyfikacji obiektu

Wybór liczby K

K - jest to podstawowy parametr metody decydujący o jakości predykcji

Parametr ten może być traktowany jak miara stopnia wygładzania danych.

Przy małym K pojawi się duża zmienność predykcji

Przy dużym K wystąpi uogólnienie predykcji

K powinno być na tyle duże by zminimalizować możliwość błędnych klasyfikacji, ale też na tyle małe, by najbliżsi sąsiedzi

byli dostatecznie bliskimi sąsiadami obiektu

Jak ustalić optymalną liczbę k najbliższych sąsiadów?

Liczba najbliższych sąsiadów wz. Błąd sprawdzianu krzyżowego

K Optymalne = 14

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Liczba najbliższych sąsiadów

2,8E5

2,9E5

3E5

3,1E5

3,2E5

3,3E5

3,4E5

3,5E5

3,6E5

3,7E5

3,8E5

3,9E5

4E5

4,1E5

4,2E5

4,3E5

4,4E5

4,5E5

Błą

d s

pra

wdzi

an

u k

rzyż

ow

ego

Data Mining (DM)

Narzędzia data mining umożliwiają:

dostęp do danych i ich hurtowni

przygotowanie danych dla potrzeb data mining

przeprowadzenie procesu data mining

wizualizację, raportowanie i wykorzystanie wyników analiz

W jednym projekcie DM możemy wykorzystać wiele metod (np. regresję, SSN, KNN i drzewa decyzyjne). Modele mogą

następnie być wykorzystane do predykcji (wszystkie, bądź tylko najlepszy model lub kilka najlepszych z wielu modeli).

Projekty Data Mining – łączenie wielu metod

Narzędzia metody i techniki modelowania procesów...

Documents

Transcript of Narzędzia metody i techniki modelowania procesów...