ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX...

42
Zastosowanie analizy skupień i lasów losowych w klasyfikacji gmin w Polsce na skali poziomu rozwoju społeczno- gospodarczego Robert Perdał XIX Międzynarodowa Konferencja Naukowa Metody Ilościowe w Badaniach Ekonomicznych 2018 Szkoła Główna Gospodarstwa Wiejskiego Warszawa, 18-19.06.2018 Instytut Geografii Społeczno-Ekonomicznej i Gospodarki Przestrzennej Zakład Analizy Regionalnej www.igsegp.amu.edu.pl

Transcript of ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX...

Page 1: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

Zastosowanie analizy skupień i lasów losowych w klasyfikacji gmin w Polsce na skali poziomu rozwoju społeczno-gospodarczego

Robert Perdał

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018

Szkoła Główna Gospodarstwa WiejskiegoWarszawa, 18-19.06.2018

Instytut Geografii Społeczno-Ekonomicznej i Gospodarki PrzestrzennejZakład Analizy Regionalnej

www.igsegp.amu.edu.pl

Page 2: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

Zespół badawczy dr hab. Paweł Churski, prof. UAM

dr Barbara Konecka-Szydłowska

dr Robert Perdał

mgr Tomasz Herodowicz

„Nowe wyzwania polityki regionalnej w kształtowaniu czynników rozwoju społeczno-ekonomicznego regionów mniej rozwiniętych”

Projekt NCN 2015/19/B/HS5/00012

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

http://forsed.amu.edu.pl/

Page 3: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

I. Wprowadzenie

II. Algorytm postępowania badawczego

III. Klasyfikacja gmin na skali poziomu rozwoju społeczno-gospodarczego

IV. Podsumowanie

Plan wystąpienia

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 4: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

I

Wprowadzenie

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 5: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

I. Wprowadzenie

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

WSPÓŁCZESNE MEGATRENDY ROZWOJU

TRANSFORMACJA

POSTMODERNIZACJAGLOBALIZACJAINTEGRACJA GOSPODARCZA

UWARUNKOWANIA ZMIAN

EUROPA ZACHODNIA

EUROPA ŚRODKOWO-WSCHODNIA

SKUTKI

utrzymująca się i/lub postępująca dywergencja rozwoju niska efektywność interwencji polityki rozwoju

?

Europa, Quo vadis?Polonia, Quo vadis?

Page 6: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

Plan wystąpienia

Wprowadzenie

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

CONTEMPORARY SOCIO-ECONOMIC DIVERSIFICATIONS OF EUROPEAN UNION REGIONS CONDITIONS AND DEVELOPMENT FACTORS

www.forsed.amu.edu.pl

IGU Thematic Conference, Moscow, 4-6 June 2018PRACTICAL GEOGRAPHY AND XXI CENTURY CHALLENGES

Kierunek i zakres oddziaływania współczesnychmegatrendów rozwoju społeczno-gospodarczegona przemiany czynników rozwoju regionalnego

www.forsed.amu.edu.pl

MODERNIZACJA1945

1960

1970

1990

2000

2010

2020

GOSPODARKA CENTRALNIE STEROWANA

1945

1990

2000

2010

2020

POST

MO

DER

NIZ

ACJA

MO

DER

NIZ

ACJA

EUROPA ZACHODNIA

TRANSFORMACJA

EUROPA ŚRODKOWO-WSCHODNIA

TRANSFORMACJA

INTE

GRA

CJA

GLO

BALI

ZACJ

A

MO

DER

NIZ

ACJA

POST

MO

DER

NIZ

ACJA

INTE

GRA

CJA

GLO

BALI

ZACJ

A

Page 7: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

Zmiany podejść teoretycznych w identyfikacji czynników rozwoju adaptacja, modyfikacja lub integracja klasycznych ujęć do nowychi dynamicznie zmieniających się uwarunkowań (rzadko – formułowaniecałkowicie nowych koncepcji)(Regions Matter… 2009; Rodrígues-Pose 2013; Camagni, Capello 2014)

NOWA TEORIA WZROSTU ENDOGENICZNEGO, zmiana interpretacjioddziaływania czynników rozwoju (Aydalot 1986; Romer 1986, 1994; Lucas 1988)

NOWA GEOGRAFIA EKONOMICZNA, konieczność łącznego wykorzystaniateorii lokalizacji i teorii międzynarodowej wymiany gospodarczej wwyjaśnianiu współczesnych czynników rozwoju społeczno-gospodarczego(Krugman, 1991a, 1991b, 1995; Venables 1996; Puga, Venables 1996; Fujita i in. 1999)

NOWA EKONOMIA INSTYTUCJONALNA, wzrost znaczenia czynnikówinstytucjonalnych dla przebiegu, a zwłaszcza efektywności procesówrozwojowych (North 1990; Amin 1999; Farole i in. 2011; Rodríguez-Pose, Garcilazo 2015)

I. Wprowadzenie

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 8: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

I. Wprowadzenie

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

CZYNNIKI ROZWOJU

INNOWACJE TECHNOLOGICZNE I ORGANIZACYJNE

KAPITAŁ FINANSOWY

KAPITAŁ MATERIALNY

KAPITAŁ SPOŁECZNY

KAPITAŁ LUDZKI

(The Future of Cohesion Policy… 2015; Seventh Report… 2017)

WYZWANIE

wykorzystanie współczesnych uwarunkowań, kształtowanych przez megatrendy, do efektywnego oddziaływania na czynniki rozwoju i skutecznej optymalizacji warunków

prowadzenia procesów gospodarczych oraz poprawy poziomu i jakości życia akceptowalnych społecznie

Page 9: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

Analiza poziomu rozwoju społeczno-gospodarczego, dynamiki poziomu rozwoju i czynników rozwojuw układach:

27 krajów UE

205 regionów UE (bez Grecji, Chorwacji)

16 województw

380 powiatów

2478 gmin

I. Wprowadzenie

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 10: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

Cel pracy: klasyfikacja gmin w Polsce

na skali poziomu rozwoju społeczno-gospodarczego

Zakres przestrzenny pracy: 2478 gmin w Polsce

Zakres czasowy pracy: 2004 i 2016

Źródła danych: GUS

I. Wprowadzenie

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 11: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

II

Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 12: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

1. Dobór zmiennych

2. Konstrukcja syntetycznego miernika poziomu rozwoju społeczno-gospodarczego

3. Klasyfikacja gmin – analiza skupień metodą k-średnich

4. Weryfikacja klasyfikacji – lasy losowe

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 13: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

1. Dobór zmiennych

zbiór początkowy: 38 zmiennych opisujących poziom rozwoju społeczno-gospodarczego w układzie pięciu czynników

redukcja:

• wartość współczynnika zmienności (powyżej 15%)

• wartość krytyczna współczynnika korelacji liniowej Pearsona – 0,3

𝒓∗ =𝒕𝜶𝟐

𝒏 𝟐 𝒕𝜶𝟐

 dla α=0,00001, t=4,4263; r*=0,089

• interpretacja merytoryczna współzmienności i współzależności

zbiór końcowy: 23 zmienne

• rozkład skośny prawostronnie

• brak rozkładu normalnego (test Shapiro-Wilka)

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 14: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

1. Dobór zmiennych

II. Algorytm postępowania badawczego

KL_1 ludność w wieku nieprodukcyjnym na 100 w wieku produkcyjnym (obciążenie demograficzne) DSKL_2 przyrost naturalny na 1000 ludności w ‰ SKL_3 współczynnik salda migracji wewnętrznych i zagranicznych w ‰ SKL_4 przychodnie na 10 tys. ludności SKL_5 liczba osób bezrobotnych na 100 osób w wieku produkcyjnym DSKL_6 pracujący na 1000 osób w wieku produkcyjnym SKS_1 fundacje, stowarzyszenia, organizacje na 1000 ludności SKS_2 osoby fizyczne prowadzące działalność gospodarczą na 1000 ludności SKS_3 udział przedstawicieli władz publicznych, wyższych urzędników, kierowników oraz specjalistów w ogóle radnych SKS_4 współczynnik skolaryzacji netto gimnazjów SKS_5 liczba dodatków mieszkaniowych na 1000 ludności DSKM_1 udział osób korzystających z instalacji gazowej w ogóle populacji SKM_2 obszary prawnie chronione jako % powierzchni gminy SKM_3 różnica między odsetkiem ludności korzystającej z wodociągu i z kanalizacji DSKM_4 przeciętna powierzchnia użytkowa mieszkania na 1 osobę SKM_5 odsetek mieszkań posiadających centralne ogrzewanie SKF_1 wydatki majątkowe inwestycyjne budżetów gmin i miast na prawach powiatu na 1 mieszkańca w zł/os. SKF_2 dochody z podatku PIT na 1 mieszkańca w zł SKF_3 dochody z podatku CIT na 1 mieszkańca w zł SKF_4 dochody z podatku rolnego na 1 mieszkańca w zł SKF_5 dochody własne na 1 mieszkańca SKF_6 podmioty działalności finansowej i ubezpieczeniowej (pośrednictwo finansowe) na 10 tys. ludności SIT_1 spółki handlowe z udziałem kapitału zagranicznego na 1000 podmiotów gospodarczych S

Page 15: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

2. Konstrukcja syntetycznego miernika poziomu rozwoju społeczno-gospodarczego

normalizacja zmiennych (przekształcenie ilorazowe) –doprowadzenie zmiennych do porównywalności poprzez pozbawienie mian wyników pomiaru oraz ujednolicenie ich rzędów wielkości (Walesiak 2016)

 

zij – znormalizowana wartość zmiennej j dla gminy i (n=1, 2, …, 2478)

xij – oryginalna wartość zmiennej j dla gminy i

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 16: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

2. Konstrukcja syntetycznego miernika poziomu rozwoju społeczno-gospodarczego

miara niepodobieństwa (syntetyczny miernik poziomu rozwoju) –[Bray-Curtis dissimilarity] (Bray, Curtis 1957)

zij – znormalizowana wartość zmiennej j dla gminy i (i=1, 2, …, 2478)

k – gmina „wzorzec” (wartości najbardziej pożądane max. dla stymulant i min. dla destymulant)

j = 1, 2,…, m – numer zmiennej, m=23

uporządkowanie gmin pod względem odległości od wzorca rozwoju –wartości bliższe 1 (wyższy poziom rozwoju społeczno-gospodarczego)

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 17: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

3. Klasyfikacja gmin – analiza skupień wg algorytmu k-średnich

Klasyfikacja – czynność podziału zbioru elementów na grupy

Klasyfikacja (klasyfikacja przestrzenna, typologia, regionalizacja) –efekt podziału – konkretny podział terytorialny

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 18: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

3. Klasyfikacja gmin – analiza skupień wg algorytmu k-średnich

Analiza skupień (cluster analysis) – niehierarchiczne grupowanie gmin w niepuste, rozłączne i względnie jednorodne grupy (klasy) –skupienia (Tryon, 1939; MacQueen, 1967).

grupowanie gmin na podstawie wartości syntetycznego miernika poziomu rozwoju społeczno-gospodarczego (odległość euklidesowa) – zapewnienie braku współliniowości,

maksymalizacja wariancji międzygrupowej i minimalizacja wariancji wewnątrzgrupowej.

Ile grup (klas)?

Początkowe centra skupień?

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 19: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

3. Klasyfikacja gmin – analiza skupień wg algorytmu k-średnich

przykładowo dla 2016 r. wartość wariancji wewnątrz- i międzygrupowej:

dla k=3 – 1,3794 | 3,8775 | F = 3478,648

dla k=4 – 0,9142 | 4,3426 | F = 3917,225

dla k=5 – 0,6610 | 4,5958 | F = 4298,292

dla k=6 – 0,4460 | 4,8108 | F = 5331,833

dla k=7 – 0,3517 | 4,9052 * | F = 5744,203

* jedna grupa pięcioelementowa

k=5 – poziom rozwoju społeczno-gospodarczego:bardzo wysoki | wysoki | przeciętny | niski | bardzo niski

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

początkowe centra skupień –na podstawie posortowanych wszystkich odległości między gminami wybrano obiekty przy

stałych interwałach

Page 20: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

4. Weryfikacja klasyfikacji – lasy losowe (random forests)

metoda łączenia wielu drzew klasyfikacyjnych (CART)(Breiman, 2001)

losowanie (ze zwracaniem) K prób bootstrapowych, dla których konstruuje się drzewo klasyfikacyjne (w każdym węźle losowanych jest m wskaźników, które uczestniczą w wyborze najlepszego podziału)

drzewa budowane są bez przycinania,

ostateczna klasyfikacja wybierana jest metodągłosowania (Górecki, 2011)

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 21: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

NIE

NIE

TAK

TAK

4. Weryfikacja klasyfikacji – lasy losowe (random forests)

Konstrukcja pojedynczego drzewa

podział zbioru na podzbiory wg kilku (wybranych losowo, ale umożliwiających podział na względnie jednorodne części) wskaźników (zmiennych objaśniających)

podział kolejnych podzbiorów wg tej samej zasady

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

por. Demski (2011)

Page 22: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

4. Weryfikacja klasyfikacji – lasy losowe (random forests)

Konstrukcja pojedynczego drzewa

podział zbioru na podzbiory wg kilku (wybranych losowo, ale umożliwiających podział na względnie jednorodne części) wskaźników (zmiennych objaśniających)

podział kolejnych podzbiorów wg tej samej zasady

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

por. Demski (2011)

Page 23: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

4. Weryfikacja klasyfikacji – lasy losowe (random forests)

Eliminacja wad pojedynczych (binarnych) drzew decyzyjnych

jednoczesne stosowanie wielu drzew las

drzewa budowane są na wielu losowo dobranych próbach (losowo dobrane obiekty i losowo dobrane zmienne)

podział zbioru obiektów na zbiór uczący i zbiór testowy

klasyfikacja stanowi efekt „głosowania” zespołu drzew

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 24: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

4. Weryfikacja klasyfikacji – lasy losowe (random forests)

Założenia metody (1)

Y jest funkcją zmiennych objaśniających X z wahaniami losowymi ε (o średniej 0 i wariancji )

miara błędu – błąd kwadratowy

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

błąd losowy(naturalna zmiennośćprocesu)

wartość oczekiwana

przewidywań modeli dla

różnych prób

wartość obserwowana

OBCIĄŻENIE

wariancja(zmienność modeli)

Page 25: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

4. Weryfikacja klasyfikacji – lasy losowe (random forests)

Założenia metody (2)

im bardziej złożony model, tym mniejsze obciążenie większe prawdopodobieństwo uchwycenia większej liczby zależności przyczynowych (i niestety także zależności pozornych)

im bardziej złożony model, tym wyższa wariancja

cel minimalizacja błędu modelu (ale! wzrost złożoności modelu implikuje spadek obciążenia i wzrost wariancji; a spadek złożoności –wzrost obciążenia i spadek wariancji)

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 26: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

4. Weryfikacja klasyfikacji – lasy losowe (random forests)

Założenia metody (3)

rozwiązanie utworzenie zespołu drzew (model zespołowy) [minimalne obciążenie takie samo jak dla pojedynczego drzewa, wariancja maleje]

rozwiązanie próba uzyskiwania drzew najbardziej niezależnych (najmniejsza korelacja) od siebie (w celu zmniejszenia wariancji modelu) – poprawa niezależności drzew poprzez:

uczenie drzew na próbach losowanych ze zwracaniem

losowanie pewnej liczby zmiennych objaśniających spośród wszystkich zmiennych przed każdym podziałem w drzewie (tylko na tych zmiennych budowana jest klasyfikacja)

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 27: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

4. Weryfikacja klasyfikacji – lasy losowe (random forests)

Zalety:

odporność na współliniowość zmiennych, wartości odstające, dużą liczbę zmiennych objaśniających

możliwość odtworzenia złożonych zależności i wykrycia interakcji między zmiennymi

możliwość określenia wskaźników determinujących klasyfikację

odporność na „przeuczenie” klasyfikatora

Wady:

wg Leo Breimana – brak

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 28: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

4. Weryfikacja klasyfikacji – lasy losowe (random forests)

Zmienna objaśniana – klasa poziomu rozwoju społeczno-gospodarczego (efekt analizy skupień wg algorytmu k-średnich) –zmienna nominalna

Zmienne objaśniające – 23 zmienne oryginalne wykorzystane do konstrukcji syntetycznego miernika poziomu rozwoju społeczno-gospodarczego

Założenie: jednakowe prawdopodobieństwo (a priori) przypisania do danej klasy

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 29: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

4. Weryfikacja klasyfikacji – lasy losowe (random forests)przykład drzewa nr 1 dla 2016 r.

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 30: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

II. Algorytm postępowania badawczego

Page 31: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

4. Weryfikacja klasyfikacji – lasy losowe (random forests)

2016 r.

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

grupaocena ryzyka

błąd stand.

ucząca 0,1983 0,0096

testowa 0,3054 0,0168

Page 32: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

4. Weryfikacja klasyfikacji – lasy losowe (random forests)

Macierz klasyfikacji 2016 r.

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 33: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

4. Weryfikacja klasyfikacji – lasy losowe (random forests)

Macierz klasyfikacji 2016 r. – macierz „pomyłek”

II. Algorytm postępowania badawczego

Page 34: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

4. Weryfikacja klasyfikacji – lasy losowe (random forests)

Predykcja 2016 r. – przewidywanie przynależności do klasy

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 35: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

4. Weryfikacja klasyfikacji – lasy losowe (random forests)

Predykcja 2016 r. – zmiana liczebności klas

II. Algorytm postępowania badawczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

poziom rozwoju analiza skupień k-średnich lasy losoweliczba % liczba %

bardzo wysoki 27 1,1 55 2,2wysoki 235 9,5 285 11,5

przeciętny 594 24,0 542 21,9niski 921 37,2 871 35,1

bardzo niski 701 28,3 725 29,3suma 2478 100 2478 100

Page 36: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

III

Klasyfikacja gmin na skali poziomu rozwoju społeczno-gospodarczego

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 37: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

III. Klasyfikacja gmin na skali poziomu rozwoju…

Page 38: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

Klasyfikacja – udział gmin wg poziomu rozwoju społeczno-gospodarczego

III. Klasyfikacja gmin na skali poziomu rozwoju…

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

województwoliczba gmin

2004 2016BW W P N BN BW W P N BN

DOLNOŚLĄSKIE 169 3,0 14,8 42,0 39,6 0,6 3,0 18,3 30,2 42,6 5,9KUJAWSKO-POMORSKIE 144 0,0 8,3 22,9 47,2 21,5 0,7 8,3 20,8 39,6 30,6LUBELSKIE 213 0,5 1,9 13,1 13,6 70,9 0,5 3,3 11,3 16,0 69,0LUBUSKIE 82 1,2 11,0 45,1 41,5 1,2 0,0 9,8 34,1 46,3 9,8ŁÓDZKIE 177 0,6 7,3 16,4 18,1 57,6 1,7 7,3 16,9 31,6 42,4MAŁOPOLSKIE 182 0,0 8,8 28,0 51,1 12,1 0,5 13,2 26,9 48,9 10,4MAZOWIECKIE 314 3,8 12,1 13,7 17,2 53,2 5,4 14,6 10,8 24,2 44,9OPOLSKIE 71 1,4 2,8 42,3 47,9 5,6 1,4 4,2 38,0 40,8 15,5PODKARPACKIE 160 0,6 8,8 16,9 55,0 18,8 0,6 6,3 16,3 53,8 23,1PODLASKIE 118 0,8 5,1 13,6 13,6 66,9 0,8 5,9 10,2 15,3 67,8POMORSKIE 123 2,4 13,8 26,8 54,5 2,4 4,9 13,8 24,4 48,8 8,1ŚLĄSKIE 167 0,6 28,7 41,3 19,2 10,2 1,8 25,1 42,5 24,6 6,0ŚWIĘTOKRZYSKIE 102 2,0 2,9 14,7 30,4 50,0 0,0 2,9 15,7 26,5 54,9WARMIŃSKO-MAZURSKIE 116 0,0 7,8 25,0 52,6 14,7 0,9 3,4 25,0 29,3 41,4WIELKOPOLSKIE 226 1,8 12,8 31,4 44,7 9,3 3,1 19,5 23,5 46,0 8,0ZACHODNIOPOMORSKIE 114 4,4 13,2 32,5 48,2 1,8 6,1 12,3 28,1 43,9 9,6POLSKA 2478 1,5 10,5 25,0 34,8 28,2 2,2 11,5 21,9 35,1 29,3

Page 39: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

Klasyfikacja – zmiany w udziale gmin wg poziomu rozwoju… (w pp)

III. Klasyfikacja gmin na skali poziomu rozwoju…

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

województwoZMIANA 2004-2016

BW W P N BNDOLNOŚLĄSKIE 0,0 3,6 -11,8 3,0 5,3KUJAWSKO-POMORSKIE 0,7 0,0 -2,1 -7,6 9,0LUBELSKIE 0,0 1,4 -1,9 2,3 -1,9LUBUSKIE -1,2 -1,2 -11,0 4,9 8,5ŁÓDZKIE 1,1 0,0 0,6 13,6 -15,3MAŁOPOLSKIE 0,5 4,4 -1,1 -2,2 -1,6MAZOWIECKIE 1,6 2,5 -2,9 7,0 -8,3OPOLSKIE 0,0 1,4 -4,2 -7,0 9,9PODKARPACKIE 0,0 -2,5 -0,6 -1,3 4,4PODLASKIE 0,0 0,8 -3,4 1,7 0,8POMORSKIE 2,4 0,0 -2,4 -5,7 5,7ŚLĄSKIE 1,2 -3,6 1,2 5,4 -4,2ŚWIĘTOKRZYSKIE -2,0 0,0 1,0 -3,9 4,9WARMIŃSKO-MAZURSKIE 0,9 -4,3 0,0 -23,3 26,7WIELKOPOLSKIE 1,3 6,6 -8,0 1,3 -1,3ZACHODNIOPOMORSKIE 1,8 -0,9 -4,4 -4,4 7,9POLSKA 0,7 1,0 -3,1 0,4 1,0

Page 40: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

IV

Podsumowanie

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 41: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

wysoka użyteczność i obiektywność wieloetapowej metody klasyfikacji, w szczególności metody lasów losowych (wielopoziomowa losowość)

wysokie znaczenie wskaźników opisujących poziom kapitału finansowego, materialnego i ludzkiego w klasyfikacji gmin

rosnąca dywergencja poziomu rozwoju społeczno-gospodarczego:

wzrost udziału gmin z bardzo wysokim i wysokim poziomem rozwoju z 12,0 do 13,7% przy jednoczesnym wzroście udziału gmin z niskim i bardzo niskim poziomem rozwoju z 63,0 do 64,4%

wyraźny wzrost udziału gmin z wysokim i bardzo wysokim poziomem rozwoju jedynie w woj. wielkopolskim, małopolskim, mazowieckim oraz dolnośląskim i pomorskim – dyfuzja procesów rozwojowych w obrębie największych aglomeracji miejskich

utrzymywanie się bardzo wysokiego udziału (ok. 80%) gmin z niskim i bardzo niskim poziomem rozwoju w woj. lubelskim, podlaskim, świętokrzyskim i podkarpackim

IV. Podsumowanie

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018SGGW, Warszawa, 18-19.06.2018

Page 42: ILNDFML JPLQ Z 3ROVFH QD VNDOL SR]LRPX UR]ZRMX …forsed.amu.edu.pl/admin/uploads/file/perdal_sggw_2018_ · wqd srzlhu]fkqld x *\wnrzd plhv]ndqld qd rvre 6.0b rgvhwhn plhv]nd srvldgdm

Dziękuję za uwagę!

Robert Perdał

[email protected]

XIX Międzynarodowa Konferencja NaukowaMetody Ilościowe w Badaniach Ekonomicznych 2018

Szkoła Główna Gospodarstwa WiejskiegoWarszawa, 18-19.06.2018

Instytut Geografii Społeczno-Ekonomicznej i Gospodarki PrzestrzennejZakład Analizy Regionalnej