GEOSTATYSTYKA I ANALIZA PRZESTRZENNA Wykład dla III roku Geografii specjalność - geoinformacja

download GEOSTATYSTYKA I ANALIZA PRZESTRZENNA Wykład dla III roku Geografii specjalność - geoinformacja

If you can't read please download the document

description

GEOSTATYSTYKA I ANALIZA PRZESTRZENNA Wykład dla III roku Geografii specjalność - geoinformacja. Alfred Stach Instytut Geoekologii i Geoinformacji Wydział Nauk Geograficznych i Geologicznych UAM. Podstawy krigingu. Problem : - PowerPoint PPT Presentation

Transcript of GEOSTATYSTYKA I ANALIZA PRZESTRZENNA Wykład dla III roku Geografii specjalność - geoinformacja

  • GEOSTATYSTYKAI ANALIZA PRZESTRZENNAWykad dla III roku Geografiispecjalno - geoinformacja Alfred StachInstytut Geoekologii i GeoinformacjiWydzia Nauk Geograficznych i Geologicznych UAM

  • Podstawy kriginguProblem:Estymacja wartoci cigej cechy z w dowolnej lokalizacji u z wykorzystaniem jedynie istniejcych n danych z na obszarze bada A : {z(ua), a=1, ...., n}Rozwizanie:Kriging to nazwa wasna grupy algorytmw opartych na uoglnionej regresji metod najmniejszych kwadratw, przyjta przez geostatystykw dla uhonorowania pionierskich prac poudniowoafrykaskiego geologa Danie Krige (1951)

  • Podstawy kriginguWszystkie estymatory krigingowe s wariantami podstawowej formuy regresji liniowej zgodnie z poniszym wzorem:gdzie:(u) jest wag przypisan do danej z(u), ktra jest interpretowana jako realizacja Zmiennej Losowej Z(u).Wartoci m(u) i m(u) to oczekiwane wartoci ZL Z(u) i Z(u).

  • Podstawy kriginguIlo danych uywanych do estymacji oraz ich wagi mog si zmienia przy kolejnych lokalizacjach. W praktyce uywane jest jedynie n(u) danych lecych najbliej lokalizacji punktu estymacji, to jest dane znajdujce si w okrelonym ssiedztwie/oknie W(u) majcy swoje centrum w u.

  • Podstawy krigingu

  • Podstawy krigingu

  • Podstawy kriginguW zalenoci od przyjtego modelu trendu m(u) moemy wyrni trzy warianty krigingu:

  • Czy lokalna rednia jest w przypadku danych satelitarnych ze Spitsbergenu staa?

  • Podstawy kriginguWspczynniki ak(u) s nieznane, lecz zakada si, e s one stae w obrbie kadego lokalnego ssiedztwa W(u). Przyjto, e f0(u) = 1, tak wic przypadek gdzie K = 0 jest odpowiednikiem zwykego krigingu (staa lecz nieznana rednia a0).

  • Prosty kriging (SK)Modelowanie skadowej trendu (-owej) m(u) jako znanej stacjonarnej redniej m pozwala na zapisanie formuy estymatora jako liniowej kombinacji (n(u)+1) danych: n(u) ZL Z(u) i wartoci redniej m:

  • Prosty kriging

  • Prosty krigingProsty kriging notacja macierzowa

  • Prosty kriging notacja macierzowa

  • Prosty kriging notacja macierzowa

  • Prosty krigingSystem rwna SK ma jednoznaczne rozwizanie i wynikowa wariancja krigingowa jest dodatnia, jeeli macierz kowariancji KSK = [C(u - u)] jest pozytywnie okrelona, czyli w praktyce:

    adna para danych nie ma takiej samej lokalizacji: u u dla zastosowano dopuszczalny model kowariancji C(h)

    Podstawowe cechy estymatora SK Jest to estymator wierny to znaczy, e warto estymowana w lokalizacji punktu danych jest jemu rwna, Jeli lokalizacja estymacji znajduje si poza zasigiem autokorelacji w stosunku najbliszego punktu danych warto estymowana jest rwna stacjonarnej redniej m

  • Prosty kriging przykadyKorzystajc z relacji: C(h) = C(0) - (h)Estymacja cechy w punkcie 0 za pomoc danych pomiarowych z punktw 1,2 i 3.

  • Prosty kriging przykadyProsty kriging dla modelu z zerowym efektem nuggetowym i izotropowym wariogramem sferycznym o trzech rnych zasigach.

    ZasigWaga12310,7810,0120,06550,648-0,0270,001100,0000,0000,000

  • Prosty kriging przykadyProsty kriging dla modelu z izotropowym wariogramem sferycznym o zasigu 10 jednostek odlegoci i trzech rnych wzgldnych udziaach wariancji nuggetowej

    Nugget=Waga1230%0,7810,0120,06525%0,4680,2030,06475%0,1720,1300,053100%0,0000,0000,000

  • Prosty kriging przykadyProsty kriging dla sferycznego modelu z 25% nuggetem i zasigiem gwnej osi wynoszcym 10 jednostek odlegoci w przypadku trzech rnych stosunkw anizotropii

    Anizo- tropia=Waga1231:10,4680,2030,0642:10,3950,0870,1415:10,152-0,0550,23220:10,0000,0000,239

  • Prosty przykad estymacji SK

  • Prosty przykad estymacji SKDane jednowymiarowe: profil dla Y = 240 m

  • Prosty kriging zmienna b1_03b

  • Prosty kriging zmienna b1_03b

  • Prosty kriging zmienna b1_03b

  • Zwyky kriging Ordinary KrigingPoniewa zazwyczaj rednia lokalna warto cechy zmienia si w sposb istotny w ramach analizowanego obszaru opracowano algorytm, ktry limituje stacjonarno redniej do lokalnego ssiedztwa W(u) z centrum w punkcie estymacji.

  • Zwyky krigingLiniowy estymator jest w tym przypadku definiowany jako liniowa kombinacja n(u) Zmiennych Losowych Z(u) plus staa rednia lokalna m(u):Nieznana rednia lokalna m(u) jest odfiltrowana z liniowego estymatora przez wymuszenia sumowania si wag krigingowych do 1. Estymator zwykego krigingu ZOK jest w tej sytuacji zapisany jako liniowa kombinacja tylko n(u) ZL Z(u):

  • Zwyky kriging

  • Zwyky krigingMimo zaoenia, e rednia m(u) jest stacjonarna jedynie wewntrz lokalnego ssiedztwa W(u) kowariancj resztow okrela si na podstawie globalnej kowariancji wyliczonej ze wszystkich dostpnych danych, zgodnie ze wzorem:

  • Zwyky krigingMinimaln wariancj bdw, zwan wariancj OK, uzyskuje si ze wzoru:

  • Zwyky krigingBiorc pod uwag zaleno, e C(h) = C(0) (h), ukad rwna OK mona zapisa za pomoc wartoci semiwariogramu:

  • Zwyky krigingNaley podkreli, e w przeciwiestwie do SK ukad rwna zwykego krigingu moe by przedstawiony jedynie z uyciem kowariancji, poniewa w SK nie ma ograniczenia dotyczcego wartoci wag punktw.Zastosowanie w obliczeniach semiwariogramu pozwala odfiltrowa nieznan lokaln redni m(u), uznan za sta w lokalnym ssiedztwie W(u). Operujemy bowiem nie na wartociach bezwzgldnych cechy, ale na rnicach midzy gow a ogonem:

  • Zwyky krigingZe wzgldu na efektywno obliczeniow ukad rwna krigingu rozwizuje si zazwyczaj za pomoc kowariancji.S jednake modele semiwariogramu (np. potgowy), ktre nie maj odpowiednika w kowariancjach. Dla tego typu nieograniczonych modeli semiwariogramu zdefiniowano tzw. pseudokowariancj polegajc na odjciu wartoci modelu semiwariogramu (h) od jakiejkolwiek dodatniej wartoci A, takiej e A (h) 0, h. Ponownie, warunek nieobcienia estymatora pozwala na pominicie staej A w ukadzie rwna OK, ktre zapisane zostaj jedynie za pomoc pseudokowariancji.

    Tak wic praktyka geostatystyczna polega na:1. Obliczeniu i modelowaniu semiwariogramu2. Rozwizaniu wszystkich ukadw rwna OK przy uyciu (pseudo) kowariancji

  • E{Z}-Kriging Ordinary Kriging explained

  • Zwyky krigingZamiast szacowa warto cechy z, mona rwnie chcie estymowa i przedstawi w postaci mapy lokalne rednie cechy. Daje to moliwo oceny lokalnych odchyle od globalnej redniej i daje wygadzony obraz zmiennoci przestrzennej analizowanego zjawiska. Estymator OK mona tak przeksztaci aby szacowa za pomoc jego lokaln redni. Uzyskuje si wtedy nastpujcy ukad (n(u) + 1) liniowych rwna:

  • Prosty kriging a Zwyky kriging

  • Prosty kriging a Zwyky kriging

  • Prosty kriging a Zwyky kriging przykadDane jednowymiarowe: profil dla Y = 240 m

  • Walidacja estymacji metod kriginguWyniki estymacji pokazuj tylko przybliony obraz rzeczywistoci (model), ktry zawsze bdzie si od niej rni.Im mniejsza jest ta rnica (bd estymacji), tym lepszy model struktury przestrzennej (semiwariancji) uyty do estymacji i lepiej dobrane parametry oblicze.Stopie poprawnoci modelu najlepiej oceni porwnujc wartoci estymowane z rzeczywistymi. Mona tego dokona zbierajc dodatkowe prbki lub te uywajc zbioru wczeniej oprbowanych lokalizacji.W tym wypadku pierwsze rozwizanie jest do czasochonne i wymaga dodatkowych nakadw finansowych, co skania do oceny poprawnoci modelu za pomoc posiadanego ju zbioru danych poprzez walidacj podzbiorem (ang. jackknifing) albo kroswalidacj (ang. cross-validation).

  • Walidacja podzbiorem(ang. jackknifing) Walidacja podzbiorem sprowadza si do podziau zbioru oprbowanych lokalizacji n na podzbiory o rnej wielkoci wikszy wykorzystujemy do estymacji wartoci danej cechy z dla wszystkich lokalizacji ze zbioru mniejszego, ktry nie bierze udziau w analizie.Jest to preferowana metoda, poniewa dziki temu zbir walidacyjny jest zawsze niezaleny od danych uytych do estymacji. Jednake walidacja podzbiorem wie si z usuniciem z oblicze czci oryginalnych danych pomiarowych. Wymaga te uycia zbioru na tyle duego, aby ilo danych w drugim podzbiorze umoliwiaa obliczenie wiarygodnych statystyk jakoci estymacji

  • Kroswalidacja(ang. cross-validation) Kroswalidacja natomiast wykorzystuje do oblicze struktury przestrzennej i modelowania wszystkie dane. Polega ona na podziale zbioru oprbowanych lokalizacji n na dwa podzbiory: konstrukcji, zawierajcym n-1 pomiarw danej cechy z oraz walidacji, w ktrym znajduje si 1 pomiar z danej lokalizacji (u).Nastpnie uywajc podzbioru konstrukcji dokonuje si estymacji wartoci cechy z dla lokalizacji z podzbioru walidacji. Procedur naley powtrzy tyle razy, ile jest pomiarw, za kadym razem odrzucajc prbk z innej lokalizacji (losowanie ze zwracaniem)W efekcie uzyskuje si n estymacji dla n pomiarw danej cechy z, ktre mona ze sob porwna obliczajc statystyki jakoci estymacji

  • Kroswalidacja(ang. cross-validation) Niewtpliw wad kroswalidacji jest uycie do walidacji tego samego zbioru danych, co do modelowania i estymacji.W konsekwencji caa analiza od pocztku do koca opiera si na tych samych danych. W zwizku z tym za kadym razem uzyskujemy wyniki dla lokalizacji, w ktrych warto cechy jest znana.Nie zawsze jednak zebrane dane odzwierciedlaj charakterystyk caego obszaru bada (np. na skutek preferencyjnego oprbowania).Dlatego te moe si okaza, e model, ktry w procedurze kroswalidacji daje bardzo dobre wyniki, nie bdzie odpowiedni do estymacji pomidzy oprbowanymi lokalizacjami, czyli w miejscach o nieznanej wartoci cechy.

  • Kroswalidacja (ang. cross-validation) Z kolei gwn zalet kroswalidacji jest to, i wykorzystuje ona wszystkie oryginalne dane pomiarowe, dziki czemu moliwa jest walidacja zbiorw o niewielkiej liczebnoci. Najpopularniejszym zastosowaniem kroswalidacji jest, zwizana z ocen poprawnoci modelu, optymalizacja jego parametrw. Polega ona na porwnaniu kilku modeli pod wzgldem obliczonych dla kadego z nich statystyk jakoci estymacji i wybraniu tego, ktry ma najlepiej oddaje rzeczywisto.Kroswalidacj mona rwnie wykorzysta do oceny wpywu waciwoci zbioru danych na jako estymacji. W tym wypadku konieczna jest do dua ilo zestaww danych, dla ktrych zestawia si statystyki globalne i lokalne zbiorw z statystykami jakoci estymacji i na tej podstawie wyprowadza model regresji.

  • Statystyki jakoci estymacjiStatystyki jakoci estymacji su do porwnania wynikw estymacji. Dziki nim mona ustali, ktry model estymacji daje najlepsze wyniki dla danego zestawu danych.Statystyki te pozwalaj na ocen kolejnych modeli pod wzgldem dwch podstawowych poj dotyczcych jakoci estymacji: dokadnoci oraz precyzji estymacji.Dokadno jest to stopie w jakim wartoci estymowane s zgodne z rzeczywistoci.Natomiast precyzja to zgodno kolejnych wynikw wzgldem siebie.W zwizku z tym, jeli przy kilku kolejnych estymacjach ich wyniki s do siebie podobne, ale rni si od wartoci prawdziwych, to znaczy, e model jest precyzyjny, ale niedokadny. A jeeli kolejne wartoci s zblione do rzeczywistych, ale rni si od siebie w sposb istotny, to model jest dokadny, ale nieprecyzyjny. Dopiero w przypadku, gdy kolejne wartoci s podobne do prawdziwych i do siebie, wtedy model ten mona okreli jako dokadny i precyzyjny.

  • Statystyki jakoci estymacjiBd definiuje si go jako rnic midzy wartoci estymowan a rzeczywist. Bd czsto nazywamy te reszt. Jest on miar dokadnoci okrela na ile warto estymowana rni si od zmierzonej. Jeeli bd jest dodatni wtedy prawdziwa warto zostaa przeszacowana, jeli ujemny, mamy do czynienia z niedoszacowaniem

    Bd minimalny, maksymalny oraz amplituda bdw zawieraj informacj o tym jakiego rzdu s najwiksze odchylenia (zarwno in plus, jak i in minus) oraz jaka jest midzy nimi rnica. Pomagaj okreli precyzj estymacji.redni bd (ang. mean error, ME) jest miar obcienia estymatora. W sytuacji idealnej powinien wynosi 0. Jeli istotnie rni si od 0, oznacza to, e estymator regularnie zawya lub zania szacowane wartoci. Jednake nawet w przypadku, gdy redni bd jest rwny 0 nie ma pewnoci, co do nieobcienia estymatora. Ma to miejsce, np. w sytuacji, gdy duo maych bdw ujemnych jest kompensowanych przez jeden duy bd dodatni. rednia bdzie zbliona do 0, ale estymator i tak bdzie obciony. Dlatego te warto zawsze zwrci uwag na symetri rozkadu bdw (histogram), wykres rozrzutu wartoci rzeczywistych i estymowanych, a take obliczy procentowy udzia bdw dodatnich i ujemnych.

  • Statystyki jakoci estymacjiWariancja i odchylenie standardowe bdw informuj o ich rozrzucie. Przyjmuje si, i im mniejszy rozrzut bdw tym wiksza dokadno i precyzja estymacji. Oznacza to, e podane s jak najmniejsze wartoci wariancji i odchylenia standardowego. redni bd oraz rozrzut nie s niezalene. Tote czsto mona poprawi estymator poprzez zmniejszenie zrnicowania bdw (redukcj rozrzutu) kosztem jego niewielkiego obcienia.Statystyki jakoci estymacji, ktre uwzgldniaj zarwno rozrzut, jak i obcienie rozkadu bdw to redni bd bezwzgldny (ang. mean absolute error, MAE) i redni bd kwadratowy (ang. mean squared error, MSE) oraz pierwiastek redniego bdu kwadratowego (ang. root mean squared error, RMSE). RMSE rwnie okrela dokadno modelu. Im mniejsze przyjmuje wartoci, tym lepiej. Poprzez spierwiastkowanie MSE nastpuj powrt do skali oblicze, jednake na skutek wczeniejszego potgowania wzmacnia si znaczenie duych bdw.

  • Statystyki jakoci estymacjiStandaryzowany bd (SE) tj. bd, ktrego standaryzacja odbywa si poprzez podzielenie go przez wariancj krigingow. Przyjmuje si , e powinien on mieci si w przedziale [-2,5;2,5] przy 99% przedziale ufnoci i rozkadzie normalnym. Wtedy wyniki estymacji s wwczas uznawane za wiarygodne. Histogram standaryzowanych kwadratw reszt pomaga w stwierdzeniu, czy estymator jest obciony, czy nie. Standaryzowany bd rwnie okrela dokadno estymacji poprzez porwnanie wartoci estymowanych i rzeczywistych. Porwnanie to jest atwiejsze i efektywniejsze ni w przypadku zwykych bdw, gdy wartoci zostay sprowadzone do jednej skali. Ma to miejsce dziki dzieleniu przez wariancj krigingowa. Sama w sobie nie jest ona miar jakoci estymacji, gdy nie informuje ani o jej dokadnoci, ani o precyzji, ale o rozkadzie przestrzennym pomiarw. Dlatego te stosuje si j gwnie do standaryzacji

  • Statystyki jakoci estymacjiredni standaryzowany kwadrat reszt (ang. mean square standard residual, MSSR) .Idealnie redni standaryzowany kwadrat reszt jest rwny 1. Zakada si, e im bliej 1, tym wiksza wiarygodno oraz dokadno modelu i jego parametrw.

    Wykres rozrzutu wartoci rzeczywistych i estymowanych (wykres rozrzutu - ang. scatterplot) jest kolejn miar dokadnoci estymacji. Punkty na wykresie tworz chmur, ktra ukada si wzdu linii 45. Im mniej wartoci estymowane rni si od prawdziwych, tym znajduj si bliej tej linii. atwo w ten sposb zauway wszystkie wartoci odstajce. Syntetyczn miar bliskoci punktw do linii 45 jest wspczynnik korelacji.

  • Statystyki jakoci estymacji - wykresyHistogram standaryzowanych bdw estymacji

  • Statystyki jakoci estymacji - wykresyWykres rozrzutu i korelacja wartoci rzeczywistych i estymacji

  • Statystyki jakoci estymacji - wykresyWykres rozrzutu i korelacja standaryzowanych bdw i wartoci estymowanych

  • Statystyki jakoci estymacji wybr modelui optymalizacja oblicze(zanieczyszczenie kadmem gleb na terenie Jury Szwajcarskiej )

  • Statystyki jakoci estymacji wybr modelui optymalizacja oblicze(zanieczyszczenie kadmem gleb na terenie Jury Szwajcarskiej)

  • Statystyki jakoci estymacji wybr modelui optymalizacja oblicze(zanieczyszczenie kadmem gleb na terenie Jury Szwajcarskiej)

  • Statystyki jakoci estymacji wybr modelu i optymalizacja oblicze(zanieczyszczenie kadmem gleb na terenie Jury Szwajcarskiej)

  • Statystyki jakoci estymacji wybr modelu i optymalizacja oblicze(zanieczyszczenie kadmem gleb na terenie Jury Szwajcarskiej)

    ************************************