Analiza danych środowiskowych III rok OŚ

20
Analiza danych środowiskowych III rok OŚ Wyklad 1 Andrzej Leśniak KGIS, GGiOŚ AGH Cele Zaprezentowanie praktycznego podejścia do analizy danych (szczególnie danych środowiskowych) Zaznajomienie z podstawowymi (!!!) technikami analizy środowiskowych danych pomiarowych Zaznajomienie ze strategią postępowania z wlasnymi zestawami danych

Transcript of Analiza danych środowiskowych III rok OŚ

Page 1: Analiza danych środowiskowych III rok OŚ

Analiza danych środowiskowych

III rok OŚWykład 1

Andrzej Leśniak

KGIS, GGiOŚAGH

Cele

Zaprezentowanie praktycznego podejścia do

analizy danych (szczególnie danych

środowiskowych)

Zaznajomienie z podstawowymi (!!!) technikami

analizy środowiskowych danych pomiarowych

Zaznajomienie ze strategią postępowania z

własnymi zestawami danych

Page 2: Analiza danych środowiskowych III rok OŚ

software

MatLab

SciLab

available on-line

1. Charakterystyka danych środowiskowych- opis probabilistyczny.

2. Aproksymacja liniowa, metoda najmniejszych kwadratów.

3. Interpolacja danych (liniowa, kwadratowa). Korekta danych.

4. Badanie okresowości danych- Analiza harmoniczna. Transformacja Fouriera.

5. Zastosowania analizy częstotliwościowej.

6. Funkcje korelacji i autokorelacji danych – zastosowania.

7. Pochodna i całka numeryczna.

8. Analizy chwilowe danych niestacjonarnych

Plan

Page 3: Analiza danych środowiskowych III rok OŚ

Wykład 1

Dane i ich opis probabilistyczny

Rada na dobry początek ;-)

Jeśli coś mierzysz lub podejmujesz się interpretacji pomiarów

wykonanych przez inne osoby, dowiedz się jak najwięcej o

charakterze danych – wręcz spróbuj przewidzieć jak powinny

wyglądać. Konfrontacja Twoich wyobrażeń z rzeczywistością może okazać się bardzo cenna.

Page 4: Analiza danych środowiskowych III rok OŚ

Przykład danych: Przepływ wody na rzece Hudson (USA)

Albany

wododział:

36,260 km2

źródło: Wikipedia

Hudson River

Page 5: Analiza danych środowiskowych III rok OŚ

Przepływ - ilość wody przepływająca przez przekrój

koryta rzeki w jednostce czasu. Mierzony jest w m3/s.

Jakie własności powinien mieć przepływ?

Woda płynie w jednym kierunku – przepływ ma znak dodatni

Przepływ jest stosunkowo stabilny w perspektywie minut i godzin; znacznie mniej w perspektywie dni i tygodni

Przepływ wzrasta w okresach opadów deszczu

Jak mierzyć przepływ?

h

w

v

Przepływ przez przekrój poprzeczny o wymiarach w×h×v

w jednostce czasu

Page 6: Analiza danych środowiskowych III rok OŚ

Typowa wielkość przepływu?

10 m

100 m

1 m/s

przepływ = w×h×v = 1000 m3/s

Jak powinny wyglądać zmiany przepływu w czasie?

Spróbujmy naszkicować, zakładając kilkudniowy okres opadów w tym

analizowanym okresie czasu.

prz

ep

ływ

(m

3/s

)

czas (dni)

Page 7: Analiza danych środowiskowych III rok OŚ

Rzeczywisty przepływ w rzece Hudson na wysokości

Albany

(czas w dniach począwszy od

Jan 1, 2002)

prz

ep

ływ

(m

3/s

)

czas (dni)

Jak można scharakteryzować własności

opadów na danym terenie?

Ich wielkość jest liczbą dodatnią

Skala czasu – stosunkowo krótka –godziny do dni

potem dni bez opadów

Opady maksymalnie do kilkunastu – kilkudziesięciu centymetrów na dobę

Page 8: Analiza danych środowiskowych III rok OŚ

prz

ep

ływ

(m

3/s

)

Przepływ

czas (dni)

czas (dni)

Opady

Op

ad

y (

mm

)

Okres opadów

Szeregi czasowe są podobne ale nie identyczne – nawet ich maksima są w różnych

miejscach.

Największy przepływ

Największy opad

Dlaczego?

Opady deszczu w Albany NY

prz

ep

ływ

(m

3/s

)O

pa

dy

(m

m)

(A) Przepływ

(B) Opady

czas (dni)

czas (dni)

Page 9: Analiza danych środowiskowych III rok OŚ

Deszcz w Albany nie jest

jedynym czynnikiem

wpływającym na wielkość przepływu w tym mieście

Wielkość przepływu zależy nie tylko od wielkości opadów w Albany ale w całym

dorzeczu.

Szeroki impuls – szybki wzrost,

wolniejszy spadek

Wąski impuls

Dlaczego?

Opady deszczu w Albany NY

prz

ep

ływ

(m

3/s

)O

pa

dy

(m

m)

(A) Przepływ

(B) Opady

czas (dni)

czas (dni)

Page 10: Analiza danych środowiskowych III rok OŚ

Jak przewidzieć wielkość przepływu na

podstawie opadów?

Potrzeba trochę czasu by woda z

opadów spłynęła do

rzeki podnosząc jej

poziom

Wzrost poziomu w dniu dzisiejszym został wywołany przez opady mające miejsce w czasie kilku

poprzedzających dni

Sformułowanie matematyczne:

przepływ d jest średnią ruchomą z opadów p w ciągu

kilku ostatnich dni

Idea :

Przepływ w danym punkcie jest opóźniony w stosunku do opadów,

z uwagi na czas spływu wód opadowych z lądu do koryta rzeki

Page 11: Analiza danych środowiskowych III rok OŚ

dzisiaj i

poprzednie dni

dla danego dniap

dla danego dnia

przepływsuma opady

dzisiajd

wagi w

średniej

ruchomej

przykład

d5 = w1p5 + w2p4 + w3p3 ...

przepływ dla dnia iopad w

przeszłości

wagi

Page 12: Analiza danych środowiskowych III rok OŚ

Podumowując – adekwatność modelu średniej ruchomej jest ukryta we

właściwym doborze wag w1 w2 w3 w4 ...

+

=

21

expexpT

jc

T

jw j

Tylko najbliższe w czasie opady mają wpływ na wielkość przepływu.

Wartość wag może spadać ekspotencjalnie wraz ze wzrostem odległości w czasie

Wagi są dobierane metodą prób i błędów (lub w inny, bardziej wyrafinowany sposób).

+

=

30exp

10

1

3exp

jjw j

Wynik predykcji

Page 13: Analiza danych środowiskowych III rok OŚ

Prawdopodobieństwo i błąd pomiarowy

Jak zastosować rachunek prawdopodobieństwa i statystykę matematyczną do

analizy danych środowiskowych a w szczególności do ilościowego opisu błędów

Błędy pomiarowe najłatwiej analizować (i zrozumieć) używając aparatu

matematycznego.

d=?d=?d=1.04 d=0.98

nieokreślone nieokreślone

Zmienne losowe mogą cechować się pewną systematycznością (tendencją) – mogą

przyjmować pewne wartości częściej niż inne.

CH

HH

H

CD

HH

H

CD

DH

H

CD

DH

D

CD

DD

D

d = 0 d =1 d =2 d =3 d =4

Przykład – d = liczba atomów deuteru w cząsteczce metanu. d jest zmienną losową.

Systematyczność zmiennej losowej d może być scharakteryzowana rozkładem

prawdopodobieństwa P(d). Wartości w % (0% - 100%) lub w ułamkach (0.0-1.0 )

Page 14: Analiza danych środowiskowych III rok OŚ

P0.0 0.5

0

1

2

3

4

d

d P

0 0.10

1 0.30

2 0.40

3 0.15

4 0.05

d P

0 10%

1 30%

2 40%

3 15%

4 5%

P

Cztery różne sposoby wizualizacji prawdopodobieństwa

Prawdopodobieństwa sumują się do 100% lub do 1.0.

Jeśli zmienna losowa jest ciągła może przyjmować wartości z zadanego przedziału

(skończonego lub nieskończonego) w sposób ciągły.

0

5

głę

bo

kość

,

d=2.37

Page 15: Analiza danych środowiskowych III rok OŚ

d

d1

d2

p(d)

area, A

Szare pole

powierzchni określa

prawdopodobieństwo,

ze rybka znajduje się

między głębokościami

d1 i d2.

Prawdopodobieństwo, że dznajduje się pomiędzy d1 i d2

Oczywiście

d

p(d)

d

p(d)

0

0

5

5

Jak scharakteryzować rozkład prawdopodobieństwa?

Wartość „centralna” (maksymalna), szerokość rozkładu ???

Istnieje kilka propozycji sposobów charakteryzowania kształtu.

Zacznijmy od sposobów określania wartości typowej rozkładu (wartości oczekiwanej).

Page 16: Analiza danych środowiskowych III rok OŚ

0

5

10

d

15

p(d)

mode

dmode

0

10

d

15

p(d)

median

dmedian

area=50%

area=

50%

0

5

10

d

15

p(d)

mean

dmean

Wartość maksymalna

medianaWartość średnia

≈ s

d

ds

dane

histogram

Ns

dsRozkład

prawdopodobieństwa

step 1: sposób obliczania wartości średniej

step 2: jeśli zamiast danych posługujemy się histogramem

step 3: jeśli zastąpimy histogram rozkładem prawdopodobieństwa

≈ sNs

N p

≈ s P(ds)

Dla zmiennej

ciągłej

Page 17: Analiza danych środowiskowych III rok OŚ

Obliczenie szerokości rozkładu

użyj wartości średniej dla dtypical

Pierwiastek z wariancji jest de facto miarą szerokości rozkładu tj. dσ

q(d) = (d-dtypical)2

Więc funkcja q(d)p(d) ma:

małą wartość jeśli większość jest skupiona blisko dtypical , czyli

rozkładp(d) skupiony (wąski)

dużą wartość jeśli większość jest zlokalizowana daleko od

dtypical , czyli rozkładp(d) jest szeroki

Wielkość pola powierzchni q(d)p(d) ilościowo charakteryzuje

szerokość rozkładu prawdopodobieństwa

Dwa typowe rozkłady prawdopodobieństwa

Jednorodny:

d

dmin dmax

p(d)

1/(dmax- dmin)

impuls prostokątny

0 10 20 30 40 500

0.02

0.04

0.06

0.08

d

funkcja dzwonowa

(gaussowska)

Normalny:

Wariancja równa 2

σ

Page 18: Analiza danych środowiskowych III rok OŚ

d

d =10 30

0

40

d

0

40σ =2.5 105 20 4015 20 25

Ta sama wariancja

różne wartości średnie

Ta sama wartość średnia

różne wariancje

Przykłady zróżnicowania dla normalnego rozkładu prawdopodobieństwa

Funkcje zmiennej losowej

dane

zawierające

błąd

pomiarowy

przetworzenie

danych

wnioskowanie

w warunkach

losowych

wartość pomierzona djednorodny p.d.f.

0<d<1

m = d2jeden wynik,

wartość modelu, m

Page 19: Analiza danych środowiskowych III rok OŚ

Funkcje zmiennej losowej

dane: p(d) reguła m=d2 p(m) ?

=wartość bezwzględną dodano by zabezpieczyć

się przed przypadkiem gdy m2<m1

metoda:

gdy m=d2 wówczas d=m1/2

przedział:d=0 corresponds to m=0

d=1 corresponds to m=1

p.d.f.: p(d) = 1 więc p[d(m)]=1

pochodna: ∂d/ ∂ m = (1/2)m-1/2

w rezultacie:

p(m) = (1/2) m-1/2

w przedziale 0<m<1

d

0

1

m

0

1

p(d) p(m) Jeśli p(d) jest stałe to

p(m) jest skoncentrowane

wokół m=0

Średnia d, i wariancja σd2

Jaka będzie m oraz σm2

dla liniowej zmiany m=cd ?

Dla średniej m=cd ,

dla wariancji σm2 =c2σd

2

Wyniki niezbyt realistyczne –

jeden pomiar, jedna wartość.

Page 20: Analiza danych środowiskowych III rok OŚ