Rozpoznawanie głosów ptaków

33
Rozpoznawanie głosów ptaków Dr inż. Robert Wielgat Państwowa Wyższa Szkoła Zawodowa w Tarnowie Zakład Elektroniki i Telekomunikacji - Dzień otwarty w PWSZ 13 marca 2009

description

Rozpoznawanie głosów ptaków. Dr inż. Robert Wielgat. Państwowa Wyższa Szkoła Zawodowa w Tarnowie Zakład Elektroniki i Telekomunikacji - Dzień otwarty w PWSZ 13 marca 2009. Charakterystyka głosów ptaków. - PowerPoint PPT Presentation

Transcript of Rozpoznawanie głosów ptaków

Page 1: Rozpoznawanie głosów ptaków

Rozpoznawanie głosów ptaków

Dr inż. Robert Wielgat

Państwowa Wyższa Szkoła Zawodowa w Tarnowie

Zakład Elektroniki i Telekomunikacji

- Dzień otwarty w PWSZ 13 marca 2009

Page 2: Rozpoznawanie głosów ptaków

Time [s]

Fre

quen

cy [H

z]

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50

0.5

1

1.5

2

2.5

3

3.5

4

4.5

x 104

Charakterystyka głosów ptaków- Dźwięki głównie harmoniczne, zasadniczo brak składowych szumowych- Dwie pary strun głosowych,- W przypadku wielu głosów ptaków występują składowe ultradźwiękowe niesłyszalne dla ucha ludzkiego

0 0.1 0.2 0.3 0.4 0.5 0.60

2000

4000

6000

8000

10000

t rz y

Czas [s]

Czę

sto

tliw

ość

[H

z]

Page 3: Rozpoznawanie głosów ptaków

1. Wykrywanie rzadkich gatunków

ptaków w celu ochrony ich siedlisk

2. Monitoring ptaków i wykrywanie

zagrożeń ekologicznych (FBI –

Farmland Bird Index)

3. Ochrona upraw rolnych

4. Ochrona lotnisk i samolotów

Znaczenie rozpoznawania głosów ptaków

Page 4: Rozpoznawanie głosów ptaków

Projekt „BIRDSMOND”Od czerwca 2008 roku w Państwowej Wyższej Szkole Zawodowej w Tarnowie jest realizowany grant MNiSW Nr N N519 402934 pt. „Opracowanie automatycznego systemu akustycznego monitoringu ptaków dla Ciężkowicko-Rożnowskiego Parku Krajobrazowego” we współpracy z:

Zespołem Parków Krajobrazowych Pogórza w Tarnowie, Uniwersytetem Jagielońskim, Małopolskim Towarzystwem Ornitologicznym, Akademią Górniczo-Hutniczą, Uniwersytetem Rolniczym w Krakowie.

Od września 2008 roku projekt nosi nazwę:

B I R D S M O N D

będącą akronimem od: BIRD SOUND MONITORING DATABASE

Page 5: Rozpoznawanie głosów ptaków

System akustycznego monitoringu ptaków

Stacjonarny rejestrator cyfrowy

Przenośny rejestrator

cyfrowy

Program rozpoznający w trybie bez nadzoru

System informatyczny

Program rozpoznający w trybie z nadzorem

Gość

Ekspert lub Administrator

Obserwator

Stacjonarny rejestrator cyfrowy

Przenośny rejestrator

cyfrowy

GPS, filmy, zdjęcia, informacje o pogodzie

Automatyczny Obserwator

Page 6: Rozpoznawanie głosów ptaków

System akustycznego monitoringu ptaków

Stacjonarny rejestrator cyfrowy

Przenośny rejestrator

cyfrowy

Program rozpoznający w trybie bez nadzoru

System informatyczny

Program rozpoznający w trybie z nadzorem

Gość

Ekspert lub Administrator

Obserwator

Stacjonarny rejestrator cyfrowy

Przenośny rejestrator

cyfrowy

GPS, filmy, zdjęcia, informacje o pogodzie

Automatyczny Obserwator

Page 7: Rozpoznawanie głosów ptaków

Stacjonarny rejestrator cyfrowy

A/C

LCD

MIKROKONTROLER

Klawiatura

FAT324 x Szerokopas-mowy mikrofon pojemnościowy

Karta pamięci

Zegar Czasu rzeczy-wistego

C/A

Zestaw głośnikowy

4 x wzmacniacz mikrofonowy

Wzmacniaczmocy

Bezprzewodowy transceiver Antena

Page 8: Rozpoznawanie głosów ptaków

System akustycznego monitoringu ptaków

Stacjonarny rejestrator cyfrowy

Przenośny rejestrator

cyfrowy

Program rozpoznający w trybie bez nadzoru

System informatyczny

Program rozpoznający w trybie z nadzorem

Gość

Ekspert lub Administrator

Obserwator

Stacjonarny rejestrator cyfrowy

Przenośny rejestrator

cyfrowy

GPS, filmy, zdjęcia, informacje o pogodzie

Automatyczny Obserwator

Page 9: Rozpoznawanie głosów ptaków

System akustycznego monitoringu ptaków

Stacjonarny rejestrator cyfrowy

Przenośny rejestrator

cyfrowy

Program rozpoznający w trybie bez nadzoru

System informatyczny

Program rozpoznający w trybie z nadzorem

Gość

Ekspert lub Administrator

Obserwator

Stacjonarny rejestrator cyfrowy

Przenośny rejestrator

cyfrowy

GPS, filmy, zdjęcia, informacje o pogodzie

Automatyczny Obserwator

Page 10: Rozpoznawanie głosów ptaków

Przenośny rejestrator cyfrowy

A/C

MIKROKONTROLERFAT32

Karta pamięci

Zegar czasu rzeczy-wistego

C/A

Słuchawki

4 x wzmacniaczmikrofonowy

Wzmacniacz słuchawkowy

LCD KlawiaturaAntena

GPS

4 x Szerokopas-mowy mikrofon pojemnościowy

Page 11: Rozpoznawanie głosów ptaków

System akustycznego monitoringu ptaków

Stacjonarny rejestrator cyfrowy

Przenośny rejestrator

cyfrowy

Program rozpoznający w trybie bez nadzoru

System informatyczny

Program rozpoznający w trybie z nadzorem

Gość

Ekspert lub Administrator

Obserwator

Stacjonarny rejestrator cyfrowy

Przenośny rejestrator

cyfrowy

GPS, filmy, zdjęcia, informacje o pogodzie

Automatyczny Obserwator

Page 12: Rozpoznawanie głosów ptaków

System akustycznego monitoringu ptaków

Stacjonarny rejestrator cyfrowy

Przenośny rejestrator

cyfrowy

Program rozpoznający w trybie bez nadzoru

System informatyczny

Program rozpoznający w trybie z nadzorem

Gość

Ekspert lub Administrator

Obserwator

Stacjonarny rejestrator cyfrowy

Przenośny rejestrator

cyfrowy

GPS, filmy, zdjęcia, informacje o pogodzie

Automatyczny Obserwator

Page 13: Rozpoznawanie głosów ptaków

• Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków.

• Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach:1. etap ekstrakcji cech2. etap klasyfikacji

• Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosując system ekspertowy wykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.

Program rozpoznający pracujący w trybie bez nadzoru

Page 14: Rozpoznawanie głosów ptaków

• Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków.

• Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach:1. etap ekstrakcji cech2. etap klasyfikacji

• Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosując system ekspertowy wykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.

Program rozpoznający pracujący w trybie bez nadzoru

Page 15: Rozpoznawanie głosów ptaków

Ekstrakcja cech• Z sygnału akustycznego będącego głosem ptaka można wyekstrahować różnorodne cechy np.:

Kodowanie sygnału w dziedzinie czasu (ang. TDSC -Time Domain Signal Coding) , Maksima widmowe (ang. spectral peaks), Falki (ang. wavelets), Parametry mel-cepstralne (ang. MFCC - Mel Frequency Cepstral Coefficients), Parametry HFCC (ang. HFCC - Human Factor Cepstral Coefficients).

• Etap ekstrakcji cech in jest niekiedy poprzedzany wstępnym przetwarzaniem sygnału jak np. filtracja pasmowo-przepustowa, redukcja szumów itp.

Page 16: Rozpoznawanie głosów ptaków

Ekstrakcja cech• Z sygnału akustycznego będącego głosem ptaka można wyekstrahować różnorodne cechy np.:

Kodowanie sygnału w dziedzinie czasu (ang. TDSC -Time Domain Signal Coding) , Maksima widmowe (ang. spectral peaks), Falki (ang. wavelets), Parametry mel-cepstralne (ang. MFCC - Mel Frequency Cepstral Coefficients), Parametry HFCC (ang. HFCC - Human Factor Cepstral Coefficients).

• Etap ekstrakcji cech in jest niekiedy poprzedzany wstępnym przetwarzaniem sygnału jak np. filtracja pasmowo-przepustowa, redukcja szumów itp.

Page 17: Rozpoznawanie głosów ptaków

Parametry MFCC (mel-cepstralne)

1

0 2

)12(cos)ln()()(

K

kk K

nkSncnX

K

c1

)0( K

nc2

)(

1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych4) Obliczenie logarytmu zakumulowanych współczynników widmowych5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych:

6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

Page 18: Rozpoznawanie głosów ptaków

Parametry MFCC (mel-cepstralne)

1

0 2

)12(cos)ln()()(

K

kk K

nkSncnX

K

c1

)0( K

nc2

)(

1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych4) Obliczenie logarytmu zakumulowanych współczynników widmowych5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych:

6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

Page 19: Rozpoznawanie głosów ptaków

Dzielenie sygnału na ramki

30 ms

20 ms

Ram

ka 1

Ram

ka 2

Ram

ka 3

Ram

ka 4

Ram

ka 5

[ms]t

Page 20: Rozpoznawanie głosów ptaków

Parametry MFCC (mel-cepstralne)

1

0 2

)12(cos)ln()()(

K

kk K

nkSncnX

K

c1

)0( K

nc2

)(

1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych4) Obliczenie logarytmu zakumulowanych współczynników widmowych5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych:

6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

Page 21: Rozpoznawanie głosów ptaków

Parametry MFCC (mel-cepstralne)

1

0 2

)12(cos)ln()()(

K

kk K

nkSncnX

K

c1

)0( K

nc2

)(

1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych4) Obliczenie logarytmu zakumulowanych współczynników widmowych5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych:

6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

Page 22: Rozpoznawanie głosów ptaków

Okienkowanie sygnałuOkienkowanie sygnału polega na przemnożeniu próbek w ramce sygnału przez funkcję okna.

t

t

tx =

Funkcja okna (np. okno Hamminga)

Sygnał w ramce

Sygnał w ramce przemnożony przez

funkcję okna

Page 23: Rozpoznawanie głosów ptaków

Parametry MFCC (mel-cepstralne)

1

0 2

)12(cos)ln()()(

K

kk K

nkSncnX

K

c1

)0( K

nc2

)(

1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych4) Obliczenie logarytmu zakumulowanych współczynników widmowych5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych:

6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

Page 24: Rozpoznawanie głosów ptaków

Parametry MFCC (mel-cepstralne)

1

0 2

)12(cos)ln()()(

K

kk K

nkSncnX

K

c1

)0( K

nc2

)(

1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych4) Obliczenie logarytmu zakumulowanych współczynników widmowych5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych:

6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

Page 25: Rozpoznawanie głosów ptaków

Częstotliwość [mel]

wagi Bank filtrów MFCC

Częstotliwości środkowe

Mel-Frequency Cepstral Coefficients (MFCC)

“Obliczenie mocy FFT w określonych pasmach częstotliwościowych”Częstotliwości środkowe w tych pasmach są równomiernie rozmieszczone względem melowej skali częstotliwościowej.Szerokość pasma jest powiązana z rozmieszczeniem częstotliwości środkowych pasma zachodzą na siebie na połowie swej długości.

)110(700

)700/1log(25952595/

melf

Hz

Hzmel

f

ff

Page 26: Rozpoznawanie głosów ptaków

Parametry MFCC (mel-cepstralne)

1

0 2

)12(cos)ln()()(

K

kk K

nkSncnX

K

c1

)0( K

nc2

)(

1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych4) Obliczenie logarytmu zakumulowanych współczynników widmowych5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych:

6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

Page 27: Rozpoznawanie głosów ptaków

• Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków.

• Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach:1. etap ekstrakcji cech2. etap klasyfikacji

• Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosując system ekspertowy wykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.

Program rozpoznający pracujący w trybie bez nadzoru

Page 28: Rozpoznawanie głosów ptaków

• Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków.

• Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach:1. etap ekstrakcji cech2. etap klasyfikacji

• Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosując system ekspertowy wykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.

Program rozpoznający pracujący w trybie bez nadzoru

Page 29: Rozpoznawanie głosów ptaków

KlasyfikacjaNajbardziej obiecującymi metodami klasyfikacji w rozpoznawaniu głosów ptaków są:

• Wyszukiwanie haseł oparte na Nieliniowej transformacji czasowej (ang. Dynamic Time Warping - DTW) • Metoda niejawnych modeli Markowa (ang. Hidden Markov Models – HMM).

iY

iX

BIRD VOICE X

BIR

D V

OIC

E Y

1 N

1M

DTW

2 3 4 51

o1 o2 o3 o4 o5 o6

a23

a22

b2(o1) b2(o2) b2(o3) b4(o5)b3(o4) b4(o6)

a34 a45a12

a33 a44

HMM

Page 30: Rozpoznawanie głosów ptaków

Nieliniowa transformacja czasowa (DTW)

iY

iX

Celem algorytmu nieliniowej transformacji czasowej jest znalezienie najniższego zakumulowanego kosztu przejścia między punktami siatki odległości

IX - indeksy wektorów cech słowa x

IY - indeksy wektorów cech słowa y

S Ł O W O X

S

Ł

O

W

O

Y

1 N

1M

Page 31: Rozpoznawanie głosów ptaków

• Naśladownictwo

- myszołów - szpak naśladujący myszołowa

• Nakładanie się głosów ptaków tzw. efekt „coctail party”

- ptaki śpiewające jednocześnie

• Rozpoznawanie w warunkach dużego szumu i hałasu otoczenia

• Rozpoznawanie dużej liczby gatunków ptaków

Nierozwiązane problemy rozpoznawania głosów ptaków

Page 32: Rozpoznawanie głosów ptaków

Serdecznie zapraszamy Państwa do odwiedzania strony internetowej projektu

BIRDSMONDwww.birdsmond.pwsztar.edu.pl

Trznadel (łac. Emberizza citrinella) Sójka (łac. Garrulus glandarius) Trznadel (łac. Emberizza citrinella)

Page 33: Rozpoznawanie głosów ptaków

Dziękuję Państwu za uwagę