Systemy Wizyjne i Głosowe

23
Systemy Wizyjne i Głosowe Temat projektu: Weryfikacja autorów wypowiedzi na podstawie próbek sygnału mowy Maciej Mraczek Piotr Szczepanik Michał Mrówczyński Kamil Ciepiela Kraków, 4 czerwca 2009 AiR, EAIiE, AGH

description

Maciej Mraczek Piotr Szczepanik Michał Mrówczyński Kamil Ciepiela. Systemy Wizyjne i Głosowe. Temat projektu: Weryfikacja autorów wypowiedzi na podstawie próbek sygnału mowy. Kraków, 4 czerwca 2009 AiR , EAIiE , AGH. Wprowadzenie. - PowerPoint PPT Presentation

Transcript of Systemy Wizyjne i Głosowe

Page 1: Systemy Wizyjne i Głosowe

Systemy Wizyjne i GłosoweTemat projektu:

 Weryfikacja autorów wypowiedzi na podstawie

próbek sygnału mowy

Maciej MraczekPiotr SzczepanikMichał MrówczyńskiKamil Ciepiela

Kraków, 4 czerwca 2009AiR, EAIiE, AGH

Page 2: Systemy Wizyjne i Głosowe

WprowadzenieZa metodę rozpoznawania uważamy cały tor

przetwarzania i rozpoznawania próbki głosowej. Ogólny algorytm wygląda następująco:

Pobranie próbki

głosowej

Wstępne przetworzenie (np. filtry,

usunięcie ciszy, etc.)

Ekstrakcja cech daną

metodą

Zastosowanie

klasyfikatora

Rezultat rozpoznania:- konkretny

mówca- brak

rozpoznania

Page 3: Systemy Wizyjne i Głosowe

Cele projektuCelem projektu było zaimplementowanie

kilku metod ekstrakcji cech oraz klasyfikacji próbek dźwięku w kontekście utworzonej wcześniej bazy próbek „treningowych”.

Efektem końcowym powinna być możliwość rozpoznania mówcy po wypowiedzeniu zdania „Rozpoznaj kim jestem” przynajmniej jedną z zaimplementowanych metod.

Page 4: Systemy Wizyjne i Głosowe

Wstępne przetwarzanie zastosowane w torze przetwarzania

Wszystkie nagrane próbki poddane zostały normalizacji oraz wycięciu składowej stałej

Page 5: Systemy Wizyjne i Głosowe

Zaimplementowane metody ekstrakcji cech z pobranej próbki dźwięku

FFTLPCMFCC

Page 6: Systemy Wizyjne i Głosowe

FFTFast Fourier Transform – jest to

transformacja sygnału z dziedziny czasu do dziedziny częstotliwości

W projekcie została przetestowana metoda rozpoznawania mówcy poprzez porównanie transformaty sygnału jego głosu z transformatami sygnałów głosów wzorcowych.

Page 7: Systemy Wizyjne i Głosowe

MFCCMFCC czyli Mel-frequency cepstral coefficients jest

to metoda cepstralnych współczynników opartych na skali Mel’a. Stosowana jest powszechnie w systemach rozpoznawania mowy ze względu na dużą skuteczność.

Algorytm1. Z sygnału dźwiękowego robimy dyskretną transformatę Fourier’a2. Powstałe spectrum przeliczamy na skalę Mel’a (używając trójątnego

okna)3. Logarytmujemy każdą częstotliwość na skali Mel’a4. Poddajemy dyskretnej transformacie cosinusowej5. Następnie odwrotna dyskretna transformata Fourier’a6. Amplitudy tak powstałego sygnału to współczynniki MFCC

Page 8: Systemy Wizyjne i Głosowe

Skala Mel’aSkala Mel’a ta została tak stworzona, aby lepiej oddawać

wrażenia słuchowe poprzez wzmocnienie częstotliwości słyszalnych. Dokonujemy tego za pomocą przekształcenia wzorem:

 

Page 9: Systemy Wizyjne i Głosowe

LPCLinear predictive coding jest to algorytm

używany najczęściej do przetwarzania sygnałów dźwiękowych oraz sygnału mowy. W wyniku kodowania otrzymujemy reprezentację sygnału cyfrowego, będącą parametrami modelu predykcji liniowej przetwarzanego sygnału.

Page 10: Systemy Wizyjne i Głosowe

Bardzo dobre osiągi metody LPC związane są z istotą działania ludzkiego aparatu mowy. W budowie aparatu mowy wyróżniamy część oddechową, fonacyjną i artykulacyjną. Przy analizie dźwięku najbardziej interesują nas te dwie ostatnie, ponieważ działanie ich determinuje dźwięk wydawany przez człowieka.

Główną częścią aparatu fonacyjnego jest krtań. Przepływające powietrze wprawia w drżenie struny głosowe, w wyniku czego powstaje tzw. ton krtaniowy. Następnie dźwięk przechodzi przez gardło i usta tworzące układ rezonansowy. Powstaje tam tzw. formant – pasmo częstotliwości uwypuklone w barwie dźwięku. Ostateczne brzmienie głoski formowane jest poprzez język i usta.

LPC analizując mowę wyznacza wspomniane wcześniej formanty. Następnie usuwa je z sygnału pozostawiając tylko charakterystyczne dla każdej głoski dźwięki. Proces ten nazywamy filtrowaniem wstecznym, a sygnał który pozostaje po odjęciu nazywamy rezydułem.

LPC charakterystyka metody

Page 11: Systemy Wizyjne i Głosowe

Metoda najbliższego sąsiedztwa

Zaimplementowane klasyfikatory

Page 12: Systemy Wizyjne i Głosowe

Zaimplementowane klasyfikatoryMetoda alfa-N

Page 13: Systemy Wizyjne i Głosowe

Test poprawności rozpoznawania mówcyTest poprawności rozpoznawania mówcy, który

nie jest w bazie (obcy)Wyznaczanie optymalnej ilości współczynników

liczonych metodą MFCCWyznaczenie optymalnego rzędu metody LPC

Testy

Page 14: Systemy Wizyjne i Głosowe

Testy - Pierwsza metoda – FFT

Page 15: Systemy Wizyjne i Głosowe

Testy - Druga metoda – L{C

2 3 4 5 6 7 810

20

30

40

50

60

70

alpha

%

Wyniko testów zależnie od parametru dist=2.5 dla metody: lpc

Wykrywalność oszustówWykrywalność mówców

Page 16: Systemy Wizyjne i Głosowe

Testy - Druga metoda – LPC

Page 17: Systemy Wizyjne i Głosowe

Testy - Druga metoda – LPC

Rysunek 3 Dla alpha=2, distance=1,5 Rysunek 4 Dla alpha=6, distance=1,5

0 5 10 15 20 25 30 35 40 450

10

20

30

40

50

60Wpływ rzędu LPC na wynik rozpoznania

rząd metody LPC

skut

eczn

ość

rozp

ozna

nia

[%]

test dla próbki z bazytest dla próbki spoza bazy

0 5 10 15 20 25 30 35 40 450

10

20

30

40

50

60

70

80Wpływ rzędu LPC na wynik rozpoznania

rząd metody LPC

skut

eczn

ość

rozp

ozna

nia

[%]

test dla próbki z bazytest dla próbki spoza bazy

Page 18: Systemy Wizyjne i Głosowe

Testy - Trzecia metoda – MFCC

2 3 4 5 6 7 820

30

40

50

60

70

80

90

alpha

%

Wyniko testów zależnie od parametru dist=1.5 dla metody: mfc

Wykrywalność oszustówWykrywalność mówców

Page 19: Systemy Wizyjne i Głosowe

Testy - Trzecia metoda – MFCC

Page 20: Systemy Wizyjne i Głosowe

Testy - Trzecia metoda – MFCC

Dla alpha=2, distance=1,5 Dla alpha=3, distance=1,5

5 10 15 20 25 3030

35

40

45

50

55

60

65

70

75Wpływ ilosci współczynnikow MFCC na wynik rozpoznania

ilość wspolczynnikow

skut

eczn

ość

rozp

ozna

nia

[%]

test dla próbki z bazytest dla próbki spoza bazy

5 10 15 20 25 3010

20

30

40

50

60

70

80Wpływ ilosci współczynnikow MFCC na wynik rozpoznania

ilość wspolczynnikow

skut

eczn

ość

rozp

ozna

nia

[%]

test dla próbki z bazytest dla próbki spoza bazy

Page 21: Systemy Wizyjne i Głosowe

Podsumowanie i wnioski•Najlepszą metodą okazała się MFCC; trochę gorsze rezultaty dała metoda LPC•Metoda FFT nie dała pozytywnych rezultatów – wyniki można zakwalifikować jako losowe•Skuteczność rozpoznawania zależy głównie od parametrów alpha i odległość – jednak ich optymalizacja nie jest taka oczywista – wszystko zależy od tego, co chcemy osiągnąć: wysoki procent rozpoznawania mówców z bazy, czy skuteczne rozpoznawanie mówcy „obcego” (jako „nie wiem”) – chęć wysokich wyników w obu dziedzinach wymaga kompromisów•Możemy również zmieniać parametry związane z poszczególnymi metodami, które również wpływają na jakość rozpoznawania:

• w LPC – rząd metody• w MFCC – ilość współczynników cepstralnych (w MatLabie

dostępnych jest więcej parametrów liczenia współczynników cepstralnych, jednak nie zostały one zgłębione i zbadane przez nas; poza tym można inaczej wyznaczyć wektor opisujący daną próbkę – w naszym przypadku użyto funkcji kmeans)

Page 22: Systemy Wizyjne i Głosowe

Podsumowanie i wnioski•Wyniki testów mogą nie być bardzo obiektywne ze względu na małą liczbę próbek „treningowych” w bazie•Istotne znaczenie może mieć również jakość sprzętu nagrywającego (mikrofon + karta dźwiękowa)•Jako ulepszenie działania naszego toru rozpoznawania mówcy, mogłoby sprawdzić się przemnożenie sygnałów wejściowych przez okno Hamminga

Page 23: Systemy Wizyjne i Głosowe

DZIĘKUJEMY ZA UWAGĘ