Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... ·...
Transcript of Biometryczna Identyfikacja Tożsamościzbum.ia.pw.edu.pl/PL/dydaktyka/BIT/PUBLIC/ZIMA... ·...
Biometryczna Identyfikacja Tożsamości
Biometryczna Identyfikacja TożsamościWykład 6: Biometria głosu
Adam Czajka
Wykład na Wydziale Elektroniki i Technik InformacyjnychPolitechniki Warszawskiej
Semestr zimowy 2015/16
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 1/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Przetwarzanie mowyRysunek: Adam Czajka, maj 2009
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 2/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Przetwarzanie mowyRysunek: Adam Czajka, maj 2009
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 3/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Krótka historia
1. 1960, Gunnar Fant, Szwecja• pierwszy model procesu wytwarzania mowy (na bazie zdjęć
rentgenowskich w trakcie mówienia)
2. 1970, Joseph Perkell, MIT, USA• uszczegółowienie modeli – ruchome zdjęcia rentgenowskie
3. 1967–1985, IBM ResearchLaboratory, San Jose, USA
• TASS-II/III(1961-67/1967–70)dwudźwięki
• TASS-IV(1980–1985)synteza mowy
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 4/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Krótka historia
4. 1977, Texas Instruments, MITRE, US Air Force, USA• prototyp pierwszego systemu rozpoznawania mówiącego• testy na bazie pomiarów od 209 osób
5. 1977, Matsimi Suzuki, Fuji Xerox, Japonia• pierwszy opis (i patent) automatycznego systemu
rozpoznawania mówiącego
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 5/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Warianty metody
1. Ustalonej treści (ang. fixed-text)• rejestracja i uwierzytelnianie na podstawie tego samego,
ustalonego tekstu (hasła)• tekst może być jednocześnie hasłem• łatwość oszustwa po nagraniu/skopiowaniu tekstu
2. Zależne od treści (ang. text-dependent, lub fixed-phrase)• uwierzytelnianie na podstawie tekstu podanego przez system
(np. odczytanie cyfr w zadanej kolejności)• łatwość oszustwa po nagraniu/skopiowaniu części tekstu
wystarczających do złożenia całej wypowiedzi
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 6/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Warianty metody
3. Niezależne od treści (ang. text-independent, lubunconstrained-phrase)
• wybór tekstu pozostawiany użytkownikowi• oszustwo wymaga konstrukcji syntezatora mowy dla danego
użytkownika
4. Konwersacyjne (ang. conversational)• ukrywanie tajnej treści w wypowiedziach – analiza
semantyczna treści• łączenie rozpoznawania mówiącego z rozpoznawaniem mowy• oszustwo wymaga konstrukcji syntezatora mowy dla danego
użytkownika oraz znajomości tajnych treści
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 7/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wstępne przetwarzanie sygnałów mowy
Wykład 6: Biometria głosuWstępne przetwarzanie sygnałów mowyWyznaczanie cech biometrycznych na podstawie mowy
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 8/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wstępne przetwarzanie sygnałów mowy
1. Filtracja
1. Filtr preemfazy• filtry o skończonej odpowiedzi impulsowej
(ang. Finite Impulse Response, FIR)
s′n =
N−1∑k=0
aksn−k, n = 0, . . . , N − 1
2. Najczęściej FIR pierwszego rzędu: a0 = 1, a1 ∈ 〈−1,−0.9〉,an = 0 dla n > 1
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 9/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wstępne przetwarzanie sygnałów mowy
2. Detekcja głosu i podział na segmenty
1. Detekcja granic cisza-mowa-cisza, detekcja części dźwięcznychi bezdźwięcznych
2. Podział sygnału na L bloków o długości K (z możliwościąnakładania się bloków)
s′′k;l = s′k+Ml, k = 0, . . . ,K − 1, l = 0, . . . , L− 1
gdzie M = K gdy bloki nie nakładają się, lub M 6= K wpozostałych przypadkach.
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 10/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wstępne przetwarzanie sygnałów mowy
3. Minimalizacja nieciągłości na granicy bloków
Okienkowanie sygnału:
s′′k;l = s′′k;lwk, l = 0, . . . , L− 1
gdzie
wk = α− (1− α) cos(2πk
K
)jest rodziną funkcji okna oraz α ∈ (0, 1)
α = 0.5: okno Hannaα = 0.54: okno Hamminga
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 11/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wstępne przetwarzanie sygnałów mowy
4. Reprezentacja sygnału1. W dziedzinie czasu: wykres sygnału lub energii sygnału2. W dziedzinie częstotliwości (widmo częstotliwościowe)3. Jednocześnie w dziedzinie czasu i częstotliwości: spektrogram
(ang. voiceprint, voicegram, spectral waterfall, ...)
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 12/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Wykład 6: Biometria głosuWstępne przetwarzanie sygnałów mowyWyznaczanie cech biometrycznych na podstawie mowy
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 13/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Cechy mówiącego
Uproszczony schemat aparatu mowy człowieka
Formanty:częstotliwościcharakteryzującetor akustyczny
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 14/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Ciekawy eksperymentAlvin Lucier, “I am sitting in a room”, 1970
I am sitting in a room different from the one you are innow. I am recording the sound of my speaking voice andI am going to play it back into the room again and againuntil the resonant frequencies of the room reinforcethemselves so that any semblance of my speech, withperhaps the exception of rhythm, is destroyed.
What you will hear, then, are the natural resonantfrequencies of the room articulated by speech. I regardthis activity not so much as a demonstration of a physicalfact, but more as a way to smooth out any irregularitiesmy speech might have.
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 15/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Estymacja cech w dziedzinie czasu
1. Predykcja liniowa (LP)• modelowanie: wyrażenie próbki dźwięku jako liniowej
kombinacji próbek poprzednich (modele autoregresyjne)
sn =
M∑m=1
amsn−m + en
gdzie M – rząd modelu, e – szum o stałej wariancji; wrozpoznawaniu mowy e reprezentuje sygnał pobudzenia(dźwięk strun głosowych)
• cechy sygnału: współczynniki am (charakterystyka formantów)• wyznaczanie cech: minimalizacja błędu średniokwadratowego
odległości pomiędzy s i s (wykorzystanie “odległości”Itakura-Saito)
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 16/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Estymacja cech w dziedzinie czasu
2. Analiza składowych niezależnych(ang. Independent Component Analysis, ICA)
• założenie: mowa jest liniową superpozycją niezależnychstatystycznie “źródeł” sygnału
• zadanie: znaleźć “źródła” oraz sposób superpozycji “źródeł”
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 17/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Analiza składowych niezależnychPrzykład superpozycji obrazów
Rysunek: Adam Czajka, kwiecień 2012
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 18/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Analiza składowych niezależnychPrzykład superpozycji obrazów
Rysunek: Adam Czajka, kwiecień 2012
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 19/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Analiza składowych niezależnychPrzykład superpozycji obrazów
Rysunek: Adam Czajka, kwiecień 2012
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 20/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Analiza składowych niezależnychPrzykład superpozycji obrazów
Rysunek: Adam Czajka, kwiecień 2012
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 21/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Analiza składowych niezależnychPrzykład superpozycji i separacji dźwięku (tzw. cocktail party problem)
Źródło przykładu: Politechnika w Helsinkach, http://research.ics.tkk.fi
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 22/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Analiza składowych niezależnych
1. Model ICAy(t) = As(t) + e(t)
gdzies(t) = [s1(t), . . . , sm(t)]T
wektor m niezależnych statystycznie i nieznanych źródeł,
y(t) = [y1(t), . . . , yn(t)]T
wektor n obserwacji y (liniowa mikstura źródeł s), natomiaste(t) jest gaussowskim szumem (w modelu uproszczonymrezygnuje się z szumu)
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 23/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Analiza składowych niezależnych
2. Zadanie– znaleźć s (oraz A) mając dane jedynie y i m
3. Założenia ICA– niegaussowskie źródła, lub co najwyżej jedno gaussowskie w
modelu uproszczonym– zwykle n ≥ m (liczba niezależnych obserwacji nie mniejsza niż
liczba niezależnych źródeł)– zadana wariancja źródeł, np. jednostkowa (niejednoznaczność:
poszukiwane zarówno s jak i A)
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 24/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Analiza składowych niezależnychZałożenia i interpretacja w rozpoznawaniu mówiącego
1. Dana (zakładana) jest liczba “źródeł”
2. Różne próbki głosu osoby dostarczają różnych obserwacji
3. Dopuszczamy rozkład normalny co najwyżej jednego “źródła”(dla modelu uproszczonego)
4. Cechy mówiącego (toru głosowego): współczynniki liniowejsuperpozycji źródeł (macierz A)
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 25/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Estymacja cech w dziedzinie częstotliwości
1. Współczynniki mocy na bazie widma Fouriera
2. Współczynniki Fouriera wyrażone w tzw. mel-skali
3. Selekcja częstotliwości (czyli współczynników Fouriera) zapomocą filtrów trójkątnych
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 26/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Mel-skala: prosty ekesperyment
Rysunek: Adam Czajka, grudzień 2012
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 27/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Mel-skala
1. Nieliniowa zmiana częstotliwości, np.:
fmel = 2595 log(1 + f/700)
2. Subiektywna ocena odległości pomiędzy dźwiękami popartadoświadczeniami (“mel” od słowa “melodia”)
3. Uważa się, iż mel-skala lepiej niż skala liniowa odzwierciedlacharakterystykę słuchu ludzkiego
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 28/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Przykładowa zależnośćmiędzy skalą liniową i mel-skalą
Rysunek: Adam Czajka, grudzień 2012
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 29/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Estymacja cech w dziedzinie cepstralnejRozplot homomorficzny
1. Załóżmy, że obserwowany sygnał mowy y jest splotempobudzenia x i odpowiedzi impulsowej h toru głosowego
y(n) =
∞∑k=−∞
x(k)h(n− k)
lub w dziedzinie częstotliwości
Y (ω) = X(ω)H(ω)
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 30/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Estymacja cech w dziedzinie cepstralnejRozplot homomorficzny
2. Obliczając logarytm obu stron poprzedniego równania orazwyznaczając odwrotną transformatę Fouriera otrzymujemytzw. reprezentację cepstralną sygnału (lub krótko: cepstrum,anagram słowa “spectrum”):
DFT−1(log10
(Y (ω)
))=
DFT−1(log10
(X(ω)H(ω)
))=
DFT−1(log10
(X(ω)
)+ log10
(H(ω)
))DFT−1
(log10
(X(ω)
))+DFT−1
(log10
(H(ω)
))c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 31/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Estymacja cech w dziedzinie cepstralnejRozplot homomorficzny
3. Rodzaje cepstrum• cepstrum rzeczywiste (widma mocy):
RC(y) = DFT−1(log10
∣∣DFT(y)∣∣)
• cepstrum zespolone:
CC(y) = DFT−1(log10
(DFT(y)
))• mel-cepstrum zespolone:
MFCC(y) = DFT−1(log10
(MF(DFT(y)
)))gdzie MFC oznacza operację przekształcającą częstotliwoścido mel-skali
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 32/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Estymacja cech w dziedzinie cepstralnejWyznaczanie porównywanie cech
4. Wyznaczanie cech mówiącego• okienkowanie (najczęściej filtrami trójkątnymi): cepstrum
zespolone odpowiedzi toru głosowego skupione jest wpoczątkowych elementach reprezentacji
• typowe cechy: współczynniki cepstralne (ang. CepstralCoefficients, CC) lub współczynniki mel-cepstralne (ang. MelFrequency Cepstral Coefficients, MFCC) odpowiedzi torugłosowego
5. Porównanie cech: najczęściej ważona odległość euklidesowa
6. Dodatkowe przetwarzanie reprezentacji cepstralnych (jeślizasadne)
• wyznaczanie widma (typowo DFT) oraz wykonanie operacjiodwrotnej do logarytmowania osobno dla pobudzenia i dlaodpowiedzi toru głosowego ⇒ otrzymujemy widmo pobudzeniaoraz widmo toru głosowego
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 33/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Estymacja cech w dziedzinie cepstralnejWyznaczanie porównywanie cech
4. Wyznaczanie cech mówiącego• okienkowanie (najczęściej filtrami trójkątnymi): cepstrum
zespolone odpowiedzi toru głosowego skupione jest wpoczątkowych elementach reprezentacji
• typowe cechy: współczynniki cepstralne (ang. CepstralCoefficients, CC) lub współczynniki mel-cepstralne (ang. MelFrequency Cepstral Coefficients, MFCC) odpowiedzi torugłosowego
5. Porównanie cech: najczęściej ważona odległość euklidesowa6. Dodatkowe przetwarzanie reprezentacji cepstralnych (jeśli
zasadne)• wyznaczanie widma (typowo DFT) oraz wykonanie operacji
odwrotnej do logarytmowania osobno dla pobudzenia i dlaodpowiedzi toru głosowego ⇒ otrzymujemy widmo pobudzeniaoraz widmo toru głosowego
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 33/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Estymacja cech w dziedzinie cepstralnejPrzykład
Rysunek: Adam Czajka, październik 2014
Czas (s)0 1 2 3 4 5 6 7 8 9 10
-0.6
-0.4
-0.2
0
0.2
0.4
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 34/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Estymacja cech w dziedzinie cepstralnejPrzykład
Rysunek: Adam Czajka, październik 2014
×105
0 0.5 1 1.5 2 2.50
50
100
150
200
250
300Widmo amplitudowe
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 35/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Estymacja cech w dziedzinie cepstralnejPrzykład
Rysunek: Adam Czajka, październik 2014
×105
0 0.5 1 1.5 2 2.5-5
-4
-3
-2
-1
0
1
2
3Logarytm widma amplitudowego
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 36/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Estymacja cech w dziedzinie cepstralnejPrzykład
Rysunek: Adam Czajka, październik 2014
Próbki ×105
0 0.5 1 1.5 2-0.03
-0.02
-0.01
0
0.01
0.02
0.03Reprezentacja cepstralna
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 37/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Wyznaczanie cech biometrycznych na podstawie mowy
Estymacja w dziedzinie cepstralnejSchemat działania
Rysunek: Adam Czajka, grudzień 2012
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 38/39
Biometryczna Identyfikacja Tożsamości
Wykład 6: Biometria głosu
Przykładowe pytanie egzaminacyjne
Formanty:
1. charakteryzują tor akustyczny
2. to współczynniki modelu autoregresyjnego
3. to współczynniki mel-cepstrum odpowiedzi toru głosowego
4. to komponenty wyznaczone przez analizę składowychniezależnych
c© Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 39/39