Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka...
Transcript of Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka...
Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka polskiego na potrzeby systemu rozpoznawania mowy
Wykonano w ramach projektu: Lingwistyczny warsztat do analizy i rozpoznawania mowy
NCN nr DEC-2011/03/D/ST6/00914
Bartosz Ziółko, Magdalena Igras Katedra Elektroniki
Zespół Przetwarzania Sygnałów
Zespół Przetwarzania Sygnałów
Plan prezentacji
O pracach Zespołu Przetwarzania Sygnałów
System rozpoznawania mowy
Modelowane cechy prozodyczne
Pauzy
Iloczasy fonemów
Kontury intonacyjne
Cechy energetyczne
Sylaby
Modelowanie akcentów i końców zdań
Ironia prozodycznie
Przykłady zastosowania wyników badań
Prace Zespołu Przetwarzania Sygnałów
dsp.agh.edu.pl
System rozpoznawania mowy
=> Interfejsy głosowe
System rozpoznawania mówcy
Przetwarzanie języka naturalnego
=> Systemy dialogowe
Silnik audio dla gier
RAYAV
System automatycznego rozpoznawania mowy polskiej
• Nowa wersja Sarmaty (XI 2013) osiągnęła średnią skuteczność 97,7% w testach na przeszło 5 000 nagranych wypowiedziach.
• W 99,6% przypadków prawidłowa hipoteza była w pierwszej trójce listy najsilniejszych hipotez.
Przepływ danych w systemie AGH
Nagranie
VAD
Mowa
Dla każdej paczki:
Przepływ danych w systemie AGH
parametryzacja:
Segmentacja i partycjonowanie
Wyniki
• Możliwości:
– Dekompozycja Falkowa (18 cech) + DCT
– MFCC – 13 Filtrów + Energia, Pochodna + Druga pochodna + DCT + FeatureWarping => 39 cech
• Modelowanie cech przy użyciu 20-sto elementowych GMM
• Segmentacja równomierna 20ms, z przesunięciem co 10ms
Transkrypcje - ortfon
• Zamiana zapisu ortograficznego na transkrypcję fonetyczną
• 37 klas fonemów podstawowych ( w wersji 2.0: 85 klas fonetycznych)
7
bezpieczeństwo jest bardzo ważne b|e|s|p|j|e|0|e|3|s|t|f|o|j|e|z|t|b|a|r|6|o|v|a|Z|n|e
minister środowiska powiedział ważne rzeczy m|i|3|i|s|t|e|r|5|r|o|d|o|v|i|s|k|a|p|o|v|j|e|X|a|w|v|a|Z|n|e|Z|e|0|y
wnoszę o przerwę w obradach v|n|o|S|e|o|p|S|e|r|v|e|v|o|b|r|a|d|a|x
Niedoskonałości systemu
System automatycznego
rozpoznawania mowy tworzy
bezpośrednie transkrypcje zawartości
akustycznej nagrania
Bez interpunkcji
Bez wielkich liter
Łącznie z nieciągłościami
i sygnałami akustycznymi
niebędącymi mową
Takie transkrypcje są mało czytelne dla użytkownika i mniej
przydatne dla systemów przetwarzania języka naturalnego
Tracone są informacje paralingwistyczne i nielingwistyczne
Wyzwanie: przetwarzanie mowy spontanicznej
• Regularna prozodia
• Brak nieciągłości
• Poprawność składniowa
• ’Ukryta’ interpunkcja
• Nieciągłości
• Częste błędy
Mowa czytana
Mowa spontaniczna
Rodzaje cech w systemach rozpoznawania mowy
Wysokopoziomowe:
• Pauzy
• Intonacja
• Długość głosek
• Energia sygnału
Niskopoziomowe:
• MFCC
• falkowe
• n-gramy
• Zawartość semantyczna
• Szyk zdania
• Reguły gramatyczne
Cechy akustyczne
Cechy językowe
Cecha 1: pauzy Typy pauz akustycznych w nagraniach mowy
• Pauzy ciche (s_p)
• Pauzy oddechowe (b_p)
• Pauzy wypełnione (f_p)
yyy, mmm, hmm, yh
Źródła pauz w mowie
• regularne naturalne pauzy związane z czynnością respiracyjną (b_p)
• nieregularne intencjonalne pauzy, używane celowo jako środek wyrazu, zwłaszcze przez profesjonalnych mówców (s_p)
• nieregularne nieintencjonalne nieciągłości, efekt wahania, niepewności lub krótkiego namysłu (f_p lub s_p)
Analizowany zbiór nagrań
monologi:
• 30 min monologów spontanicznych (prezentacje, przemówienia)
• 30 min tłumaczeń w czasie rzeczywistym
• 60 min wywiadów radiowych
• 15 min mowy czytanej
• Niedoświadczeni i profesjonalni mówcy (łącznie 30 mówców)
Statystyki fraz
Nagrania Ilość
słów/min
Ilość kropek /min
Średnia długość
zdania [s]
Ilość słów w zdaniu
Ilość przecinków /min
Średnia długość frazy [s]
Ilość słów we
frazie
Prezentacje 11 ,9 (24,3)
6,2 (2,4)
10,9 (3,7)
19,6 (5,8)
19,4 (6,0)
3,3 (0,8)
4,4 (1,0)
Tłumaczenia 117,2 (20,1)
6,6 (2,0)
10,0 (3,2)
19,1 (4,7)
14,6 (3,3)
4,3 (1,0)
4,6 (0,8)
Wywiady radiowe
129,7 (29,1)
9,9 (3,3)
6,7 (2,3)
13,9 (3,3)
16,1 (4,2)
2,5 (0,8)
5,4 (0,8)
Średnia 117,6 (23,8)
7,1 (2,8)
9,7 (3,5)
18,2 (5,3)
16,8 (5,1)
3,5 (1,1)
4,7 (0,9)
Pauzy oddechowe
Oddechy w sygnale mowy
Pauzy oddechowe
Średnia fizjologiczna częstość oddechu zmienia się wraz z wiekiem:
• 40-50 oddechów/minutę u noworodków i niemowląt,
• 18-25 u dzieci,
• 12-20 u osób dorosłych.
Stany patologiczne:
• > 35 oddechów/min
• < 8 oddechów/min.
Podczas produkcji mowy: 10,8(3,4) / min
Dystrybucja długości oddechów u poszczególnych mówców
Mówcy
Dłu
go
ść o
de
ech
u
[ms]
Automatyczna detekcja oddechów
1. Normalizacja amplitudy względem średniej energii sygnału
2. Sygnał jest analizowany w obrębie ramek o długości 20 ms z zakładką 10 ms
3. Wskazane zostają regiony sygnału spełniające kryterium czasu, energii i F0:
• lokalna energii sygnału na poziomie 0.05 - 0.4 max. amplitudy sygnału
• przez czas dłuższy niż 150 ms.
• brak F0.
4. Dla wskazanych fragmentów sygnału wyznaczane są wartości energii w poszczególnych pasmach częstotliwościowych transformacji falkowej.
5. Podobieństwo do wzorców liczone jest algorytmem DTW.
F0
energia
Wypełnione pauzy
Proporcje częstości użycia wypełnionych pauz
sygnalizujących interpunkcję
Nagrania #f_p(yyy)/min #f_p(mmm)/min
Prezentacje 6,5(5,5) 0,6(0,9)
Tłumaczenia 5,8(3,5) 0,9(1,0)
Radiowe 7,4(3,6) 1,27(1,14)
Średnia 6,4(4,3) 0,9(1,0)
Automatyczna detekcja wypełnionych pauz
formanty
F0
0 50 100 150 200 250 300 3500
50
100
150
200
0 50 100 150 200 2500
50
100
150
200
250
300
350
400
0 50 100 150 200 250 3000
100
200
300
400
500
600
700
Cecha 2: Długość głoski
Dystrybucja lognormalna długości realizacji przykładowych fonemów:
/a/ /r/
/sz/
2
2)
2(
2
1)(
x
exf
2
2)
2
ln(
22
1)(
x
ex
xf
Długość głosek
Średnie długości i ich odchylenia standardowe
sp l j r ni g d n l_w y t f i mb N u k h p e odziz a rzdzzidrzc ciszs sicza_e_20
40
60
80
100
120
140
160
180
200
220
Phonemes
Mea
n d
ura
tio
ns o
f p
ho
ne
me
s a
nd
th
eir
sta
nd
ard
devia
tio
ns [
ms]
Mapa polskich fonemów
Względna długość
Wzglę
dna e
nerg
ia
Cecha 4: częstotliwość podstawowa (F0)
• Algorytmy: oparte na ZCR, autokorelacji, spectrum; RAPT, YAAPT
• Modelowanie regresją liniową lub wielomianami
0 2 4 6 8 10 12 14 1695
100
105
110
115
120
125
130
dF0
dt
tg α= dF0/dt
α
Mean F0
Max F0
Min F0
F0 [H
z]
czas [ramki]
Modelowanie F0
czas [ramki]
F0 [H
z]
Algorytm segmentacji na sylaby
Detekcja słów w sygnale mowy
Na podstawie wartości progowej oraz wartości średniej, w sygnale znajdujemy fragmenty odpowiadające wyrazom lub połączonym ciągom wyrazów.
Algorytm segmentacji na sylaby (Mermelstein 1975)
Rekurencyjne wywoływanie algorytmu Convex Hull.
Warunek zatrzymania algorytmu:
Długość segmentu < minimalna długość sylaby (80 ms)
Wartość d < wartość progowa
Algorytm segmentacji na sylaby
Procent Delecji / usunięcia/ (d)
Procent Insercji /wstawienia/ (i)
Accuracy ( h - i) / (h + d)
Ins = 2.4%
Del = 4.7%
Acc = 93.0%
Końce zdań
Cechy prozodyczne Cechy funkcjonalne
koniec zdania
pauzy
iloczas
energia
F0
Korelacje pomiędzy pauzami a interpunkcją (mowa spontaniczna)
Różne typy pauz determinujące:
kropki przecinki
Korelacje pomiędzy pauzami a interpunkcją
0
10
20
30
40
50
60
n_p. s_p. f_p. b_p. n_p, s_p, f_p, b_p,
kropki przecinki
czytana
spontaniczna
0 0.5 1 1.5 2 2.5 3 3.50
1000
2000
3000
4000
5000
6000
7000
8000
Zmiana długości głosek na końcach zdań
No o
f occure
nces
0 0.5 1 1.5 2 2.5 3 3.50
100
200
300
400
500
600
700
Duration ratio
Duration ratio
88.5%
Mean:1.54
Zmiana długości głosek na końcach zdań
Model Gaussowski:
Jakość dopasowania
RMSE: 0.0327
0.5 1 1.5 2 2.5 30
0.1
0.2
0.3
0.4
0.5
0.6
0.7
y vs. x
fit 1
2)92.0
68.2(
747.0)(
x
n edf
Względna długość
Pra
wdopod
obie
ństw
o w
ystą
pie
nia
Końca z
dania
2
2)
2(
2
1)(
x
exf
Zmiana długości głosek na końcach zdań
Modelowane prawdopodobieństwo wystąpienia końca zdania
nmj e j s7enaobe j Ze3ek t u regova r t opSezna0y8 t yXe3a l bo f tSyd3 i mj as t ok t u regob l i SSepozna3evymagamj e5 i en7y t u r y0
0.1
0.2
0.3
0.4
0.5
0.6
JPA28
Zmiany energii głosek na końcach zdań
Współczynnik energii
Ilość w
ysta
pie
ń
0 0.5 1 1.5 2 2.5 3 3.50
2000
4000
6000
8000
10000
12000
0 0.5 1 1.5 2 2.5 3 3.50
100
200
300
400
500
mean: 0.6
86.5%
Współczynnik energii
Średnia: 0,6
86,5%
Zmiany energii głosek na końcach zdań
Względna energia
Pra
wdopod
obie
ństw
o w
ystą
pie
nia
Końca z
dania
Zmiany mocy głosek na końcach zdań
Współczynnik mocy
Ilość w
ystą
pie
ń No of
occurrenc
es
0 0.5 1 1.5 2 2.5 3 3.50
2000
4000
6000
8000
10000
12000
0 0.5 1 1.5 2 2.5 3 3.50
50
100
150
200
250
mean: 0.36
99.6%
Współczynnik mocy
99,6%
Średnia: 0,36
Ilość w
ysta
pie
ń
Zmiany mocy głosek na końcach zdań
0 0.5 1 1.5 2 2.50
0.02
0.04
0.06
0.08
0.1
0.12
0.14
y vs. x
fit 1
Względnia moc
Pra
wdopod
obie
ństw
o w
ystą
pie
nia
Końca z
dania
Akcenty
Cechy prozodyczne Cechy funkcjonalne
akcent
iloczas
energia
F0
Accents | phonemes duration
0 0.5 1 1.5 2 2.5 30
0.5
1
1.5
2
2.5
3x 10
4
Względna długość
Ilość w
ystą
pie
ń
Accents | phonemes energy
0 0.5 1 1.5 2 2.5 30
5000
10000
15000
Względna energia
Ilość w
ystą
pie
ń
Accents | phonemes power
0 0.5 1 1.5 2 2.5 30
2000
4000
6000
8000
10000
12000
14000
16000
18000
Względna moc
Ilość w
ystą
pie
ń
Zmiana F0 w miejscach samogłosek akcentowanych
Samogłoska Średnia F0 wszystkich
samogłosek [Hz]
Średnia F0 Akcentowanych samogłosek [Hz]
Zmiana dla akcentowanych [Hz]
'a' 164 170 + 6 'a_' 155 168 +13 'e' 163 173 +10 'e_' 164 171 + 7 'o' 160 162 +2 'u' 170 180 +10 'i' 156 159 +3 'y' 172 180 +8
Podsumowanie
akcenty Końce zdań
ꜛ iloczas
ꜜ energia, moc
ꜜ F0
ꜛ iloczas
ꜛ energia, moc
ꜛ F0
0,9
0,95
1
1,05
1,1
1,15
1,2 duration
energy
power
F0
average
accents
0
0,5
1
1,5
2 duration
energy
power
F0
average
sentence ends
Rozkład cech głosek akcentowanych i końcowych
Względna długość
Wzglę
dna e
nerg
ia
Ironia
• zamaskowana kpina, drwina zawarta w pozornej aprobacie; lekki sarkazm, ujęty w wypowiedź, której zamierzony sens jest odwrotnością dosłownego znaczenia słów
• w powiązaniu z kontekstem
• środek wyrazu, emocja złożona, postawa emocjonalna?
• ton ironiczny jest dodatkową informacją niesioną przez sygnał mowy – reprezentującą postawę emocjonalną wobec wypowiadanej treści
Percepcja ironii
Testy percepcyjne nagrań
oryginalnych
Emocja prezentowana w nagraniu
złość zdziw ironia neutr. smutek radość strach
Ro
zp
ozn
an
ie
złość 75,0 2,7 2,8 1,4 0 1,4 2,7
zdziwienie 0 58,1 15,3 6,9 0 2,7 9,5
ironia 1,4 23,0 66,7 2,8 0 20 6,8
neutralny 0 1,4 2,8 56,9 10,3 5,5 1,4
smutek 2,8 0 1,4 6,9 78,2 0 12,2
radość 1,4 5,4 4,2 2,8 0 32,9 0
strach 2,8 2,7 0 1,4 2,6 0 35,1
nierozpoznane 16,7 6,8 6,9 20,8 9,0 35,6 32,4
Percepcja ironii
Testy percepcyjne nagrań
bez treści
Emocja prezentowana w nagraniu
złość zdziw ironia neutr. smutek radość strach
Ro
zp
ozn
an
ie
złość 30 10 10 5 20 0 0
zdziwienie 0 80 10 0 0 0 0
ironia 20 10 40 15 10 20 10
neutralny 20 0 10 35 30 20 0
smutek 0 0 10 20 30 0 0
radość 10 0 0 10 0 30 0
strach 10 0 10 5 0 10 70
nierozpoznane 10 0 10 10 10 20 20
Cechy prozodyczne ironii
• Kadencja F0, szczególnie w końcowej części frazy
• Większe odchylenie standardowe F0
• Wzrasta iloczas wypowiedzi
• Silniejsze akcentowanie
• Zmiana stosunku iloczasu sąsiadujących sylab w akcentowanym wyrazie
Znaczenie prac badawczych nad środkami prozodycznymi w technologii mowy
System rozpoznawania mowy
Synteza mowy
Interfejsy głosowe, systemy
dialogowe
System rozpoznawania mówcy
Detekcja emocji w mowie
System detekcji oddechu
w sygnale mowy
Systemy wspomagające
szkolenie mówców
Źródło informacji dla modelowania
języka
Cechy biometryczne
Związek z emocjami
Aspekt medyczny
Aspekt szkoleniowy
Dziękujemy za uwagę
{bziolko,migras}@agh.edu.pl
Bibliografia
1. M. Igras, B. Ziółko „Different types of pauses as a source of information
for biometry”, MAVEBA, Florence, 2013
2. M. Igras, B. Ziółko, M. Ziółko ”Length of Phonemes in a Context of Their
Positions in Polish Sentences”, SIGMAP 2013, The International
Conference on Signal Processing and Multimedia Applications,
Reyklavik.
3. M. Igras, B. Ziółko, ”Wavelet method for breath detection in audio
signals”, IEEE ICME, San Jose, 2013.
4. M. Igras, B. Ziółko ”Modelowanie i detekcja oddechu w sygnale
akustycznym”, Modelowanie i Pomiary w Medycynie 2013, Krynica.
5. M. Igras, B. Ziółko ”Rodzaje pauz akustycznych i ich konotacje z
interpunkcją w transkrypcjach mówionego języka polskiego”, Bogactwo
współczesnej polszczyzny, Kraków 2013.
6. M. Igras, B. Ziółko, „Rodzaje pauz akustycznych i ich korelacje z
interpunkcją w transkrypcjach mówionego języka polskiego” w Piotr
Żmigrodzki [red.], Sylwia Przęczek-Kisielak [red.] Bogactwo
współczesnej polszczyzny, Towarzystwo Miłośników Języka Polskiego,
2014.