Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka...

Post on 21-Aug-2020

0 views 0 download

Transcript of Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka...

Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka polskiego na potrzeby systemu rozpoznawania mowy

Wykonano w ramach projektu: Lingwistyczny warsztat do analizy i rozpoznawania mowy

NCN nr DEC-2011/03/D/ST6/00914

Bartosz Ziółko, Magdalena Igras Katedra Elektroniki

Zespół Przetwarzania Sygnałów

Zespół Przetwarzania Sygnałów

Plan prezentacji

O pracach Zespołu Przetwarzania Sygnałów

System rozpoznawania mowy

Modelowane cechy prozodyczne

Pauzy

Iloczasy fonemów

Kontury intonacyjne

Cechy energetyczne

Sylaby

Modelowanie akcentów i końców zdań

Ironia prozodycznie

Przykłady zastosowania wyników badań

Prace Zespołu Przetwarzania Sygnałów

dsp.agh.edu.pl

System rozpoznawania mowy

=> Interfejsy głosowe

System rozpoznawania mówcy

Przetwarzanie języka naturalnego

=> Systemy dialogowe

Silnik audio dla gier

RAYAV

System automatycznego rozpoznawania mowy polskiej

• Nowa wersja Sarmaty (XI 2013) osiągnęła średnią skuteczność 97,7% w testach na przeszło 5 000 nagranych wypowiedziach.

• W 99,6% przypadków prawidłowa hipoteza była w pierwszej trójce listy najsilniejszych hipotez.

Przepływ danych w systemie AGH

Nagranie

VAD

Mowa

Dla każdej paczki:

Przepływ danych w systemie AGH

parametryzacja:

Segmentacja i partycjonowanie

Wyniki

• Możliwości:

– Dekompozycja Falkowa (18 cech) + DCT

– MFCC – 13 Filtrów + Energia, Pochodna + Druga pochodna + DCT + FeatureWarping => 39 cech

• Modelowanie cech przy użyciu 20-sto elementowych GMM

• Segmentacja równomierna 20ms, z przesunięciem co 10ms

Transkrypcje - ortfon

• Zamiana zapisu ortograficznego na transkrypcję fonetyczną

• 37 klas fonemów podstawowych ( w wersji 2.0: 85 klas fonetycznych)

7

bezpieczeństwo jest bardzo ważne b|e|s|p|j|e|0|e|3|s|t|f|o|j|e|z|t|b|a|r|6|o|v|a|Z|n|e

minister środowiska powiedział ważne rzeczy m|i|3|i|s|t|e|r|5|r|o|d|o|v|i|s|k|a|p|o|v|j|e|X|a|w|v|a|Z|n|e|Z|e|0|y

wnoszę o przerwę w obradach v|n|o|S|e|o|p|S|e|r|v|e|v|o|b|r|a|d|a|x

Niedoskonałości systemu

System automatycznego

rozpoznawania mowy tworzy

bezpośrednie transkrypcje zawartości

akustycznej nagrania

Bez interpunkcji

Bez wielkich liter

Łącznie z nieciągłościami

i sygnałami akustycznymi

niebędącymi mową

Takie transkrypcje są mało czytelne dla użytkownika i mniej

przydatne dla systemów przetwarzania języka naturalnego

Tracone są informacje paralingwistyczne i nielingwistyczne

Wyzwanie: przetwarzanie mowy spontanicznej

• Regularna prozodia

• Brak nieciągłości

• Poprawność składniowa

• ’Ukryta’ interpunkcja

• Nieciągłości

• Częste błędy

Mowa czytana

Mowa spontaniczna

Rodzaje cech w systemach rozpoznawania mowy

Wysokopoziomowe:

• Pauzy

• Intonacja

• Długość głosek

• Energia sygnału

Niskopoziomowe:

• MFCC

• falkowe

• n-gramy

• Zawartość semantyczna

• Szyk zdania

• Reguły gramatyczne

Cechy akustyczne

Cechy językowe

Cecha 1: pauzy Typy pauz akustycznych w nagraniach mowy

• Pauzy ciche (s_p)

• Pauzy oddechowe (b_p)

• Pauzy wypełnione (f_p)

yyy, mmm, hmm, yh

Źródła pauz w mowie

• regularne naturalne pauzy związane z czynnością respiracyjną (b_p)

• nieregularne intencjonalne pauzy, używane celowo jako środek wyrazu, zwłaszcze przez profesjonalnych mówców (s_p)

• nieregularne nieintencjonalne nieciągłości, efekt wahania, niepewności lub krótkiego namysłu (f_p lub s_p)

Analizowany zbiór nagrań

monologi:

• 30 min monologów spontanicznych (prezentacje, przemówienia)

• 30 min tłumaczeń w czasie rzeczywistym

• 60 min wywiadów radiowych

• 15 min mowy czytanej

• Niedoświadczeni i profesjonalni mówcy (łącznie 30 mówców)

Statystyki fraz

Nagrania Ilość

słów/min

Ilość kropek /min

Średnia długość

zdania [s]

Ilość słów w zdaniu

Ilość przecinków /min

Średnia długość frazy [s]

Ilość słów we

frazie

Prezentacje 11 ,9 (24,3)

6,2 (2,4)

10,9 (3,7)

19,6 (5,8)

19,4 (6,0)

3,3 (0,8)

4,4 (1,0)

Tłumaczenia 117,2 (20,1)

6,6 (2,0)

10,0 (3,2)

19,1 (4,7)

14,6 (3,3)

4,3 (1,0)

4,6 (0,8)

Wywiady radiowe

129,7 (29,1)

9,9 (3,3)

6,7 (2,3)

13,9 (3,3)

16,1 (4,2)

2,5 (0,8)

5,4 (0,8)

Średnia 117,6 (23,8)

7,1 (2,8)

9,7 (3,5)

18,2 (5,3)

16,8 (5,1)

3,5 (1,1)

4,7 (0,9)

Pauzy oddechowe

Oddechy w sygnale mowy

Pauzy oddechowe

Średnia fizjologiczna częstość oddechu zmienia się wraz z wiekiem:

• 40-50 oddechów/minutę u noworodków i niemowląt,

• 18-25 u dzieci,

• 12-20 u osób dorosłych.

Stany patologiczne:

• > 35 oddechów/min

• < 8 oddechów/min.

Podczas produkcji mowy: 10,8(3,4) / min

Dystrybucja długości oddechów u poszczególnych mówców

Mówcy

Dłu

go

ść o

de

ech

u

[ms]

Automatyczna detekcja oddechów

1. Normalizacja amplitudy względem średniej energii sygnału

2. Sygnał jest analizowany w obrębie ramek o długości 20 ms z zakładką 10 ms

3. Wskazane zostają regiony sygnału spełniające kryterium czasu, energii i F0:

• lokalna energii sygnału na poziomie 0.05 - 0.4 max. amplitudy sygnału

• przez czas dłuższy niż 150 ms.

• brak F0.

4. Dla wskazanych fragmentów sygnału wyznaczane są wartości energii w poszczególnych pasmach częstotliwościowych transformacji falkowej.

5. Podobieństwo do wzorców liczone jest algorytmem DTW.

F0

energia

Wypełnione pauzy

Proporcje częstości użycia wypełnionych pauz

sygnalizujących interpunkcję

Nagrania #f_p(yyy)/min #f_p(mmm)/min

Prezentacje 6,5(5,5) 0,6(0,9)

Tłumaczenia 5,8(3,5) 0,9(1,0)

Radiowe 7,4(3,6) 1,27(1,14)

Średnia 6,4(4,3) 0,9(1,0)

Automatyczna detekcja wypełnionych pauz

formanty

F0

0 50 100 150 200 250 300 3500

50

100

150

200

0 50 100 150 200 2500

50

100

150

200

250

300

350

400

0 50 100 150 200 250 3000

100

200

300

400

500

600

700

Cecha 2: Długość głoski

Dystrybucja lognormalna długości realizacji przykładowych fonemów:

/a/ /r/

/sz/

2

2)

2(

2

1)(

x

exf

2

2)

2

ln(

22

1)(

x

ex

xf

Długość głosek

Średnie długości i ich odchylenia standardowe

sp l j r ni g d n l_w y t f i mb N u k h p e odziz a rzdzzidrzc ciszs sicza_e_20

40

60

80

100

120

140

160

180

200

220

Phonemes

Mea

n d

ura

tio

ns o

f p

ho

ne

me

s a

nd

th

eir

sta

nd

ard

devia

tio

ns [

ms]

Mapa polskich fonemów

Względna długość

Wzglę

dna e

nerg

ia

Cecha 4: częstotliwość podstawowa (F0)

• Algorytmy: oparte na ZCR, autokorelacji, spectrum; RAPT, YAAPT

• Modelowanie regresją liniową lub wielomianami

0 2 4 6 8 10 12 14 1695

100

105

110

115

120

125

130

dF0

dt

tg α= dF0/dt

α

Mean F0

Max F0

Min F0

F0 [H

z]

czas [ramki]

Modelowanie F0

czas [ramki]

F0 [H

z]

Algorytm segmentacji na sylaby

Detekcja słów w sygnale mowy

Na podstawie wartości progowej oraz wartości średniej, w sygnale znajdujemy fragmenty odpowiadające wyrazom lub połączonym ciągom wyrazów.

Algorytm segmentacji na sylaby (Mermelstein 1975)

Rekurencyjne wywoływanie algorytmu Convex Hull.

Warunek zatrzymania algorytmu:

Długość segmentu < minimalna długość sylaby (80 ms)

Wartość d < wartość progowa

Algorytm segmentacji na sylaby

Procent Delecji / usunięcia/ (d)

Procent Insercji /wstawienia/ (i)

Accuracy ( h - i) / (h + d)

Ins = 2.4%

Del = 4.7%

Acc = 93.0%

Końce zdań

Cechy prozodyczne Cechy funkcjonalne

koniec zdania

pauzy

iloczas

energia

F0

Korelacje pomiędzy pauzami a interpunkcją (mowa spontaniczna)

Różne typy pauz determinujące:

kropki przecinki

Korelacje pomiędzy pauzami a interpunkcją

0

10

20

30

40

50

60

n_p. s_p. f_p. b_p. n_p, s_p, f_p, b_p,

kropki przecinki

czytana

spontaniczna

0 0.5 1 1.5 2 2.5 3 3.50

1000

2000

3000

4000

5000

6000

7000

8000

Zmiana długości głosek na końcach zdań

No o

f occure

nces

0 0.5 1 1.5 2 2.5 3 3.50

100

200

300

400

500

600

700

Duration ratio

Duration ratio

88.5%

Mean:1.54

Zmiana długości głosek na końcach zdań

Model Gaussowski:

Jakość dopasowania

RMSE: 0.0327

0.5 1 1.5 2 2.5 30

0.1

0.2

0.3

0.4

0.5

0.6

0.7

y vs. x

fit 1

2)92.0

68.2(

747.0)(

x

n edf

Względna długość

Pra

wdopod

obie

ństw

o w

ystą

pie

nia

Końca z

dania

2

2)

2(

2

1)(

x

exf

Zmiana długości głosek na końcach zdań

Modelowane prawdopodobieństwo wystąpienia końca zdania

nmj e j s7enaobe j Ze3ek t u regova r t opSezna0y8 t yXe3a l bo f tSyd3 i mj as t ok t u regob l i SSepozna3evymagamj e5 i en7y t u r y0

0.1

0.2

0.3

0.4

0.5

0.6

JPA28

Zmiany energii głosek na końcach zdań

Współczynnik energii

Ilość w

ysta

pie

ń

0 0.5 1 1.5 2 2.5 3 3.50

2000

4000

6000

8000

10000

12000

0 0.5 1 1.5 2 2.5 3 3.50

100

200

300

400

500

mean: 0.6

86.5%

Współczynnik energii

Średnia: 0,6

86,5%

Zmiany energii głosek na końcach zdań

Względna energia

Pra

wdopod

obie

ństw

o w

ystą

pie

nia

Końca z

dania

Zmiany mocy głosek na końcach zdań

Współczynnik mocy

Ilość w

ystą

pie

ń No of

occurrenc

es

0 0.5 1 1.5 2 2.5 3 3.50

2000

4000

6000

8000

10000

12000

0 0.5 1 1.5 2 2.5 3 3.50

50

100

150

200

250

mean: 0.36

99.6%

Współczynnik mocy

99,6%

Średnia: 0,36

Ilość w

ysta

pie

ń

Zmiany mocy głosek na końcach zdań

0 0.5 1 1.5 2 2.50

0.02

0.04

0.06

0.08

0.1

0.12

0.14

y vs. x

fit 1

Względnia moc

Pra

wdopod

obie

ństw

o w

ystą

pie

nia

Końca z

dania

Akcenty

Cechy prozodyczne Cechy funkcjonalne

akcent

iloczas

energia

F0

Accents | phonemes duration

0 0.5 1 1.5 2 2.5 30

0.5

1

1.5

2

2.5

3x 10

4

Względna długość

Ilość w

ystą

pie

ń

Accents | phonemes energy

0 0.5 1 1.5 2 2.5 30

5000

10000

15000

Względna energia

Ilość w

ystą

pie

ń

Accents | phonemes power

0 0.5 1 1.5 2 2.5 30

2000

4000

6000

8000

10000

12000

14000

16000

18000

Względna moc

Ilość w

ystą

pie

ń

Zmiana F0 w miejscach samogłosek akcentowanych

Samogłoska Średnia F0 wszystkich

samogłosek [Hz]

Średnia F0 Akcentowanych samogłosek [Hz]

Zmiana dla akcentowanych [Hz]

'a' 164 170 + 6 'a_' 155 168 +13 'e' 163 173 +10 'e_' 164 171 + 7 'o' 160 162 +2 'u' 170 180 +10 'i' 156 159 +3 'y' 172 180 +8

Podsumowanie

akcenty Końce zdań

ꜛ iloczas

ꜜ energia, moc

ꜜ F0

ꜛ iloczas

ꜛ energia, moc

ꜛ F0

0,9

0,95

1

1,05

1,1

1,15

1,2 duration

energy

power

F0

average

accents

0

0,5

1

1,5

2 duration

energy

power

F0

average

sentence ends

Rozkład cech głosek akcentowanych i końcowych

Względna długość

Wzglę

dna e

nerg

ia

Ironia

• zamaskowana kpina, drwina zawarta w pozornej aprobacie; lekki sarkazm, ujęty w wypowiedź, której zamierzony sens jest odwrotnością dosłownego znaczenia słów

• w powiązaniu z kontekstem

• środek wyrazu, emocja złożona, postawa emocjonalna?

• ton ironiczny jest dodatkową informacją niesioną przez sygnał mowy – reprezentującą postawę emocjonalną wobec wypowiadanej treści

Percepcja ironii

Testy percepcyjne nagrań

oryginalnych

Emocja prezentowana w nagraniu

złość zdziw ironia neutr. smutek radość strach

Ro

zp

ozn

an

ie

złość 75,0 2,7 2,8 1,4 0 1,4 2,7

zdziwienie 0 58,1 15,3 6,9 0 2,7 9,5

ironia 1,4 23,0 66,7 2,8 0 20 6,8

neutralny 0 1,4 2,8 56,9 10,3 5,5 1,4

smutek 2,8 0 1,4 6,9 78,2 0 12,2

radość 1,4 5,4 4,2 2,8 0 32,9 0

strach 2,8 2,7 0 1,4 2,6 0 35,1

nierozpoznane 16,7 6,8 6,9 20,8 9,0 35,6 32,4

Percepcja ironii

Testy percepcyjne nagrań

bez treści

Emocja prezentowana w nagraniu

złość zdziw ironia neutr. smutek radość strach

Ro

zp

ozn

an

ie

złość 30 10 10 5 20 0 0

zdziwienie 0 80 10 0 0 0 0

ironia 20 10 40 15 10 20 10

neutralny 20 0 10 35 30 20 0

smutek 0 0 10 20 30 0 0

radość 10 0 0 10 0 30 0

strach 10 0 10 5 0 10 70

nierozpoznane 10 0 10 10 10 20 20

Cechy prozodyczne ironii

• Kadencja F0, szczególnie w końcowej części frazy

• Większe odchylenie standardowe F0

• Wzrasta iloczas wypowiedzi

• Silniejsze akcentowanie

• Zmiana stosunku iloczasu sąsiadujących sylab w akcentowanym wyrazie

Znaczenie prac badawczych nad środkami prozodycznymi w technologii mowy

System rozpoznawania mowy

Synteza mowy

Interfejsy głosowe, systemy

dialogowe

System rozpoznawania mówcy

Detekcja emocji w mowie

System detekcji oddechu

w sygnale mowy

Systemy wspomagające

szkolenie mówców

Źródło informacji dla modelowania

języka

Cechy biometryczne

Związek z emocjami

Aspekt medyczny

Aspekt szkoleniowy

Dziękujemy za uwagę

{bziolko,migras}@agh.edu.pl

Bibliografia

1. M. Igras, B. Ziółko „Different types of pauses as a source of information

for biometry”, MAVEBA, Florence, 2013

2. M. Igras, B. Ziółko, M. Ziółko ”Length of Phonemes in a Context of Their

Positions in Polish Sentences”, SIGMAP 2013, The International

Conference on Signal Processing and Multimedia Applications,

Reyklavik.

3. M. Igras, B. Ziółko, ”Wavelet method for breath detection in audio

signals”, IEEE ICME, San Jose, 2013.

4. M. Igras, B. Ziółko ”Modelowanie i detekcja oddechu w sygnale

akustycznym”, Modelowanie i Pomiary w Medycynie 2013, Krynica.

5. M. Igras, B. Ziółko ”Rodzaje pauz akustycznych i ich konotacje z

interpunkcją w transkrypcjach mówionego języka polskiego”, Bogactwo

współczesnej polszczyzny, Kraków 2013.

6. M. Igras, B. Ziółko, „Rodzaje pauz akustycznych i ich korelacje z

interpunkcją w transkrypcjach mówionego języka polskiego” w Piotr

Żmigrodzki [red.], Sylwia Przęczek-Kisielak [red.] Bogactwo

współczesnej polszczyzny, Towarzystwo Miłośników Języka Polskiego,

2014.