Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka...

54
Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka polskiego na potrzeby systemu rozpoznawania mowy Wykonano w ramach projektu: Lingwistyczny warsztat do analizy i rozpoznawania mowy NCN nr DEC-2011/03/D/ST6/00914 Bartosz Ziółko, Magdalena Igras Katedra Elektroniki Zespół Przetwarzania Sygnałów Zespół Przetwarzania Sygnałów

Transcript of Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka...

Page 1: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka polskiego na potrzeby systemu rozpoznawania mowy

Wykonano w ramach projektu: Lingwistyczny warsztat do analizy i rozpoznawania mowy

NCN nr DEC-2011/03/D/ST6/00914

Bartosz Ziółko, Magdalena Igras Katedra Elektroniki

Zespół Przetwarzania Sygnałów

Zespół Przetwarzania Sygnałów

Page 2: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Plan prezentacji

O pracach Zespołu Przetwarzania Sygnałów

System rozpoznawania mowy

Modelowane cechy prozodyczne

Pauzy

Iloczasy fonemów

Kontury intonacyjne

Cechy energetyczne

Sylaby

Modelowanie akcentów i końców zdań

Ironia prozodycznie

Przykłady zastosowania wyników badań

Page 3: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Prace Zespołu Przetwarzania Sygnałów

dsp.agh.edu.pl

System rozpoznawania mowy

=> Interfejsy głosowe

System rozpoznawania mówcy

Przetwarzanie języka naturalnego

=> Systemy dialogowe

Silnik audio dla gier

RAYAV

Page 4: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

System automatycznego rozpoznawania mowy polskiej

• Nowa wersja Sarmaty (XI 2013) osiągnęła średnią skuteczność 97,7% w testach na przeszło 5 000 nagranych wypowiedziach.

• W 99,6% przypadków prawidłowa hipoteza była w pierwszej trójce listy najsilniejszych hipotez.

Page 5: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Przepływ danych w systemie AGH

Nagranie

VAD

Mowa

Dla każdej paczki:

Page 6: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Przepływ danych w systemie AGH

parametryzacja:

Segmentacja i partycjonowanie

Wyniki

• Możliwości:

– Dekompozycja Falkowa (18 cech) + DCT

– MFCC – 13 Filtrów + Energia, Pochodna + Druga pochodna + DCT + FeatureWarping => 39 cech

• Modelowanie cech przy użyciu 20-sto elementowych GMM

• Segmentacja równomierna 20ms, z przesunięciem co 10ms

Page 7: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Transkrypcje - ortfon

• Zamiana zapisu ortograficznego na transkrypcję fonetyczną

• 37 klas fonemów podstawowych ( w wersji 2.0: 85 klas fonetycznych)

7

bezpieczeństwo jest bardzo ważne b|e|s|p|j|e|0|e|3|s|t|f|o|j|e|z|t|b|a|r|6|o|v|a|Z|n|e

minister środowiska powiedział ważne rzeczy m|i|3|i|s|t|e|r|5|r|o|d|o|v|i|s|k|a|p|o|v|j|e|X|a|w|v|a|Z|n|e|Z|e|0|y

wnoszę o przerwę w obradach v|n|o|S|e|o|p|S|e|r|v|e|v|o|b|r|a|d|a|x

Page 8: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Niedoskonałości systemu

System automatycznego

rozpoznawania mowy tworzy

bezpośrednie transkrypcje zawartości

akustycznej nagrania

Bez interpunkcji

Bez wielkich liter

Łącznie z nieciągłościami

i sygnałami akustycznymi

niebędącymi mową

Takie transkrypcje są mało czytelne dla użytkownika i mniej

przydatne dla systemów przetwarzania języka naturalnego

Tracone są informacje paralingwistyczne i nielingwistyczne

Page 9: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Wyzwanie: przetwarzanie mowy spontanicznej

• Regularna prozodia

• Brak nieciągłości

• Poprawność składniowa

• ’Ukryta’ interpunkcja

• Nieciągłości

• Częste błędy

Mowa czytana

Mowa spontaniczna

Page 10: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Rodzaje cech w systemach rozpoznawania mowy

Wysokopoziomowe:

• Pauzy

• Intonacja

• Długość głosek

• Energia sygnału

Niskopoziomowe:

• MFCC

• falkowe

• n-gramy

• Zawartość semantyczna

• Szyk zdania

• Reguły gramatyczne

Cechy akustyczne

Cechy językowe

Page 11: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Cecha 1: pauzy Typy pauz akustycznych w nagraniach mowy

• Pauzy ciche (s_p)

• Pauzy oddechowe (b_p)

• Pauzy wypełnione (f_p)

yyy, mmm, hmm, yh

Page 12: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Źródła pauz w mowie

• regularne naturalne pauzy związane z czynnością respiracyjną (b_p)

• nieregularne intencjonalne pauzy, używane celowo jako środek wyrazu, zwłaszcze przez profesjonalnych mówców (s_p)

• nieregularne nieintencjonalne nieciągłości, efekt wahania, niepewności lub krótkiego namysłu (f_p lub s_p)

Page 13: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Analizowany zbiór nagrań

monologi:

• 30 min monologów spontanicznych (prezentacje, przemówienia)

• 30 min tłumaczeń w czasie rzeczywistym

• 60 min wywiadów radiowych

• 15 min mowy czytanej

• Niedoświadczeni i profesjonalni mówcy (łącznie 30 mówców)

Page 14: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Statystyki fraz

Nagrania Ilość

słów/min

Ilość kropek /min

Średnia długość

zdania [s]

Ilość słów w zdaniu

Ilość przecinków /min

Średnia długość frazy [s]

Ilość słów we

frazie

Prezentacje 11 ,9 (24,3)

6,2 (2,4)

10,9 (3,7)

19,6 (5,8)

19,4 (6,0)

3,3 (0,8)

4,4 (1,0)

Tłumaczenia 117,2 (20,1)

6,6 (2,0)

10,0 (3,2)

19,1 (4,7)

14,6 (3,3)

4,3 (1,0)

4,6 (0,8)

Wywiady radiowe

129,7 (29,1)

9,9 (3,3)

6,7 (2,3)

13,9 (3,3)

16,1 (4,2)

2,5 (0,8)

5,4 (0,8)

Średnia 117,6 (23,8)

7,1 (2,8)

9,7 (3,5)

18,2 (5,3)

16,8 (5,1)

3,5 (1,1)

4,7 (0,9)

Page 15: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe
Page 16: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Pauzy oddechowe

Oddechy w sygnale mowy

Page 17: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Pauzy oddechowe

Średnia fizjologiczna częstość oddechu zmienia się wraz z wiekiem:

• 40-50 oddechów/minutę u noworodków i niemowląt,

• 18-25 u dzieci,

• 12-20 u osób dorosłych.

Stany patologiczne:

• > 35 oddechów/min

• < 8 oddechów/min.

Podczas produkcji mowy: 10,8(3,4) / min

Page 18: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Dystrybucja długości oddechów u poszczególnych mówców

Mówcy

Dłu

go

ść o

de

ech

u

[ms]

Page 19: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Automatyczna detekcja oddechów

1. Normalizacja amplitudy względem średniej energii sygnału

2. Sygnał jest analizowany w obrębie ramek o długości 20 ms z zakładką 10 ms

3. Wskazane zostają regiony sygnału spełniające kryterium czasu, energii i F0:

• lokalna energii sygnału na poziomie 0.05 - 0.4 max. amplitudy sygnału

• przez czas dłuższy niż 150 ms.

• brak F0.

4. Dla wskazanych fragmentów sygnału wyznaczane są wartości energii w poszczególnych pasmach częstotliwościowych transformacji falkowej.

5. Podobieństwo do wzorców liczone jest algorytmem DTW.

F0

energia

Page 20: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Wypełnione pauzy

Proporcje częstości użycia wypełnionych pauz

sygnalizujących interpunkcję

Nagrania #f_p(yyy)/min #f_p(mmm)/min

Prezentacje 6,5(5,5) 0,6(0,9)

Tłumaczenia 5,8(3,5) 0,9(1,0)

Radiowe 7,4(3,6) 1,27(1,14)

Średnia 6,4(4,3) 0,9(1,0)

Page 21: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Automatyczna detekcja wypełnionych pauz

formanty

F0

Page 22: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

0 50 100 150 200 250 300 3500

50

100

150

200

0 50 100 150 200 2500

50

100

150

200

250

300

350

400

0 50 100 150 200 250 3000

100

200

300

400

500

600

700

Cecha 2: Długość głoski

Dystrybucja lognormalna długości realizacji przykładowych fonemów:

/a/ /r/

/sz/

2

2)

2(

2

1)(

x

exf

2

2)

2

ln(

22

1)(

x

ex

xf

Page 23: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Długość głosek

Średnie długości i ich odchylenia standardowe

sp l j r ni g d n l_w y t f i mb N u k h p e odziz a rzdzzidrzc ciszs sicza_e_20

40

60

80

100

120

140

160

180

200

220

Phonemes

Mea

n d

ura

tio

ns o

f p

ho

ne

me

s a

nd

th

eir

sta

nd

ard

devia

tio

ns [

ms]

Page 24: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Mapa polskich fonemów

Względna długość

Wzglę

dna e

nerg

ia

Page 25: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Cecha 4: częstotliwość podstawowa (F0)

• Algorytmy: oparte na ZCR, autokorelacji, spectrum; RAPT, YAAPT

• Modelowanie regresją liniową lub wielomianami

0 2 4 6 8 10 12 14 1695

100

105

110

115

120

125

130

dF0

dt

tg α= dF0/dt

α

Mean F0

Max F0

Min F0

F0 [H

z]

czas [ramki]

Page 26: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Modelowanie F0

czas [ramki]

F0 [H

z]

Page 27: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Algorytm segmentacji na sylaby

Detekcja słów w sygnale mowy

Na podstawie wartości progowej oraz wartości średniej, w sygnale znajdujemy fragmenty odpowiadające wyrazom lub połączonym ciągom wyrazów.

Page 28: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Algorytm segmentacji na sylaby (Mermelstein 1975)

Rekurencyjne wywoływanie algorytmu Convex Hull.

Warunek zatrzymania algorytmu:

Długość segmentu < minimalna długość sylaby (80 ms)

Wartość d < wartość progowa

Page 29: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Algorytm segmentacji na sylaby

Procent Delecji / usunięcia/ (d)

Procent Insercji /wstawienia/ (i)

Accuracy ( h - i) / (h + d)

Ins = 2.4%

Del = 4.7%

Acc = 93.0%

Page 30: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Końce zdań

Cechy prozodyczne Cechy funkcjonalne

koniec zdania

pauzy

iloczas

energia

F0

Page 31: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Korelacje pomiędzy pauzami a interpunkcją (mowa spontaniczna)

Różne typy pauz determinujące:

kropki przecinki

Page 32: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Korelacje pomiędzy pauzami a interpunkcją

0

10

20

30

40

50

60

n_p. s_p. f_p. b_p. n_p, s_p, f_p, b_p,

kropki przecinki

czytana

spontaniczna

Page 33: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

0 0.5 1 1.5 2 2.5 3 3.50

1000

2000

3000

4000

5000

6000

7000

8000

Zmiana długości głosek na końcach zdań

No o

f occure

nces

0 0.5 1 1.5 2 2.5 3 3.50

100

200

300

400

500

600

700

Duration ratio

Duration ratio

88.5%

Mean:1.54

Page 34: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Zmiana długości głosek na końcach zdań

Model Gaussowski:

Jakość dopasowania

RMSE: 0.0327

0.5 1 1.5 2 2.5 30

0.1

0.2

0.3

0.4

0.5

0.6

0.7

y vs. x

fit 1

2)92.0

68.2(

747.0)(

x

n edf

Względna długość

Pra

wdopod

obie

ństw

o w

ystą

pie

nia

Końca z

dania

2

2)

2(

2

1)(

x

exf

Page 35: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Zmiana długości głosek na końcach zdań

Page 36: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Modelowane prawdopodobieństwo wystąpienia końca zdania

nmj e j s7enaobe j Ze3ek t u regova r t opSezna0y8 t yXe3a l bo f tSyd3 i mj as t ok t u regob l i SSepozna3evymagamj e5 i en7y t u r y0

0.1

0.2

0.3

0.4

0.5

0.6

JPA28

Page 37: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Zmiany energii głosek na końcach zdań

Współczynnik energii

Ilość w

ysta

pie

ń

0 0.5 1 1.5 2 2.5 3 3.50

2000

4000

6000

8000

10000

12000

0 0.5 1 1.5 2 2.5 3 3.50

100

200

300

400

500

mean: 0.6

86.5%

Współczynnik energii

Średnia: 0,6

86,5%

Page 38: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Zmiany energii głosek na końcach zdań

Względna energia

Pra

wdopod

obie

ństw

o w

ystą

pie

nia

Końca z

dania

Page 39: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Zmiany mocy głosek na końcach zdań

Współczynnik mocy

Ilość w

ystą

pie

ń No of

occurrenc

es

0 0.5 1 1.5 2 2.5 3 3.50

2000

4000

6000

8000

10000

12000

0 0.5 1 1.5 2 2.5 3 3.50

50

100

150

200

250

mean: 0.36

99.6%

Współczynnik mocy

99,6%

Średnia: 0,36

Ilość w

ysta

pie

ń

Page 40: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Zmiany mocy głosek na końcach zdań

0 0.5 1 1.5 2 2.50

0.02

0.04

0.06

0.08

0.1

0.12

0.14

y vs. x

fit 1

Względnia moc

Pra

wdopod

obie

ństw

o w

ystą

pie

nia

Końca z

dania

Page 41: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Akcenty

Cechy prozodyczne Cechy funkcjonalne

akcent

iloczas

energia

F0

Page 42: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Accents | phonemes duration

0 0.5 1 1.5 2 2.5 30

0.5

1

1.5

2

2.5

3x 10

4

Względna długość

Ilość w

ystą

pie

ń

Page 43: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Accents | phonemes energy

0 0.5 1 1.5 2 2.5 30

5000

10000

15000

Względna energia

Ilość w

ystą

pie

ń

Page 44: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Accents | phonemes power

0 0.5 1 1.5 2 2.5 30

2000

4000

6000

8000

10000

12000

14000

16000

18000

Względna moc

Ilość w

ystą

pie

ń

Page 45: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Zmiana F0 w miejscach samogłosek akcentowanych

Samogłoska Średnia F0 wszystkich

samogłosek [Hz]

Średnia F0 Akcentowanych samogłosek [Hz]

Zmiana dla akcentowanych [Hz]

'a' 164 170 + 6 'a_' 155 168 +13 'e' 163 173 +10 'e_' 164 171 + 7 'o' 160 162 +2 'u' 170 180 +10 'i' 156 159 +3 'y' 172 180 +8

Page 46: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Podsumowanie

akcenty Końce zdań

ꜛ iloczas

ꜜ energia, moc

ꜜ F0

ꜛ iloczas

ꜛ energia, moc

ꜛ F0

0,9

0,95

1

1,05

1,1

1,15

1,2 duration

energy

power

F0

average

accents

0

0,5

1

1,5

2 duration

energy

power

F0

average

sentence ends

Page 47: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Rozkład cech głosek akcentowanych i końcowych

Względna długość

Wzglę

dna e

nerg

ia

Page 48: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Ironia

• zamaskowana kpina, drwina zawarta w pozornej aprobacie; lekki sarkazm, ujęty w wypowiedź, której zamierzony sens jest odwrotnością dosłownego znaczenia słów

• w powiązaniu z kontekstem

• środek wyrazu, emocja złożona, postawa emocjonalna?

• ton ironiczny jest dodatkową informacją niesioną przez sygnał mowy – reprezentującą postawę emocjonalną wobec wypowiadanej treści

Page 49: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Percepcja ironii

Testy percepcyjne nagrań

oryginalnych

Emocja prezentowana w nagraniu

złość zdziw ironia neutr. smutek radość strach

Ro

zp

ozn

an

ie

złość 75,0 2,7 2,8 1,4 0 1,4 2,7

zdziwienie 0 58,1 15,3 6,9 0 2,7 9,5

ironia 1,4 23,0 66,7 2,8 0 20 6,8

neutralny 0 1,4 2,8 56,9 10,3 5,5 1,4

smutek 2,8 0 1,4 6,9 78,2 0 12,2

radość 1,4 5,4 4,2 2,8 0 32,9 0

strach 2,8 2,7 0 1,4 2,6 0 35,1

nierozpoznane 16,7 6,8 6,9 20,8 9,0 35,6 32,4

Page 50: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Percepcja ironii

Testy percepcyjne nagrań

bez treści

Emocja prezentowana w nagraniu

złość zdziw ironia neutr. smutek radość strach

Ro

zp

ozn

an

ie

złość 30 10 10 5 20 0 0

zdziwienie 0 80 10 0 0 0 0

ironia 20 10 40 15 10 20 10

neutralny 20 0 10 35 30 20 0

smutek 0 0 10 20 30 0 0

radość 10 0 0 10 0 30 0

strach 10 0 10 5 0 10 70

nierozpoznane 10 0 10 10 10 20 20

Page 51: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Cechy prozodyczne ironii

• Kadencja F0, szczególnie w końcowej części frazy

• Większe odchylenie standardowe F0

• Wzrasta iloczas wypowiedzi

• Silniejsze akcentowanie

• Zmiana stosunku iloczasu sąsiadujących sylab w akcentowanym wyrazie

Page 52: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Znaczenie prac badawczych nad środkami prozodycznymi w technologii mowy

System rozpoznawania mowy

Synteza mowy

Interfejsy głosowe, systemy

dialogowe

System rozpoznawania mówcy

Detekcja emocji w mowie

System detekcji oddechu

w sygnale mowy

Systemy wspomagające

szkolenie mówców

Źródło informacji dla modelowania

języka

Cechy biometryczne

Związek z emocjami

Aspekt medyczny

Aspekt szkoleniowy

Page 53: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Dziękujemy za uwagę

{bziolko,migras}@agh.edu.pl

Page 54: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe

Bibliografia

1. M. Igras, B. Ziółko „Different types of pauses as a source of information

for biometry”, MAVEBA, Florence, 2013

2. M. Igras, B. Ziółko, M. Ziółko ”Length of Phonemes in a Context of Their

Positions in Polish Sentences”, SIGMAP 2013, The International

Conference on Signal Processing and Multimedia Applications,

Reyklavik.

3. M. Igras, B. Ziółko, ”Wavelet method for breath detection in audio

signals”, IEEE ICME, San Jose, 2013.

4. M. Igras, B. Ziółko ”Modelowanie i detekcja oddechu w sygnale

akustycznym”, Modelowanie i Pomiary w Medycynie 2013, Krynica.

5. M. Igras, B. Ziółko ”Rodzaje pauz akustycznych i ich konotacje z

interpunkcją w transkrypcjach mówionego języka polskiego”, Bogactwo

współczesnej polszczyzny, Kraków 2013.

6. M. Igras, B. Ziółko, „Rodzaje pauz akustycznych i ich korelacje z

interpunkcją w transkrypcjach mówionego języka polskiego” w Piotr

Żmigrodzki [red.], Sylwia Przęczek-Kisielak [red.] Bogactwo

współczesnej polszczyzny, Towarzystwo Miłośników Języka Polskiego,

2014.