Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza...

29
Slajd 1 1/4/2005 Zygmunt Ciota Slide 1 Rozpoznawanie i synteza mowy w systemach multimedialnych Analiza i synteza mowy - wprowadzenie Spektrogram wyrażenia: „computer speech” Slajd 2 1/4/2005 Zygmunt Ciota Slide 2 Rozpoznawanie i synteza mowy w systemach multimedialnych Analiza i synteza mowy - wprowadzenie

Transcript of Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza...

Page 1: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 1

1/4/2005Zygmunt Ciota Slide 1

Rozpoznawanie i synteza mowy w systemach multimedialnych

Analiza i synteza mowy - wprowadzenie

Spektrogram wyrażenia: „computer speech”

Slajd 2

1/4/2005Zygmunt Ciota Slide 2

Rozpoznawanie i synteza mowy w systemach multimedialnych

Analiza i synteza mowy - wprowadzenie

Page 2: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 3

1/4/2005Zygmunt Ciota Slide 3

Rozpoznawanie i synteza mowy w systemach multimedialnych

Analiza i synteza mowy - wprowadzenie

Slajd 4

1/4/2005Zygmunt Ciota Slide 4

Rozpoznawanie i synteza mowy w systemach multimedialnych

Maszyna wymawiająca samogłoski z 1769 roku zbudowana przezWolfganga Rittera von Kempelen (rekonstrukcja)

Pierwsze próby syntezy mowy

Page 3: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 5

1/4/2005Zygmunt Ciota Slide 5

Rozpoznawanie i synteza mowy w systemach multimedialnych

Urządzenia do wymawiania spółgłosek „plozyjnych”: „b” i „d” (Wolfgang Ritter)

Pierwsze próby syntezy mowy

Slajd 6

1/4/2005Zygmunt Ciota Slide 6

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rezonatory (wibrujące piszczałki) Kratzensteina - 1779

Pierwsze próby syntezy mowy

Page 4: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 7

1/4/2005Zygmunt Ciota Slide 7

Rozpoznawanie i synteza mowy w systemach multimedialnych

Przekroje kanału głosowegoprzy wymawianiu samogłosek„i” oraz „u” i odpowiadające im formanty (rezonanse)

Pierwsze próby syntezy mowy

Slajd 8

1/4/2005Zygmunt Ciota Slide 8

Rozpoznawanie i synteza mowy w systemach multimedialnych

Najprostszy model kanału głosowego

Pierwsze próby syntezy mowy

Page 5: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 9

1/4/2005Zygmunt Ciota Slide 9

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy oraz identyfikacja głosu

Pomiar parametrów fizycznych kanału głosowego

Slajd 10

1/4/2005Zygmunt Ciota Slide 10

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy oraz identyfikacja głosu

Pomiar parametrów geometrycznych kanału głosowego

Page 6: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 11

1/4/2005Zygmunt Ciota Slide 11

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy oraz identyfikacja głosu

Poprawa jakości głosu metodą modulacji częstotliwościowej

Slajd 12

1/4/2005Zygmunt Ciota Slide 12

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy oraz identyfikacja głosu

Spektrogram wyrażenia „two of five”

Spektrogram po modulacji częstotliwości (2 - 8 Hz)

Page 7: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 13

1/4/2005Zygmunt Ciota Slide 13

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy oraz identyfikacja głosu

Spektrogram w obecności szumu średniego natężenia

Spektrogram po modulacji częstotliwości

Slajd 14

1/4/2005Zygmunt Ciota Slide 14

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy oraz identyfikacja głosu

Spektrogram w obecności silnego szumu

Spektrogram po modulacji częstotliwości

Page 8: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 15

1/4/2005Zygmunt Ciota Slide 15

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy oraz identyfikacja głosu

Spektrogram po modulacji częstotliwości

Spektrogram w pomieszczeniu odbijającym głos

Slajd 16

1/4/2005Zygmunt Ciota Slide 16

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy oraz identyfikacja głosu

Spektrogram w pomieszczeniu odbijającym głos (b. silny pogłos)

Spektrogram po modulacji częstotliwości

Page 9: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 17

1/4/2005Zygmunt Ciota Slide 17

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy

( ) ( ) )()( ApWpWApAWp ⋅=

Reguły Bayes,a: wyznaczanie prawdopodobieństw a posteriori w funkcji prawdopodobieństw a priori

Slajd 18

1/4/2005Zygmunt Ciota Slide 18

Rozpoznawanie i synteza mowy w systemach multimedialnych

Kompresja mowy

Predykcja liniowa

npnpnnn esasasas +−−−−= −−− L2211

10

2

1 01

2 =

== ∑ ∑∑

= =−

=

asaeEN

n

p

kknk

N

nn

(1)

Page 10: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 19

1/4/2005Zygmunt Ciota Slide 19

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy

0201

===∂∂ ∑∑

=−

=−

p

kknk

N

nmn

m

sasEaE

Odwracając porządek sumowania

∑∑=

−−=

==N

nknmnmk

p

kkmk ssrgdziear

100

Slajd 20

1/4/2005Zygmunt Ciota Slide 20

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy

Pamiętając, że a0=1

01

m

p

kkmk rar −=∑

=

lub w postaci macierzowej

00 rRaraR ⋅=−=⋅ −1czyli

Page 11: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 21

1/4/2005Zygmunt Ciota Slide 21

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy oraz identyfikacja głosu

Slajd 22

1/4/2005Zygmunt Ciota Slide 22

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy

Filtr predykcyjny

Filtr FIR (Finite Impulse Response):

( ) ∑=

−=N

k

kk zazH

0

Odpowiedź impulsowa filtru FIR:

paaa L,,,1 21

Page 12: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 23

1/4/2005Zygmunt Ciota Slide 23

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy

( )zssn ( )zeenPrzyjmując:

( ) pp zazazazA −−− ++++= L2

21

11

Z równania (1):

pnpnnnn sasasase −−− ++++= L2211

czyli:

( ) ( ) ( ) ( ) ( )( )zAzezszezAzs ==⋅

Slajd 24

1/4/2005Zygmunt Ciota Slide 24

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy

( ) LL 2121 ,11 zzzz

zzzA

−⋅

−=

( ) ( )zAzH p1

=

zera A(z)

all-pole filter

Page 13: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 25

1/4/2005Zygmunt Ciota Slide 25

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy oraz identyfikacja głosu

Głoska dźwięczna i jej widmo oraz obwiednia zdefiniowana przez filtr 1/A(z)

Slajd 26

1/4/2005Zygmunt Ciota Slide 26

Rozpoznawanie i synteza mowy w systemach multimedialnych

Głoska bezdźwięczna i jej widmo oraz obwiednia zdefiniowana przez filtr 1/A(z)

Rozpoznawanie mowy oraz identyfikacja głosu

Page 14: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 27

1/4/2005Zygmunt Ciota Slide 27

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy oraz identyfikacja głosu

Kształtowanie widma szumu: szum słyszalny i prawie niesłyszalny

Slajd 28

1/4/2005Zygmunt Ciota Slide 28

Rozpoznawanie i synteza mowy w systemach multimedialnych

Analiza kanału głosowego

Page 15: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 29

1/4/2005Zygmunt Ciota Slide 29

Rozpoznawanie i synteza mowy w systemach multimedialnych

Analiza kanału głosowego

Slajd 30

1/4/2005Zygmunt Ciota Slide 30

Rozpoznawanie i synteza mowy w systemach multimedialnych

Kanał głosowy

Page 16: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 31

1/4/2005Zygmunt Ciota Slide 31

Rozpoznawanie i synteza mowy w systemach multimedialnych

Równanie Webster’a, czyli równanie natężenia (ciśnienia) fali dźwiękowej p(x,t) wzdłuż kanału:

2

2

22

2 11tp

cxp

dxdA

Axp

∂∂=

∂∂+

∂∂

A(x) jest przekrojem kanału głosowego między głośnią (x=0) a wargami x=L ~= 170 mm)

Kanał głosowy

Slajd 32

1/4/2005Zygmunt Ciota Slide 32

Rozpoznawanie i synteza mowy w systemach multimedialnych

Lokalizacja położenia źródła dźwięku

tdc∆=∆ 0180α

Prawo pierwszej fali frontowej (Joseph Henry)i efekt Haas’a

Page 17: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 33

1/4/2005Zygmunt Ciota Slide 33

Rozpoznawanie i synteza mowy w systemach multimedialnych

u1(t) u2(t)

t t

Continuity effect

Lokalizacja położenia źródła dźwięku

Slajd 34

1/4/2005Zygmunt Ciota Slide 34

Rozpoznawanie i synteza mowy w systemach multimedialnych

Lokalizacja położenia źródła dźwięku

300Hz, 3kHz

8kHz

1kHz, 10kHz

Page 18: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 35

1/4/2005Zygmunt Ciota Slide 35

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy

Slajd 36

1/4/2005Zygmunt Ciota Slide 36

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy

Page 19: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 37

1/4/2005Zygmunt Ciota Slide 37

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy

Slajd 38

1/4/2005Zygmunt Ciota Slide 38

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy

Page 20: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 39

1/4/2005Zygmunt Ciota Slide 39

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy

Slajd 40

1/4/2005Zygmunt Ciota Slide 40

Rozpoznawanie i synteza mowy w systemach multimedialnych

Przebieg funkcji cepstrum z zaznaczonym toremgłosowym (1) oraz pobudzeniem krtaniowym (2)

Rozpoznawanie mowy

Page 21: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 41

1/4/2005Zygmunt Ciota Slide 41

Rozpoznawanie i synteza mowy w systemach multimedialnych

Formaty dźwiękowe

LPCM (Linear Pulse Code Modulation): udoskonalony PCM

6,144 Mb/s816 bitów48 kHz5,76 Mb/s620 bitów48 kHz5,76 Mb/s524 bity48 kHz

4,608 Mb/s224 bity96 kHz5,76 Mb/s320 bitów96 kHz6,144 Mb/s416 bitów96 kHz

Strumień max.Ilośćkanałów

RozdzielczośćCzęstotliwośćpróbkowania

Slajd 42

1/4/2005Zygmunt Ciota Slide 42

Rozpoznawanie i synteza mowy w systemach multimedialnych

MPEG – AUDIO

A. MPEG-1 audio, opisuje trzy warstwy kodowania dźwiękuo następujących właściwościach:

• 1 lub 2 kanały dźwiękowe• Częstotliwość próbkowania 32kHz, 44.1kHz lub 48kHz• Przepustowość od 32kbps do 448kbps

Page 22: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 43

1/4/2005Zygmunt Ciota Slide 43

Rozpoznawanie i synteza mowy w systemach multimedialnych

B. MPEG-2 audio występuje w dwóch odmianach

MPEG-2/LSF • 1 lub 2 kanały dźwiękowe• Dwa razy mniejszą częstotliwość próbkowania • Przepustowość od 8 do 256 kbs

MPEG-2/Multichannel • Do 5 pełno-zakresowych kanałów dźwiękowych• Częstotliwość próbkowania taką samą jak w MPEG-1• Rozdzielczość 16 bitów• Większe przepustowości dochodzące do około 1 Mb/s

do systemu 5+1 kanałów

Slajd 44

1/4/2005Zygmunt Ciota Slide 44

Rozpoznawanie i synteza mowy w systemach multimedialnych

Schemat blokowy układu kodera standardu MPEG-1

Page 23: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 45

1/4/2005Zygmunt Ciota Slide 45

Rozpoznawanie i synteza mowy w systemach multimedialnych

Struktura zakodowanego strumienia danych MPEG-1

Slajd 46

1/4/2005Zygmunt Ciota Slide 46

Rozpoznawanie i synteza mowy w systemach multimedialnych

Dolby Surround

Page 24: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 47

1/4/2005Zygmunt Ciota Slide 47

Rozpoznawanie i synteza mowy w systemach multimedialnych

Kodowanie

Slajd 48

1/4/2005Zygmunt Ciota Slide 48

Rozpoznawanie i synteza mowy w systemach multimedialnych

Dekodowanie

Page 25: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 49

1/4/2005Zygmunt Ciota Slide 49

Rozpoznawanie i synteza mowy w systemach multimedialnych

Dolby Pro Logic

Slajd 50

1/4/2005Zygmunt Ciota Slide 50

Rozpoznawanie i synteza mowy w systemach multimedialnych

Kodek

Page 26: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 51

1/4/2005Zygmunt Ciota Slide 51

Rozpoznawanie i synteza mowy w systemach multimedialnych

Dekodowanie

Slajd 52

1/4/2005Zygmunt Ciota Slide 52

Rozpoznawanie i synteza mowy w systemach multimedialnych

Dolby Digital

Page 27: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 53

1/4/2005Zygmunt Ciota Slide 53

Rozpoznawanie i synteza mowy w systemach multimedialnych

Rozpoznawanie mowy

Kompatybilne miksowanie w dół

Slajd 54

1/4/2005Zygmunt Ciota Slide 54

Rozpoznawanie i synteza mowy w systemach multimedialnych

DTS firmy Digital Theater Systems

DTS –EX

Page 28: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 55

1/4/2005Zygmunt Ciota Slide 55

Rozpoznawanie i synteza mowy w systemach multimedialnych

DC DVD

Slajd 56

1/4/2005Zygmunt Ciota Slide 56

Rozpoznawanie i synteza mowy w systemach multimedialnych

dwuwarstwowa – dwustronna17 GBDVD 18

dwuwarstwowa –jednostronna

9.4 GBDVD 10

jednostronna –dwuwarstwowa

8.5 GBDVD 9

jednostronna –jednowarstwowa

4.7 GBDVD 5

Rodzaj płyty:Pojemność:Standard:

Page 29: Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza mowy w systemach multimedialnych Formaty dźwiękowe LPCM (Linear Pulse Code Modulation):

Slajd 57

1/4/2005Zygmunt Ciota Slide 57

Rozpoznawanie i synteza mowy w systemach multimedialnych

Struktura warstw płyty DVD w zależności od standardu