Download - Technologie Mowy

1 1

Technologie Mowy

Bartosz Ziółko

www.dsp.agh.edu.pl http://rozpoznawaniemowy.blogspot.com/

http://www.dsp.agh.edu.pl/

http://rozpoznawaniemowy.blogspot.com/

Technologie Mowy

2

Technologie Mowy

3

Technologie Mowy

4

Dane kontaktowe

Dr inż. Jakub Gałka

C2/419

Telefon 50-68

[email protected]

Dr inż. Bartosz Ziółko

C2/418

Telefon 36-39

http://home.agh.edu.pl/~bziolko

5

mailto:[email protected]

mailto:[email protected]

http://home.agh.edu.pl/~bziolko/dokuwiki/doku.php?id=tm:start

http://home.agh.edu.pl/~bziolko/dokuwiki/doku.php?id=tm:start

Wykłady

• Wprowadzenie i historia

• Fizjologia mowy i elementy fonetyki języka polskiego. Dialekty języka polskiego. Właściwości sygnału mowy

• Zbiory nagrań mowy i tekstów. Słowniki komputerowe

• Redukcja zakłóceń i przetwarzanie wstępne sygnału

• Metody parametryzacji i segmentacji sygnału

• Kodowanie, kompresja i transmisja mowy. Synteza mowy

• Metody rozpoznawania wzorców 6

Wykłady

• Ukryte modele Markowa. Rozpoznawanie słów izolowanych

• HTK, ANN, SVM, DBN, K-NN

• Weryfikacja i identyfikacja mówcy. Emocje w głosie

• Metryka edycyjna. Rozpoznawanie mowy ciągłej.

• Syntaktyczne modelowanie języka

• Semantyczne modelowanie. Ontologie

• Interfejs głosowy i systemy dialogowe

• Istniejące systemy i przyszłość TM

7

Laboratoria

8

• Zaprojektowanie własnego systemu rozpoznawania mowy o ograniczonym słownictwie w oparciu o HTK

• Wykonanie korpusu własnej mowy

• Zaimplementowanie konkatencyjnego syntezatora mowy

• Rozszerzenie korpusu mowy i usprawnienie syntezatora

• Implementacja prostego kodera i kompresora mowy

• Rozpoznawanie słów izolowanych (MFCC+DTW)

• Implementacja prostego HMM

• Przygotowanie modelu HMM z wykorzystaniem własnego korpusu

• Przetestowanie opracowanego systemu rozpoznawania mowy

• Poprawki i usprawnienia własnego systemu rozpoznawania mowy opartego o HTK

Ćwiczenia

• Elementy statystyki matematycznej (Bayes, rozkłady, Gaussiany, itd.)

• Zapis fonetyczny, dialekty

• Dyskusje o technologiach mowy na podstawie artykułów

• Analizy grafów

• 3 Kolokwia (także z wykładów)

• Obliczanie HMM bez komputera

• Prezentacje studentów na wybrany temat

• Analiza spektogramów

9

Prezentacje

• Elementy lingwistyki języka polskiego

• Wybrane komercyjne lub eksperymentalne systemy technologii mowy

• Zreferowanie wybranego artykułu na temat technologii mowy

• Pomysł na własny biznes wykorzystujący technologie mowy

• Można zgłaszać własne propozycje tematów prezentacji

• Śpiew traktujemy jako mowę

10

Oceny

• Laboratorium

– Wykonanie zadań laboratoryjnych, ich staranność i jakość

– Obecność na zajęciach

• Ćwiczenia

– 3 kolokwia z ćwiczeń i wykładów (60%)

– Prezentacja (10%)

– Wykonanie ćwiczeń w trakcie zajęć (w tym aktywność) (30%)

11

Podręcznik

12

Bibliografia

• http://class.coursera.org/nlp

• http://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-345-automatic-speech-recognition-spring-2003/

• http://nlp.ipipan.waw.pl/wiki/clip

• D. Jurafsky and J.H. Martin „Speech and Language Processing”, 2nd edition

• W. Kwiatkowski, Metody automatycznego rozpoznawania wzorców, BEL Studio, Warszawa 2007 (28 zł)

• J. Koronacki, J. Ćwik, Statystyczne systemy uczące się, Wyd 2., EXIT, Warszawa 2008 (45 zł)

• M. Krzyśko, W. Wołyński, T. Górecki, M. Skorzybut, Systemy uczące się, WNT, Warszawa 2008 (47 zł)

• W. Kasprzak, Rozpoznawanie obrazów i sygnałów mowy, WPW, 2009 (28 zł)

• S. Theodoridis, K. Koutroumbas, Pattern Recognition, Academic Press, 2009

• R. O. Duda, P. E. Hart, D. G. Stork, Pattern Classification, 2nd Edition, Wiley & Sons 2000

• J. P. Marques de Sa, Pattern Recognition, Springer 2001

• http://home.agh.edu.pl/~jgalka/dydaktyka/tm/Podstawy%20ewaluacji%20w%20systemach%20detekcji.pdf

13

http://class.coursera.org/nlp

http://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-345-automatic-speech-recognition-spring-2003/





















http://nlp.ipipan.waw.pl/wiki/clip

Człowiek vs. komputer

Pierwsze syntezatory mowy

1779 - Christian Kratzenstein - urządzenie

umożliwiające generowanie dźwięków

przypominających 5 różnych głosek

15

Równolegle, nad

swoją akustyczno-

mechaniczną

maszyną imitującą

mowę pracował

Wolfgang von

Kempelen

Alexander Graham Bell

16

Profesor fizjologii dźwięku

na Uniwersytecie

w Bostonie oraz nauczyciel

głuchoniemych. Badania

Bella finansowane

przez jego teścia

doprowadziły do

zbudowania telefonu w

latach osiemdziesiątych

XIX wieku, a więc także

mikrofonu i słuchawki.

Lampa próżniowa

• W 1914 roku Harold D. Arnold opracował lampę próżniową, będącą wzmacniaczem sygnału akustycznego generowanego przez prąd elektryczny.

• Umożliwiło to firmie AT&T (American Telephone and Telegraph) pierwszą transkontynentalną rozmowę w 1915 roku.

17

Ferdynand de Saussure - 1916

Określił język jako system norm społecznych umożliwiający przekazywanie informacji. Dokonał rozróżnienia między językiem (fr. langue) a mówieniem (fr. parole). Zdefiniował język jako systemem symboli i reguł ich tworzenia, który nie może być wytworem pojedynczego człowieka. Określił go więc jako abstrakcję, urzeczywistniającą się w mówieniu realizowanym przez indywidualnych ludzi.

18

„Cztery”

19

Sygnał mowy

20

REX - 1920

21

Przymocowany do

płytki reagującej obrotem na

drgania o częstotliwości 500

[Hz] odpowiadającej

między innymi głosce „e”.

Przy tej częstotliwości

pojawiał się rezonans, który

odcinał prąd, wypychając

psa z budy. W ten sposób

zabawka reagowała na

imię Rex.

VOCODER – Bell Labs

Posiadał klawiaturę i mógł między innymi syntezować mowę. Służył także do kodowania mowy na potrzeby transmisji. Działało w oparciu o bank filtrów.

22

Z urządzenia

najprawdopodobniej korzystali

Churchill i Roosevelt do

przeprowadzania

transkontynentalnych

konferencji. Po wojnie zaczęto

wykorzystywać ulepszone

urządzenia oparte na

VOCODERZE w muzyce.

Bell Labs digit recogniser - 1952

• Analiza spektrum podzielonego na 2 pasma częstotliwości (powyżej i poniżej 900 Hz).

• Rozpoznawał cyfry wypowiadane po angielsku z błędem mniejszym niż 2%, zakładając, że użytkownik nie zmienił położenia ust względem mikrofonu pomiędzy fazą ustalania parametrów głosu a testowaniem.

23

Japoński system rozpoznawania samogłosek (J. Suzuki, K. Nakata, Radio Research Labs, Japonia, 1961)

25

Zimna wojna

• Szybka transformata Fouriera (FFT)

• Hidden Markov Model (HMM)

• ARPA Speech Understanding Project - 1971 ($15M)

• Rozpoznawanie mowy ciągłej

• Słownik około 1000 słów

• => system CMU Harpy (5% błędów)

• Algorytm Viterbiego do ćwiczenia modeli 1967 - 1973

26

LPC - 1975

27

Linear predictive

coding

F. Itakura

Bell/NTT Labs

Podstawowe technologie mowy

• Automatyczne rozpoznawanie mowy

• Synteza mowy

• Rozpoznawanie mówcy

• Rozpoznawanie emocji

• Generowanie emocji

• Synteza z ruchem ust

• Tłumaczenie mowa-mowa

• Aplikacje w nauce języków obcych

28

Zalety technologii mowy

• Naturalność (nie wymagają przeszkolenia)

• Pozostawiają swobodę rąk i oczu

• Szybkie (3 razy szybciej mówimy niż piszemy na klawiaturze)

• Ekonomiczność (tekst zajmuje dużo mniej bajtów niż sygnał akustyczny)

Szczególnie istotne dla osób nieprzyzwyczajonych do komputerów, niepełnosprawnych oraz w zastosowaniach telefonicznych

29

Zastosowanie w telekomunikacji

30

Systemy dialogowe

31

Różne poziomy modelowania

33

Komunikacja z komputerem

34


35

Ogólny schemat rozpoznawania mowy

36


37

Możliwe zastosowania ASR

• Głównie jako wejście

– Proste komendy i sterowanie

– Krótkie wprowadzanie danych (np. przez telefon)

– Dyktowanie

• Interaktywne (z rozumieniem)

– Punkty informacyjne

– Przetwarzanie transakcji

– Wirtualni doradcy

38

Zakres mowy i słuchu człowieka (Tadeusiewicz, 1988)

39

Cechy systemów mowy

• Mowa izolowana lub ciągła

• Czytana lub spontaniczna

• Zależny lub niezależny od mówcy

• Mały (20 słów) lub duży (>50 000) słownik

• Model językowy stały lub zależny od kontekstu

• Perpleksja (entropia) wypowiedzi

• SNR (<10 dB niski, >30 dB wysoki)

• Sposób rejestracji (telefon, komputer, mikrofon z niwelowaniem szumu)

40

k

i

ii ppH1

2log

Miara nieokreśloności

2^H