1 1
Technologie Mowy
Bartosz Ziółko
www.dsp.agh.edu.pl http://rozpoznawaniemowy.blogspot.com/
Technologie Mowy
2
Technologie Mowy
3
Technologie Mowy
4
Dane kontaktowe
Dr inż. Jakub Gałka
C2/419
Telefon 50-68
Dr inż. Bartosz Ziółko
C2/418
Telefon 36-39
http://home.agh.edu.pl/~bziolko
5
Wykłady
• Wprowadzenie i historia
• Fizjologia mowy i elementy fonetyki języka polskiego. Dialekty języka polskiego. Właściwości sygnału mowy
• Zbiory nagrań mowy i tekstów. Słowniki komputerowe
• Redukcja zakłóceń i przetwarzanie wstępne sygnału
• Metody parametryzacji i segmentacji sygnału
• Kodowanie, kompresja i transmisja mowy. Synteza mowy
• Metody rozpoznawania wzorców 6
Wykłady
• Ukryte modele Markowa. Rozpoznawanie słów izolowanych
• HTK, ANN, SVM, DBN, K-NN
• Weryfikacja i identyfikacja mówcy. Emocje w głosie
• Metryka edycyjna. Rozpoznawanie mowy ciągłej.
• Syntaktyczne modelowanie języka
• Semantyczne modelowanie. Ontologie
• Interfejs głosowy i systemy dialogowe
• Istniejące systemy i przyszłość TM
7
Laboratoria
8
• Zaprojektowanie własnego systemu rozpoznawania mowy o ograniczonym słownictwie w oparciu o HTK
• Wykonanie korpusu własnej mowy
• Zaimplementowanie konkatencyjnego syntezatora mowy
• Rozszerzenie korpusu mowy i usprawnienie syntezatora
• Implementacja prostego kodera i kompresora mowy
• Rozpoznawanie słów izolowanych (MFCC+DTW)
• Implementacja prostego HMM
• Przygotowanie modelu HMM z wykorzystaniem własnego korpusu
• Przetestowanie opracowanego systemu rozpoznawania mowy
• Poprawki i usprawnienia własnego systemu rozpoznawania mowy opartego o HTK
Ćwiczenia
• Elementy statystyki matematycznej (Bayes, rozkłady, Gaussiany, itd.)
• Zapis fonetyczny, dialekty
• Dyskusje o technologiach mowy na podstawie artykułów
• Analizy grafów
• 3 Kolokwia (także z wykładów)
• Obliczanie HMM bez komputera
• Prezentacje studentów na wybrany temat
• Analiza spektogramów
9
Prezentacje
• Elementy lingwistyki języka polskiego
• Wybrane komercyjne lub eksperymentalne systemy technologii mowy
• Zreferowanie wybranego artykułu na temat technologii mowy
• Pomysł na własny biznes wykorzystujący technologie mowy
• Można zgłaszać własne propozycje tematów prezentacji
• Śpiew traktujemy jako mowę
10
Oceny
• Laboratorium
– Wykonanie zadań laboratoryjnych, ich staranność i jakość
– Obecność na zajęciach
• Ćwiczenia
– 3 kolokwia z ćwiczeń i wykładów (60%)
– Prezentacja (10%)
– Wykonanie ćwiczeń w trakcie zajęć (w tym aktywność) (30%)
11
Podręcznik
12
Bibliografia
• http://class.coursera.org/nlp
• http://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-345-automatic-speech-recognition-spring-2003/
• http://nlp.ipipan.waw.pl/wiki/clip
• D. Jurafsky and J.H. Martin „Speech and Language Processing”, 2nd edition
• W. Kwiatkowski, Metody automatycznego rozpoznawania wzorców, BEL Studio, Warszawa 2007 (28 zł)
• J. Koronacki, J. Ćwik, Statystyczne systemy uczące się, Wyd 2., EXIT, Warszawa 2008 (45 zł)
• M. Krzyśko, W. Wołyński, T. Górecki, M. Skorzybut, Systemy uczące się, WNT, Warszawa 2008 (47 zł)
• W. Kasprzak, Rozpoznawanie obrazów i sygnałów mowy, WPW, 2009 (28 zł)
• S. Theodoridis, K. Koutroumbas, Pattern Recognition, Academic Press, 2009
• R. O. Duda, P. E. Hart, D. G. Stork, Pattern Classification, 2nd Edition, Wiley & Sons 2000
• J. P. Marques de Sa, Pattern Recognition, Springer 2001
• http://home.agh.edu.pl/~jgalka/dydaktyka/tm/Podstawy%20ewaluacji%20w%20systemach%20detekcji.pdf
13
Człowiek vs. komputer
Pierwsze syntezatory mowy
1779 - Christian Kratzenstein - urządzenie
umożliwiające generowanie dźwięków
przypominających 5 różnych głosek
15
Równolegle, nad
swoją akustyczno-
mechaniczną
maszyną imitującą
mowę pracował
Wolfgang von
Kempelen
Alexander Graham Bell
16
Profesor fizjologii dźwięku
na Uniwersytecie
w Bostonie oraz nauczyciel
głuchoniemych. Badania
Bella finansowane
przez jego teścia
doprowadziły do
zbudowania telefonu w
latach osiemdziesiątych
XIX wieku, a więc także
mikrofonu i słuchawki.
Lampa próżniowa
• W 1914 roku Harold D. Arnold opracował lampę próżniową, będącą wzmacniaczem sygnału akustycznego generowanego przez prąd elektryczny.
• Umożliwiło to firmie AT&T (American Telephone and Telegraph) pierwszą transkontynentalną rozmowę w 1915 roku.
17
Ferdynand de Saussure - 1916
Określił język jako system norm społecznych umożliwiający przekazywanie informacji. Dokonał rozróżnienia między językiem (fr. langue) a mówieniem (fr. parole). Zdefiniował język jako systemem symboli i reguł ich tworzenia, który nie może być wytworem pojedynczego człowieka. Określił go więc jako abstrakcję, urzeczywistniającą się w mówieniu realizowanym przez indywidualnych ludzi.
18
„Cztery”
19
Sygnał mowy
20
REX - 1920
21
Przymocowany do
płytki reagującej obrotem na
drgania o częstotliwości 500
[Hz] odpowiadającej
między innymi głosce „e”.
Przy tej częstotliwości
pojawiał się rezonans, który
odcinał prąd, wypychając
psa z budy. W ten sposób
zabawka reagowała na
imię Rex.
VOCODER – Bell Labs
Posiadał klawiaturę i mógł między innymi syntezować mowę. Służył także do kodowania mowy na potrzeby transmisji. Działało w oparciu o bank filtrów.
22
Z urządzenia
najprawdopodobniej korzystali
Churchill i Roosevelt do
przeprowadzania
transkontynentalnych
konferencji. Po wojnie zaczęto
wykorzystywać ulepszone
urządzenia oparte na
VOCODERZE w muzyce.
Bell Labs digit recogniser - 1952
• Analiza spektrum podzielonego na 2 pasma częstotliwości (powyżej i poniżej 900 Hz).
• Rozpoznawał cyfry wypowiadane po angielsku z błędem mniejszym niż 2%, zakładając, że użytkownik nie zmienił położenia ust względem mikrofonu pomiędzy fazą ustalania parametrów głosu a testowaniem.
23
24
Japoński system rozpoznawania samogłosek (J. Suzuki, K. Nakata, Radio Research Labs, Japonia, 1961)
25
Zimna wojna
• Szybka transformata Fouriera (FFT)
• Hidden Markov Model (HMM)
• ARPA Speech Understanding Project - 1971 ($15M)
• Rozpoznawanie mowy ciągłej
• Słownik około 1000 słów
• => system CMU Harpy (5% błędów)
• Algorytm Viterbiego do ćwiczenia modeli 1967 - 1973
26
LPC - 1975
27
Linear predictive
coding
F. Itakura
Bell/NTT Labs
Podstawowe technologie mowy
• Automatyczne rozpoznawanie mowy
• Synteza mowy
• Rozpoznawanie mówcy
• Rozpoznawanie emocji
• Generowanie emocji
• Synteza z ruchem ust
• Tłumaczenie mowa-mowa
• Aplikacje w nauce języków obcych
28
Zalety technologii mowy
• Naturalność (nie wymagają przeszkolenia)
• Pozostawiają swobodę rąk i oczu
• Szybkie (3 razy szybciej mówimy niż piszemy na klawiaturze)
• Ekonomiczność (tekst zajmuje dużo mniej bajtów niż sygnał akustyczny)
Szczególnie istotne dla osób nieprzyzwyczajonych do komputerów, niepełnosprawnych oraz w zastosowaniach telefonicznych
29
Zastosowanie w telekomunikacji
30
Systemy dialogowe
31
32
Różne poziomy modelowania
33
Komunikacja z komputerem
34
Komunikacja z komputerem
35
Ogólny schemat rozpoznawania mowy
36
Komunikacja z komputerem
37
Możliwe zastosowania ASR
• Głównie jako wejście
– Proste komendy i sterowanie
– Krótkie wprowadzanie danych (np. przez telefon)
– Dyktowanie
• Interaktywne (z rozumieniem)
– Punkty informacyjne
– Przetwarzanie transakcji
– Wirtualni doradcy
38
Zakres mowy i słuchu człowieka (Tadeusiewicz, 1988)
39
Cechy systemów mowy
• Mowa izolowana lub ciągła
• Czytana lub spontaniczna
• Zależny lub niezależny od mówcy
• Mały (20 słów) lub duży (>50 000) słownik
• Model językowy stały lub zależny od kontekstu
• Perpleksja (entropia) wypowiedzi
• SNR (<10 dB niski, >30 dB wysoki)
• Sposób rejestracji (telefon, komputer, mikrofon z niwelowaniem szumu)
40
k
i
ii ppH1
2log
Miara nieokreśloności
2^H
41
Top Related