Automatic Speech Recognition (seminarium)

1. Historia automatycznego rozpoznawania mowy

Na podstawie:

Automatic Speech Recognition- a Brief History of the Technology Development B.H. Juang & Lawrence R. Rabiner Arkadiusz Janicki seminarium na przedmiot: Automaty z wagamiprowadzcy: Sebastian Bala Uniwersytet Wrocawski, zima 2008

ASR- automatic speech recognition - automatyczne rozpoznawanie mowy

rozpoznawacz mechanizm (system, algorytm) do automatycznego rozpoznawania mowy.(Nie ma takiego sowa w sowniku PWN, ale wydaje si by utworzone wg poprawnych regu. Myl, e p. Miodek by mnie nie skrzycza.)

wyzwanie samo w sobie!

ciekawo mechanizmw pozwalajcych na zautomatyzowanie procesu mwienia

usprawnienie komunikacji pomidzy czowiekiem a komputerem

zaprojektowanie maszyny z ktr mona by porozumiewa si w jzyku naturalnym (najwygodniejszym do wikszoci zada)

rosyjski naukowiec, wytumaczy fizjologicznernice odpowiedzialne za rne brzmienie samogosek, oraz zaprezentowa aparat generujcy dwiki za pomoc rur rezonansowych podczonych do organw (np. kocielnych)

Acoustic-Mechanical Speech Machine

rezonator zrobiony ze skry - mona byo rcznie modulowa gos

dyktafon - woskowa pyta

automatyzacja biura - dyktowanie tekstw dla stenotypistek

dokumentacja zwizku pomidzy spektrum gosu (rozkad siy dwiku pomidzy czstotliwociami), oraz informacje o tym jak gos jest odbierany przez czowieka.

Zafascynowany prac Fletchera stworzy VODERA Voice Operating DemonstratoR

nadgarstek: pasek wyboru- relaxation oscylator lub szum

noga: peda do kontrolowania czstotliwoci oscylatora (tonacji gosu syntezatora).

palce: 10 filtrw siy dwiku w danej czstotliwoci

wielki krok w ewolucji maszyn mwicych

Bell Laboratories - John Kelly, Carol Lockbaum, Max Mathews

Arthur C. Clarke by przypadkowym gociem podczas demonstracji, co zaskutkowao umieszczeniem piosenki w Odysei Kosmicznej 2001

HAL 9000 piewa t piosenk gdy Dave Bowman "przecza go na stan upienia"

(...) Daisy, Daisy, give me your answer do I'm half crazy all for the love of you It won't be a stylish marriage I can't afford a carriage But you'll look sweet upon the seat Of a bicycle made for two(...)

wczesne techniki bazoway na teorii akustyczno-fonetycznej i zrozumieniu jak gos jest generowany podczas wypowiedzi.

np. aby wygenerowa samogosk struny gosowe musz wibrowa. naturalne czstotliwoci zwane formantami, lub czstotliwociami formantowymi (formant frequencies) s widoczne jako due skupiska energii na diagramach czstotliwoci

rozpoznawacz cyfr dla jednego uytkownika, pniej 10 sylab

Forgie and Forgie & MIT Lincoln Lab rozpoznawacz 10 samogosek dla wielu uytkownikw

rozpoznawacz fonemw - 4 samogoski, 9 spgosek

dodajc informacjestatystycznezwikszyli poprawno dla sw skadajcych si z 2 lub wicej fonemw

pierwsze uycie skadnistatystycznej(na poziomie fonemw)

rozpoznawacz cyfr - NEC Laboratories 1963

rozpoznawacz samogosek - Suzuki and Nakata @ the Radio Research Lab in Tokyo 1961

rozpoznawacz fonemw - Sakai and Doshita@ Kyoto University 1962

segmentowaniewypowiedzi i analiza rnych porcji danych

prekursor rozpoznawaniamowy cigej(continuous speech recognition)

alternatyw dla segmentowania byo uycie niejednorodnej skali czasu

Tom Martin @ RCA Laboratories

tymczasowa niejednorodno przy powtrzeniach, wykrywanie zakocze wypowiedzi, ...

uyciedynamicznego programowaniado lepszego dopasowania czasu midzy dwiema wypowiedziami poprawiao jako oceny ich podobiestwa.

jego praca, chocia mao znana na zachodzie, wydaje si wyprzedza osignicia Sakoe i Chiba [18] i innych, ktrzy zaproponowali bardziej formalne metody, znane jako dynamiczne wygicia czasu w dopasowaniu wzorca w mowie.

od pnych lat 70-tych, gwnie dziki publikacji Sakoe i Chiba programowanie dynamiczne w przernych formach stao si nieodzownym elementem systemw ASR.

Advanced Research Projects Agency (ARPA) of the U.S. Department of DefensefundujeSpeech Understanding Research (SUR)

Carnegie Mellon Universitys Harpy - pierwszy system wykorzystujcy sieci stanw (finite state network FSN)

rozpoznawany jzyk by dostarczony jako poczona sie stworzona na podstawie danych sownikowych z syntaktycznymi reguami produkcji i zakresami sw.

voice-activated typewriter (VAT), system transkrypcji dla jednego uytkownika

skupiono si na wielkoci sownika - tak duego jak si da i strukturze modelu jzyka (gramatyce).

statystyczne zasady syntaktyczne definioway z jakim prawdopodobiestwem sekwencja symboli (sw lub fonemw) moga pojawi si w wypowiedzi.

zestaw zasad statystycznych nazywano 'modelem jzyka' i do jego reprezentacji najczciej uywano modelu'n-gramw'

model n-gramw definiowa zalenoci w zakresie n sw - jest to bardzo wygodna i mocna statystyczna reprezentacja gramatyki

Claude Shannon 1948 - zawody pomidzy czowiekiem a komputerem. zadanie: odgadnicie kolejnego sowa w zdaniu. komputer bazowa na wiedzy statystycznejn-gramw o dugoci 3 i mia znaczn przewag nad czowiekiem.

zautomatyzowane usugi telekomunikacyjne (wybieranie gosowe, przeczanie rozmw, etc.)

dua wydajno - system mia dziaa dla dziesitkw milionw amerykanw,

speaker-independent - bez potrzeby trenowania systemu dla indywidualnego uytkownika, bez wzgldu na jego ton gosu czy akcent

efektem bya caa gama algorytmw do tworzenia wzorcw sw i wyrazw, ktre rozpoznawayby sowo niezalenie od gosu czy akcentu.

badania nad zrozumieniem akustycznej rnorodnoci gosw zaskutkowao wynalezieniem metod mierzenia odlegoci spektralnej (np. odlego Itakury[22])

'keyword spotting' - prosta forma rozumienia wypowiedzi.

zmiana metodologii z bardziej intuicyjnych metod opartych na wzorcach, na bardziej rygorystyczne rodowiska modelowania statystycznego (statistical modeling framework).

w poowie lat '80 pojawiy si publikacje dotyczce HMM

od tego czasu, do dzi HMM s podstawowym narzdziem wykorzystywanym w ASR, gwnie ze wzgldu na stay rozwj i cige usprawnienia tej technologii

HMM to podwjny proces stochastyczny modelujcy: 1) specyficzne zachowania sygnau gosowego wraz ze spektralnymi efektami 2) struktur jzyka w SMF (statistical modeling framework). Za pomoc prbek uczcychi algortymu Baum'a-Welch'a, tworzymy najlepsz sie odpowiadajc danemu modelowi.

poczenie HMM i skoczonej sieci stanw byo kolejnym wanym osigniciem '80

w kadej chwili jest sprawdzanych wiele hipotetycznych moliwoci zidentyfikowania dwiku i wybierana jest ta o najlepszym wyniku

liczba hipotez do sprawdzenia moe by ogromna i moe wymaga wielkiej mocy obliczeniowej

finite state transducer - opracowana w poowie lat 90 staa si gwnym komponentem prawie wszystkich wspczesnych systemw rozpoznawania i rozumienia mowy.

ponowne prby w pnych latach '80

sukcesy z rozpoznawanie pojedynczych cyfr

jednak ograniczenia wynikajce ze specyfiki danych (czasowa zmienno)

aktualnie trwaj prace nad poczeniem ANN i HMM

pattern recognition przeszo w problem optymalizacyjny, w ktrym starano si minimalizowa empirical recognition error [44].

uzmysowiono sobie, e rozkad funkcji gosu nie moe by dokadnie wyznaczony, ani zdefiniowany, wic Bayes'owska teoria decyzyjna jest w tym przypadku nieodpowiednia

celem rozpoznawacza powinno by osignicie jak najmniejszego bdu podczas rozpoznawania, a nie najlepsze dopasowanie do zadanego zestawu danych.

wynik: zastosowanie discriminative training, support vector machines (SVM), ...

sukces metod statystycznych zdoby zainteresowanie DARPA na przeomie '80/'90, w wyniku czego powstao kilka systemw:

SPHINX system from CMU [47]

BYBLOS system from BBN [48]

DECIPHER system from SRI [49]

kontynuowano prace nad systemami o rosncym stopniu trudnoci

od rozpoznawania cigej mowy o stylizowanej strukturze gramatycznej (uywanej w zadaniach wojskowych, np. zarzdzaniu jednostkami morskimi)

do transkrypcji wiadomoci (radiowych/telewizyjnych) (e.g., NAB uywajcy sownika o ponad 20K sw), oraz rozmw.

System opracowany przez zesp z Cambridge University (led by Steve Young)[51], by i jest do dzisiaj jednym z najczciej adoptowanych narzdzi do bada nad automatycznym rozpoznawaniem mowy.

Wikszo bada nad ASR bya skoncentrowana na przetworzeniu gosu na sowa. wierzono, e jest to najwaniejszy problem z jakim trzeba byo si upora, aby zbudowa maszyn zdoln do rozmw.

Po latach dowiadcze zaobserwowano dwie wane sprawy:

1) ludzie, rozmawiajc z komputerami, czsto mwili naturalnym jzykiem, ktry nie zawsze spenia gramatyczne wizy rozpoznawacza (sowa spoza sownika, niegramatyczne konstrukcje i zdania)a dodatkowo gos by czsto zakcony rnego rodzaju haasami

2) podobnie jak w tradycyjnej formie komunikacji (czowiek z czowiekiem), tak i w przypadku aplikacji konwersujcych, czsto, aby uzyska odpowiedni stopie zrozumienia, potrzebny by dialog pomidzy rozmawiajcymi.

W takim dialogu pozwalano na operacje pytania i potwierdzania, dopuszczajc moliwo bdw w rozpoznawaniu lub rozumieniu wypowiedzi.

z pierwszym problemem radzono sobie ju w pocztkowych aplikacjach (keyword spotting w AT&T)

drugi problem skupi uwag spoecznoci badaczy na obszarzezarzdzania dialogiem.

Pegasus i Jupiter to systemy z ktrymi mona porozmawia przez telefon. Pierwszy dostarcza informacji o lotach samolotw, drugi o pogodzie.

Dziki bobrze zaprojektowanemu zarzdzaniu dialogiem systemy te dostarczay uytkownikowi odpowiednich informacji, bez koniecznoci zadawania szczegowych zapyta, oraz przedzierania si przez pozycje menu.

Celem byo zaprojektowanie maszyny, ktra potrafia si komunikowa, a niekoniecznie rozumiaa wypowiadane sowa.

HMIHY - How May I Help Yousystem at AT&T, Al Gorin - Consumer Communications Services in 2000

technologia dostpna dla ograniczonego, ale ciekawego zakresu zastosowa

Knowledge Navigator =Speech User Interface (SUI)+ Multimodal User Interface (MUI)+ intelligent voice-enabled agents

Automatic Speech Recognition (seminarium)

Spiritual

Transcript of Automatic Speech Recognition (seminarium)