Automatic Speech Recognition (seminarium)

download Automatic Speech Recognition  (seminarium)

If you can't read please download the document

Transcript of Automatic Speech Recognition (seminarium)

  • 1. Historia automatycznego rozpoznawania mowy
    • Na podstawie:
  • Automatic Speech Recognition- a Brief History of the Technology Development B.H. Juang & Lawrence R. Rabiner Arkadiusz Janicki seminarium na przedmiot: Automaty z wagamiprowadzcy: Sebastian Bala Uniwersytet Wrocawski, zima 2008

2. Skrty i pojcia

  • ASR- automatic speech recognition - automatyczne rozpoznawanie mowy
  • rozpoznawacz mechanizm (system, algorytm) do automatycznego rozpoznawania mowy.(Nie ma takiego sowa w sowniku PWN, ale wydaje si by utworzone wg poprawnych regu. Myl, e p. Miodek by mnie nie skrzycza.)

3. Po co nam rozpoznawacze mowy? Motywacje

  • wyzwanie samo w sobie!
  • ciekawo mechanizmw pozwalajcych na zautomatyzowanie procesu mwienia
  • usprawnienie komunikacji pomidzy czowiekiem a komputerem
  • zaprojektowanie maszyny z ktr mona by porozumiewa si w jzyku naturalnym (najwygodniejszym do wikszoci zada)

4. Historia 5. 1773 - Christian Kratzenstein

  • rosyjski naukowiec, wytumaczy fizjologicznernice odpowiedzialne za rne brzmienie samogosek, oraz zaprezentowa aparat generujcy dwiki za pomoc rur rezonansowych podczonych do organw (np. kocielnych)

6. 1791 - Wolfgang von Kempelen

  • Acoustic-Mechanical Speech Machine

7. 1879 - Charles Wheatstone

  • rezonator zrobiony ze skry - mona byo rcznie modulowa gos

8. 1877 Gadajca lala - Thomas Edison 9. 1881 A.G. Bell, C. Bell i C.S. Tainter

  • dyktafon - woskowa pyta
  • automatyzacja biura - dyktowanie tekstw dla stenotypistek

10. 1922 - Fletcher et al.@ Bell Laboratories

  • dokumentacja zwizku pomidzy spektrum gosu (rozkad siy dwiku pomidzy czstotliwociami), oraz informacje o tym jak gos jest odbierany przez czowieka.

11. 1930 - Homer Dudley - VODER

  • Zafascynowany prac Fletchera stworzy VODERA Voice Operating DemonstratoR

12. VODER UI:

  • nadgarstek: pasek wyboru- relaxation oscylator lub szum
  • noga: peda do kontrolowania czstotliwoci oscylatora (tonacji gosu syntezatora).
  • palce: 10 filtrw siy dwiku w danej czstotliwoci

13. 14. VODER podczas 'World Fair' New York, 1939

  • wielki krok w ewolucji maszyn mwicych

15. 1961 - IBM 7094 - pierwszy piewajcy komputer

  • Bell Laboratories - John Kelly, Carol Lockbaum, Max Mathews
  • Arthur C. Clarke by przypadkowym gociem podczas demonstracji, co zaskutkowao umieszczeniem piosenki w Odysei Kosmicznej 2001

16. Daisy, Daisy...

  • HAL 9000 piewa t piosenk gdy Dave Bowman "przecza go na stan upienia"
  • (...) Daisy, Daisy, give me your answer do I'm half crazy all for the love of you It won't be a stylish marriage I can't afford a carriage But you'll look sweet upon the seat Of a bicycle made for two(...)

17. Rozpoznawanie gosu

  • wczesne techniki bazoway na teorii akustyczno-fonetycznej i zrozumieniu jak gos jest generowany podczas wypowiedzi.
  • np. aby wygenerowa samogosk struny gosowe musz wibrowa. naturalne czstotliwoci zwane formantami, lub czstotliwociami formantowymi (formant frequencies) s widoczne jako due skupiska energii na diagramach czstotliwoci

18. 19. 1952 - Davis, Biddulph, and Balashek @ Bell Laboratories

  • rozpoznawacz cyfr dla jednego uytkownika, pniej 10 sylab
  • Forgie and Forgie & MIT Lincoln Lab rozpoznawacz 10 samogosek dla wielu uytkownikw

20. 21. 1959 - Fry, Denes@ University College, England

  • rozpoznawacz fonemw - 4 samogoski, 9 spgosek
  • dodajc informacjestatystycznezwikszyli poprawno dla sw skadajcych si z 2 lub wicej fonemw
  • pierwsze uycie skadnistatystycznej(na poziomie fonemw)

22. 1960s - japoski hardware

  • rozpoznawacz cyfr - NEC Laboratories 1963
  • rozpoznawacz samogosek - Suzuki and Nakata @ the Radio Research Lab in Tokyo 1961
  • rozpoznawacz fonemw - Sakai and Doshita@ Kyoto University 1962
    • segmentowaniewypowiedzi i analiza rnych porcji danych
    • prekursor rozpoznawaniamowy cigej(continuous speech recognition)

23. Tom Martin @ RCA Laboratories

  • alternatyw dla segmentowania byo uycie niejednorodnej skali czasu
  • Tom Martin @ RCA Laboratories
  • tymczasowa niejednorodno przy powtrzeniach, wykrywanie zakocze wypowiedzi, ...

24. Vintsyuk @ ZSRR 1968

  • uyciedynamicznego programowaniado lepszego dopasowania czasu midzy dwiema wypowiedziami poprawiao jako oceny ich podobiestwa.
  • jego praca, chocia mao znana na zachodzie, wydaje si wyprzedza osignicia Sakoe i Chiba [18] i innych, ktrzy zaproponowali bardziej formalne metody, znane jako dynamiczne wygicia czasu w dopasowaniu wzorca w mowie.

25. Programowanie dynamiczne

  • od pnych lat 70-tych, gwnie dziki publikacji Sakoe i Chiba programowanie dynamiczne w przernych formach stao si nieodzownym elementem systemw ASR.

26. ARPA rozdaje granty ('70)

  • Advanced Research Projects Agency (ARPA) of the U.S. Department of DefensefundujeSpeech Understanding Research (SUR)
  • Carnegie Mellon Universitys Harpy - pierwszy system wykorzystujcy sieci stanw (finite state network FSN)
  • rozpoznawany jzyk by dostarczony jako poczona sie stworzona na podstawie danych sownikowych z syntaktycznymi reguami produkcji i zakresami sw.

27. Fred Jelinek, IBM

  • voice-activated typewriter (VAT), system transkrypcji dla jednego uytkownika
  • skupiono si na wielkoci sownika - tak duego jak si da i strukturze modelu jzyka (gramatyce).
  • statystyczne zasady syntaktyczne definioway z jakim prawdopodobiestwem sekwencja symboli (sw lub fonemw) moga pojawi si w wypowiedzi.

28. n-gramy

  • zestaw zasad statystycznych nazywano 'modelem jzyka' i do jego reprezentacji najczciej uywano modelu'n-gramw'
  • model n-gramw definiowa zalenoci w zakresie n sw - jest to bardzo wygodna i mocna statystyczna reprezentacja gramatyki
  • Claude Shannon 1948 - zawody pomidzy czowiekiem a komputerem. zadanie: odgadnicie kolejnego sowa w zdaniu. komputer bazowa na wiedzy statystycznejn-gramw o dugoci 3 i mia znaczn przewag nad czowiekiem.

29. AT&T Bell Laboratories

  • zautomatyzowane usugi telekomunikacyjne (wybieranie gosowe, przeczanie rozmw, etc.)
  • dua wydajno - system mia dziaa dla dziesitkw milionw amerykanw,
  • speaker-independent - bez potrzeby trenowania systemu dla indywidualnego uytkownika, bez wzgldu na jego ton gosu czy akcent

30. AT&T Bell Laboratories

  • efektem bya caa gama algorytmw do tworzenia wzorcw sw i wyrazw, ktre rozpoznawayby sowo niezalenie od gosu czy akcentu.
  • badania nad zrozumieniem akustycznej rnorodnoci gosw zaskutkowao wynalezieniem metod mierzenia odlegoci spektralnej (np. odlego Itakury[22])
  • 'keyword spotting' - prosta forma rozumienia wypowiedzi.

31. 1980s

  • zmiana metodologii z bardziej intuicyjnych metod opartych na wzorcach, na bardziej rygorystyczne rodowiska modelowania statystycznego (statistical modeling framework).
  • w poowie lat '80 pojawiy si publikacje dotyczce HMM
  • od tego czasu, do dzi HMM s podstawowym narzdziem wykorzystywanym w ASR, gwnie ze wzgldu na stay rozwj i cige usprawnienia tej technologii

32. HMM Hidden Markov Model(ukryty model Markova)

  • HMM to podwjny proces stochastyczny modelujcy: 1) specyficzne zachowania sygnau gosowego wraz ze spektralnymi efektami 2) struktur jzyka w SMF (statistical modeling framework). Za pomoc prbek uczcychi algortymu Baum'a-Welch'a, tworzymy najlepsz sie odpowiadajc danemu modelowi.

33. 34. HMM

  • poczenie HMM i skoczonej sieci stanw byo kolejnym wanym osigniciem '80
  • w kadej chwili jest sprawdzanych wiele hipotetycznych moliwoci zidentyfikowania dwiku i wybierana jest ta o najlepszym wyniku
  • liczba hipotez do sprawdzenia moe by ogromna i moe wymaga wielkiej mocy obliczeniowej
  • finite state transducer - opracowana w poowie lat 90 staa si gwnym komponentem prawie wszystkich wspczesnych systemw rozpoznawania i rozumienia mowy.

35. artificial neural networks (ANN)

  • ponowne prby w pnych latach '80
  • sukcesy z rozpoznawanie pojedynczych cyfr
  • jednak ograniczenia wynikajce ze specyfiki danych (czasowa zmienno)
  • aktualnie trwaj prace nad poczeniem ANN i HMM

36. Lata '90 - wiele innowacji

  • pattern recognition przeszo w problem optymalizacyjny, w ktrym starano si minimalizowa empirical recognition error [44].
  • uzmysowiono sobie, e rozkad funkcji gosu nie moe by dokadnie wyznaczony, ani zdefiniowany, wic Bayes'owska teoria decyzyjna jest w tym przypadku nieodpowiednia
  • celem rozpoznawacza powinno by osignicie jak najmniejszego bdu podczas rozpoznawania, a nie najlepsze dopasowanie do zadanego zestawu danych.
  • wynik: zastosowanie discriminative training, support vector machines (SVM), ...

37. DARPA rzuca groszem

  • sukces metod statystycznych zdoby zainteresowanie DARPA na przeomie '80/'90, w wyniku czego powstao kilka systemw:
  • SPHINX system from CMU [47]
  • BYBLOS system from BBN [48]
  • DECIPHER system from SRI [49]

38. do pocztkw XXI wieku:

  • kontynuowano prace nad systemami o rosncym stopniu trudnoci
  • od rozpoznawania cigej mowy o stylizowanej strukturze gramatycznej (uywanej w zadaniach wojskowych, np. zarzdzaniu jednostkami morskimi)
  • do transkrypcji wiadomoci (radiowych/telewizyjnych) (e.g., NAB uywajcy sownika o ponad 20K sw), oraz rozmw.

39. 40. Hidden Markov Model Tool Kit (HTK)

  • System opracowany przez zesp z Cambridge University (led by Steve Young)[51], by i jest do dzisiaj jednym z najczciej adoptowanych narzdzi do bada nad automatycznym rozpoznawaniem mowy.

41. Zmiana dyskursu

  • Wikszo bada nad ASR bya skoncentrowana na przetworzeniu gosu na sowa. wierzono, e jest to najwaniejszy problem z jakim trzeba byo si upora, aby zbudowa maszyn zdoln do rozmw.
  • Po latach dowiadcze zaobserwowano dwie wane sprawy:

42. Zmiana dyskursu

  • 1) ludzie, rozmawiajc z komputerami, czsto mwili naturalnym jzykiem, ktry nie zawsze spenia gramatyczne wizy rozpoznawacza (sowa spoza sownika, niegramatyczne konstrukcje i zdania)a dodatkowo gos by czsto zakcony rnego rodzaju haasami
  • 2) podobnie jak w tradycyjnej formie komunikacji (czowiek z czowiekiem), tak i w przypadku aplikacji konwersujcych, czsto, aby uzyska odpowiedni stopie zrozumienia, potrzebny by dialog pomidzy rozmawiajcymi.

43.

  • W takim dialogu pozwalano na operacje pytania i potwierdzania, dopuszczajc moliwo bdw w rozpoznawaniu lub rozumieniu wypowiedzi.
  • z pierwszym problemem radzono sobie ju w pocztkowych aplikacjach (keyword spotting w AT&T)
  • drugi problem skupi uwag spoecznoci badaczy na obszarzezarzdzania dialogiem.

44. 45. Pegasus, Jupiter - MIT 2000

  • Pegasus i Jupiter to systemy z ktrymi mona porozmawia przez telefon. Pierwszy dostarcza informacji o lotach samolotw, drugi o pogodzie.
  • Dziki bobrze zaprojektowanemu zarzdzaniu dialogiem systemy te dostarczay uytkownikowi odpowiednich informacji, bez koniecznoci zadawania szczegowych zapyta, oraz przedzierania si przez pozycje menu.
  • Celem byo zaprojektowanie maszyny, ktra potrafia si komunikowa, a niekoniecznie rozumiaa wypowiadane sowa.

46. dzisiaj:

  • HMIHY - How May I Help Yousystem at AT&T, Al Gorin - Consumer Communications Services in 2000
  • technologia dostpna dla ograniczonego, ale ciekawego zakresu zastosowa

47. 48. - Apple Computer - wizja technologii na 2011 (apple community 1988)

  • Knowledge Navigator =Speech User Interface (SUI)+ Multimodal User Interface (MUI)+ intelligent voice-enabled agents