Przetwarzanie mowy polskiej

94
1 Przetwarzanie Mowy Bartosz Ziółko www.dsp.agh.edu.pl http://rozpoznawaniemowy.blogspot .com/

description

Wystąpienie będzie szybkim wprowadzeniem do zagadnień rozpoznawani mowy i mówców oraz syntezy mowy, ze szczególnym naciskiem na projekty obecnie realizowane na AGH w tych tematach. Przedstawionych zostanie kilka ciekawostek związanych z historią technologii mowy oraz językiem polskim. Omówione zostaną różne dostępne zasoby komputerowe dotyczące języka polskiego. Zaprezentowane będą również podstawy parametryzowania mowy i jej modelowania, jak i przetwarzania języka naturalnego na potrzeby technologii mowy. Pokazane zostaną różne przykłady zastosowań dla języka polskiego jak i angielskiego.

Transcript of Przetwarzanie mowy polskiej

  • 1. www.dsp.agh.edu.pl http://rozpoznawaniemowy.blogspot.com/Przetwarzanie Mowy Bartosz Ziko1

2. Przetwarzanie Mowy2 3. Czowiek vs. komputer 4. Pierwsze syntezatory mowy1779 - Christian Kratzenstein - urzdzenie umoliwiajce generowanie dwikw przypominajcych 5 rnych gosekRwnolegle, nad swoj akustycznomechaniczn maszyn imitujc mow pracowa Wolfgang von Kempelen 4 5. Cztery5 6. Sygna mowy6 7. REX - 1920 Przymocowany do pytki reagujcej obrotem na drgania o czstotliwoci 500 [Hz] odpowiadajcej midzy innymi gosce e. Przy tej czstotliwoci pojawia si rezonans, ktry odcina prd, wypychajc psa z budy. W ten sposb zabawka reagowaa na imi Rex.7 8. VOCODER Bell LabsPosiada klawiatur i mg midzy innymi syntezowa mow. Suy take do kodowania mowy na potrzeby transmisji. Dziaa w oparciu o bank filtrw. Z urzdzenia najprawdopodobniej korzystali Churchill i Roosevelt do przeprowadzania transkontynentalnych konferencji. Po wojnie zaczto wykorzystywa ulepszone urzdzenia oparte na VOCODERZE w muzyce. 8 9. Bell Labs digit recogniser - 1952 Analiza spektrum podzielonego na 2 pasma czstotliwoci (powyej i poniej 900 Hz). Rozpoznawa cyfry wypowiadane po angielsku z bdem mniejszym ni 2%, zakadajc, e uytkownik nie zmieni pooenia ust wzgldem mikrofonu pomidzy faz ustalania parametrw gosu a testowaniem.9 10. 10 11. Japoski system rozpoznawania samogosek (J. Suzuki, K. Nakata, Radio Research Labs, Japonia, 1961)11 12. Zimna wojna Szybka transformata Fouriera (FFT) Hidden Markov Model (HMM) ARPA Speech Understanding Project 1971 ($15M) Rozpoznawanie mowy cigej Sownik okoo 1000 sw => system CMU Harpy (5% bdw) Algorytm Viterbiego do wiczenia modeli 1967 - 197312 13. LPC - 1975Linear predictive coding F. Itakura Bell/NTT Labs13 14. Podstawowe technologie mowy Automatyczne rozpoznawanie mowy Synteza mowy Rozpoznawanie mwcy Rozpoznawanie emocji Generowanie emocji Synteza z ruchem ust Tumaczenie mowa-mowa Aplikacje w nauce jzykw obcych14 15. Zalety technologii mowy Naturalno (nie wymagaj przeszkolenia) Pozostawiaj swobod rk i oczu Szybkie (3 razy szybciej mwimy ni piszemy na klawiaturze) Ekonomiczno (tekst zajmuje duo mniej bajtw ni sygna akustyczny) Szczeglnie istotne dla osb nieprzyzwyczajonych do komputerw, niepenosprawnych oraz w zastosowaniach telefonicznych 15 16. Rne poziomy modelowania16 17. Komunikacja z komputerem17 18. Komunikacja z komputerem18 19. Oglny schemat rozpoznawania mowy19 20. Moliwe zastosowania ASR Gwnie jako wejcie Proste komendy i sterowanie Krtkie wprowadzanie danych (np. przez telefon) Dyktowanie Interaktywne (z rozumieniem) Punkty informacyjne Przetwarzanie transakcji Wirtualni doradcy20 21. Zakres mowy i suchu czowieka (Tadeusiewicz, 1988)21 22. Cechy systemw mowy Mowa izolowana lub ciga Czytana lub spontaniczna Zaleny lub niezaleny od mwcy May (20 sw) lub duy (>50 000) sownik Model jzykowy stay lub zaleny od Miara nieokrelonoci kontekstu k H pi log 2 pi Perpleksja (entropia) wypowiedzi i 1 2^H SNR (30 dB wysoki) Sposb rejestracji (telefon, komputer, mikrofon z niwelowaniem szumu) 22 23. Fonem i trifon Pojcie fonemu, jako pierwszy wprowadzi Jan Niecisaw Ignacy Baudouin de Courtenay. Obecnie fonem najczciej definiuje si jako najmniejsz rozrnialn jednostk mowy. Szerzej znane pojcie goski, opisuje realizacj konkretnego fonemu w jakiej wypowiedzi. Zbir fonemw, opisujcych dany jzyk caociowo jest wic alfabetem fonetycznym. Trifon to fonem w lewym i prawym kontekcie, a NIE trzy fonemy 23 24. FonemyBaldi features accurate, visible articulators (CSLU Toolkit)24 25. OrtFon transkryptor ortofonetyczny25 26. Tabele OrtFona26 27. DialektDialekt charakteryzuj swoiste cechy fonetyczne, leksykalne, semantyczne i fleksyjne odrniajce go od oglnonarodowego jzyka, uywanego przez og spoecznoci Zesp gwar ludowych uywanych na wikszym obszarze, termin nadrzdny w stosunku do gwary ludowej Dialekt jest pojciem szerszyma gwaraMwiony wariant terytorialny (lokalny) jzyka narodowego uywany na stosunkowo niewielkim terenie 28. MAPA DIALEKTW 29. Jzyk kaszubskiOd 2005 roku jzyk regionalny z moliwoci wprowadzenia do urzdw jako jzyk pomocniczyW wojewdztwie pomorskimMona zdawa matur z jzyka kaszubskiegoInne znaki fonetyczne ni w jzyku polskimSpgoski ktre w wielu gwarach polskich ulegaj mazurzeniu w kaszubszczynie upodabniaj si do , , , d - kaszubienie 30. ZiemniakiGrule PodhaleRzepy OrawaPyry WielkopolskaKobzale, knule, jabka lskKartofle Mazowsze i lskBulwy PomorzePantwki - Kujawy 31. Znaczenie korpusw Wikszo metod w przetwarzaniu mowy opiera si na statystykach => Jako i wielko korpusw jest kluczowa dla jakoci systemw31 32. Korpus a zbir danych Przetwarzalny przez maszyny Autentyczne dane jzykowe Reprezentatywny Zwykle anotowany (transkrypcje do mowy, funkcje gramatyczne do tekstw, osoby wypowiadajce si itd.) 32 33. Jako sygnau mowy33 34. Anotacje Wykonanie wszelkiego rodzaju anotacji jest procesem bardzo czasochonnym i uciliwym (1 min mowy -> 20 min pracy) => Korpusy s duo kosztowniejsze ni ich nie przetworzona zawarto Stosuje si coraz czciej take podejcia automatyczne, bez anotacji przez ludzi (Google)34 35. Segmentacja na fonemy35 36. Polskie korpusy mowy Grocholewski CORPORA Jurisdic GlobalPhone Luna SpeechDat(E) EPPS European Parliament corpus Szklanny corpus (PJWSTK) AGH corpus 36 37. Polskie korpusy tekstwIPI PAN (z POS tagami) NKJP Rzeczpospolita Literatura Transkrypcje Sejmu i zjazdw Solidarnoci Nazwiska (Lista Wildsteina, PESEL, Korporacje) Notatki PAP Wikipedia Inne strony (crawling) http://clip.ipipan.waw.pl/LRT37 38. Korpus IPI PAN Porzdekporzdeksubst:sg:acc:m3porzdeksubst:sg:nom:m3dziennydziennyadj:sg:acc:m3:posdziennyadj:sg:nom:m1:posdziennyadj:sg:nom:m2:posdziennyadj:sg:nom:m3:pos 38 39. Polskie korpusy tekstw39 40. Inne typy korpusw Wielojzyczne (do uczenia tumacze) Wielomodalne (np. audiovideo) Emocjonalne (z pracy mgr in. Magdaleny Igras) medyczne40 41. Korpusy UltrasonograficzneThomas Hueber 1, Elie-Laurent Benaroya2, Bruce Denby 3,2, Grard Chollet 1GIPSA-lab, 2Sigma Laboratory, ESPCI Paristech, 3Universit Pierre et Marie Curie, Paris, France 4LTCI/CNRS, Telecom ParisTech 41 42. Korpusy z obrazowaniem metod rezonansu magnetycznego (MRI)42 43. Korpusy elektromiograficzne (EMG) Michael Wand, Matthias Janke, Tanja Schultz (KIT)43 44. Korpusy z elektromagnetycznym artykulografem (EMA) P. West, Oxford University Phonetics Lab44 45. Korpusy mowy i tekstw czym si kierowa przy wyborzeJako i wielko potrzebna optymalna decyzja Format nagra lub tekstw Anotacje Zgodno z tekstem Szczegowo (zdania, sowa, fonemy) Dodatkowe informacje Kim byli mwcy O czym jest korpus Czy mwcy powtarzaj te same wypowiedzi Cena (od 2000 Euro do 50 000 Euro) 45 46. Sowniki jzyka polskiego Synonimy Open Office http://synonimy.ux.pl/, Wielki Sownik Jzyka Polskiego http://www.wsjp.pl/, Sownik wyrazw obcych i zwrotw obcojzycznych Wadysawa Kopaliskiego http://www.slownik-online.pl/index.php, Wikisownik http://pl.wiktionary.org/, Sownik synonimw i antonimw Piotra migrodzkiego http://leksykony.interia.pl/synonim, Sownik Jzyka Polskiego http://sjp.pl/, N-gramowy sownik frekwencyjny jzyka polskiego46 47. Sowniki do rozpoznawania mowy zawsze bd mie transkrypcj fonetyczn. moe moZe Morze moZe tak tak tak tag 47 48. Wybr silnika bazy danychPotrzeby: - Dua szybko odczytu - Odpowiednia licencja - Mae zuycie zasobw - Prostota - atwo instalacji (brak serwera usug) - Przenono danychDawid Skurzok 49. SQL vs noSQLSQL Structured Query Language relacyjne bazy danych (MySQL, Ms SQL, Oracle, SQLite ...) NoSQL - not only SQL - wszystkie inne key-value store, document store, graph DB, object DB, tabular , (BerkeleyDB, BigTable, CouchDB, ) Dawid Skurzok 50. Wybr silnika bazy danychDostpnoRelational Key-Value Tabular Document Tokyo Cabinet, CouchDB, CassandraRDBMS (MySQL, Postgres, MS SQL)Wybierz dwa!SpjnoBerkeleyDB, BigTable (Google), MongoDBPodzielno Dawid Skurzok 51. Wybr silnika bazy danychDostpno Tylko czytanie danychWybierz dwa!SpjnoPodzielno Dawid Skurzok 52. Wybr silnika bazy danychDostpno Tylko czytanie danychWybierz dwa!Spjno Zapis danych jednowtkowoPodzielno Dawid Skurzok 53. Wybr silnika bazy danychDostpno Tylko czytanie danychWybierz dwa!Spjno Zapis danych jednowtkowoPodzielno Dane przechowywane tylko lokalnie Dawid Skurzok 54. Wybr silnika bazy danychDostpno Tylko czytanie danychSpjno Zapis danych jednowtkowoHODB key-value store(DSP AGH) - Dua szybko odczytu - Wasna licencja - Prosta implementacjaPodzielno Dane przechowywane tylko lokalnie Dawid Skurzok 55. Testowane silniki baz danychSQLite lekki silnik relacyjnych baz danych BerkeleyDB nierelacyjna baza danych przechowuje dane w oparciu o schemat kluczwarto HODB wasna implementacja bazy danych w oparciu o tablic mieszajc (hash table) Dawid Skurzok 56. Zbieranie danych do modelu jzykowegoDawid Skurzok 57. Odczyt danych dane rzeczywisteDawid Skurzok 58. Czym jest HTK Zbir programw implementujcych Niejawne acuchy Markowa - Hidden Markov Models (HMMs) ASR, synteza mowa, rozpoznawanie liter, badania nad sekwencjami DNA Analiza mowy, wywiczenie HMM, testowanie i analiza rezultatw HTK dopasowuje hipotez kadego rozpoznania do jednego z elementw sownika przygotowanego przez uytkownika Porwnanie transkrypcji fonetycznych sw 58 59. Schemat HTK59 60. Sekwencja symboli60 61. Rozpoznanie pojedynczego sowa61 62. acuch Markowa62 63. wiczenie63 64. Rozpoznawanie64 65. Reprezentowanie mikstur65 66. Reestymacja Najpierw robi si zgrubne przyblienie wartoci parametrw HMM Nastpnie dokadniejsze parametry mona znale stosujc reestymacj Baum-Welcha Wedug kryterium maksymalnego podobiestwa (maximum likelihood) 66 67. Algorytm Viterbiego dla rozpoznawania izolowanych sw67 68. Common problems with using statistics68 69. 69 70. Klasyfikowanie i dekodowanie w ASR poza HMM Klasyfikator k-NN Artificial Neural Networks (ANN), Sztuczne sieci neuronowe Support Vector Machine (SVM), Maszyna wektorw nonych Dynamic Bayesian Networks (DBN), Dynamiczne sieci Bayesa Graphical Model Toolkit (GMTK) Maximum Entropy Direct Model 70 Conditional Random Fields (CRF) 71. Tworzenie siatkialamkotaekontfduodtapgdia ala akta ola atrapa . 72. Tworzenie siatkialamkotaekontfduodtapgdidom lama ko kotdam 73. Tworzenie siatkialamkotaekontfduodtapgdia ono tak amok 74. Tworzenie siatkialamkotaekontfduodtapgdikot akta akt 75. Tworzenie siatkialamkotaekontfduodtapgdikot akta akt 76. Tworzenie siatkialamkotaekontfduodtapgdikot akta akt 77. czenie wyrazwAla dom ono auto a Oko lamo tak ma i ko a nip uakota to kodu 78. Usuwanie tych samych wyrazwdom ono auto a lamo tak ma i ko a nip makota to adom ono auto a lamo tak ma i ko nipkota to a 79. Usuwanie tych samych wyrazwdom ono lamo tak koauto a ma i nipkota to adom ono lamo tak koauto a ma i nipkota to 80. Usuwanie lepych cieekalaaOnoAutolamoTakMakookodomanip 81. Usuwanie lepych cieekaladomOnoMaoko ko aAutoanip 82. Wyszukiwanie najlepszych cieekAla oko adom ono auto a lamo tak ma i ko a nip ukota od to ot kodu odaa u i. 83. Przykad hipotezy zdania 84. Dzielenie na sowa 10.8 silne 450 [ms]dziaanie 450 [ms]uboczne 600 [ms]0.60.4amplitude0.2 /sil/0/ne//dz'a//wa//ne//u//bo// tSne/-0.2-0.4-0.6-0.8-1pause 110 [ms ]00.10.20.30.40.50.60.70.8 0.9 time [s]11.11.21.31.41.51.684 85. Rozpoznawanie mowy cigej85 86. # 87. Analizator morfologiczny / POS tager Proces zaznaczania sw w tekcie jako odpowiadajcych szczeglnym czciom mowy, oparty zarwno na ich definicjach, jak i ich kontekstach.87 88. 1-gramy sw (wybrane korpusy) 1) si 1 780 825 (2,6%)9) e 760 07817) tak 279 8772) i 1 632 596 (2,4%)10) a 479 71318) za 263 7003) w 1 569 027 (2,3%)11) o 396 01119) od 225 8434) nie 1 445 832 (2,1%)12) jak 368 38620) jego 219 5875) na 1 283 268 (1,9%)13) ale 343 48221) go 217 0366) z 1 116 819 (1,6 %)14) po 330 38122) ju 201 7357) do 816 874 (1,2 %)15) co 329 27023) tym 199 8948) to 801 472 (1,2 %)16) jest 302 01124) czy 196 565 88 89. 2-gramy sw (wybrane korpusy) 1) si w 116 446 (0,17%) 10) to nie 39 087 19) nie jest 31 615 20) a potem 31 196 2) si na 93 751 (0,14%) 11) si i 38 7723) si z 83 610 (0,12%)12) si nie 38 622 21) nigdy nie 31 0824) si do 83 524 (0,12%) 13) i nie 38 17722) mu si 27 2095) si e 57 126 (0,08%)14) ale nie 35 241 23) po prostu 26 0476) e nie 50 222 (0,07%)15) na to 34 25924) w tej 25 4617) w tym 48 035 (0,07%) 16) e to 34 171 25) to co 24 661 8) nie ma 43 633 (0,06%) 17) mi si 33 441 26) w kocu 23 863 9) o tym 42 041 (0,06%) 18) nie byo 31682 27) co si 23 762 89 90. 3-gramy sw (wybrane korpusy) 1) w ten sposb 10 119 (0,015%) 2) na to e 8 619 (0,012%)3) w tej chwili 8 121 (0,012%)10) zwrci si do 5 349 11) wydaje mi si 4 855 12) od czasu do 4 7424) w kadym razie 7 587 (0,011%) 13) si z nim 4 609 5) po raz pierwszy 7 266 (0,010%) 14) to nie jest 4 5386) mi si e 6 395 (0,009%)15) czasu do czasu 4 4707) sobie spraw e 5 514 (0,008%) 16) w tym momencie 4 455 8) mam nadziej e 5 499 (0,008%) 17) po drugiej stronie 4 445 9) w takim razie 5 462 (0,008%) 18) w ogle nie 4 309 90 91. Meanings by compositionalityRobert Berwick (MIT)91 92. But there are exceptions92 93. Bag-of-words93 94. Bag-of-wordsby Li Fei-Fei (Princeton)94