AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call...

Post on 07-Feb-2017

55 views 1 download

Transcript of AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call...

Bartosz ZiółkoJak wykorzystaliśmy technologie rozpoznawania

mowy i mówcy do automatyzacji call centre.

www.techmo.pl www.dsp.agh.edu.pl

2

• Automatic speech recognition

• Speaker verification, identification and

profiling

• Speech synthesis

• Natural language processing

• VR sound simmulation

3

Speech recognition

Deep Neural Networks

4

5

Speech recognition

Fast

Accurate

Reliable

Easily integratable• GRPC • MRCP v2• Propietary protocol• C++ / Java clients

Industry standards• SRGS• Semantic Interpretation

Case #Words Speedup

Numbers 1000 7,7x / core

Streets 1300 5,5x / core

Towns 265 6,7x / core

Commands 50 26,5x / core

Case Samples Rate

Numbers 5600 98,4%

Streets 12000 99,1%

Towns 500 99,2%

Commands 4900 98,5%

[M. Ziółko, J. Gałka, B. Ziółko, T. Jadczyk, D. Skurzok, M. Mąsior, ”Automatic Speech Recognition System Dedicated for Polish, Interspeech 2011, Florence]

[B. Ziółko, T. Jadczyk, D. Skurzok, P. Żelasko, J. Gałka, T. Pędzimąz, I. Gawlik, S. Pałka "SARMATA 2.0 Automatic Polish Language Speech Recognition System", Interspeech, Dresden, 2015]

Recent and undergoing applications

6

Automatic system for

reporting failures by

customers

Automatic

infoline

Time alignment of film

transcripts for

audiodescription research

IVR + ASR

7

Example of a hypothesis without a grammar

9

[A system and a method for providing a dialog with a user, B. Ziółko, T. Pędzimąż (patent in USA, and applications in Canada, Japan & EPO)]

Quasi free dialogs in a game

10

a - graph structure of simple dialogue scenario ; b - schematic (two

dialogue coefficients a and b) representation of a multidimensional map of

possible dialogue transitions in a particular graph node with 3 possible exits.

Transitions map demonstrates simplified 2 dimensional case (in real

applications tens or hundreds of dimensions are needed). The marked fields

3, 6, 7 determine the transition in the dialogue graph.

11

Speaker verification,

identification and

profiling

Voice biometrics

convenience

price

Recording Matching Decision

Voiceprint database

YES NO

Speaker verification

System supporting speaker identification in emergency call center

[J. Gałka, J. Grzybowska, M. Igras, P. Jaciow, K. Wajda, M. Witkowski and M. Ziołko, "System supporting speaker identification in emergency call center", Interspeech, Dresden, 2015]

Application for:

Zastosowania

• Biometryczne systemy bezpieczeństwa

– Zalety w porównaniu do innych systemów

• Nieskończona ilość materiału do analizy (więcej nagrań – większa dokładność)

• Wymagany jedynie tani sprzęt

• Niewymagana obecność (zdalne rozpoznanie)

• Bezpieczeństwo

Zastosowania

• Biometryczne systemy bezpieczeństwa• Przez telefon

– Transakcje bankowe

» Zmniejszenie strat powiązanych z defraudacjami

» Zmniejszenie kosztów prewencji defraudacji

» Zwiększenie przychodu w związku ze wzrostem satysfakcji klientów

– Poczta głosowa

– Zakupy przez telefon

– Głosowe interaktywne systemy odpowiadające

Zastosowania

systemy bezpieczeństwa

Odzyskiwanie hasła przez telefon

30 do 40 % telefonów do obsługi klienta to problemy z hasłem

Telephony system

Authentication

centreTarget system

Password Reset

SR

USER

Zastosowanie

– Monitoring

• Kontrola zdalnej pracy i obecności pracowników

• Weryfikacja zwolnień warunkowych i aresztów domowych

• Gmina Iberville w LA (US) używa identyfikacji mówcy przez telefon dla osób objętych opieką kuratora

–Przed automatyzacją -> 1400 $/dziecko

–Po -> 193 $/dziecko

• Użycie telefonów więziennych

Zastosowania

• Wsparcie służb– W kryminalistyce– Rozpoznawanie mówców na żywo w identyfikacji osób

dzwoniących

• Śledzenie mówcy, wykrywanie i nadzór• Analiza mowy syntezowanej i modulowanej• Cechy głosu są trudniejsze do ukrycia niż twarz

Zastosowania

• Rozpoznawanie mowy i mówcy– Ulepszenie systemów bezpieczeństwa– Transkrybowanie wielu mówców na raz w

konwersacji- Rozprawy sądowe, parlamenty i inne

transkrypcje spotkań

Czy biometria głosowa jest atrakcyjna?

21

5 18 23 36 18

zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna

23% nieatrakcyjnaDlaczego?

11

12

28

41

nie ufam jej

jest

dziwna/śmieszna

łatwo nagrać mój

głos

głos może uleć

modyfikacji np.…

12

26

35

42

innowacyjna

łatwa w użyciu

bezpieczna

komfortowa

54% atrakcyjna

Źródło: di.com.pl

Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w

listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.

Czy biometria głosowa jest atrakcyjna?

22

5 18 23 36 18

zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna

23% nieatrakcyjnaDlaczego?

11

12

28

41

nie ufam jej

jest

dziwna/śmieszna

łatwo nagrać mój

głos

głos może uleć

modyfikacji np.…

12

26

35

42

innowacyjna

łatwa w użyciu

bezpieczna

komfortowa

54% atrakcyjna

Źródło: di.com.pl

Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w

listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.

Czy biometria głosowa jest atrakcyjna?

23

5 18 23 36 18

zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna

23% nieatrakcyjnaDlaczego?

11

12

28

41

nie ufam jej

jest

dziwna/śmieszna

łatwo nagrać mój

głos

głos może uleć

modyfikacji np.…

12

26

35

42

innowacyjna

łatwa w użyciu

bezpieczna

komfortowa

54% atrakcyjna

Źródło: di.com.pl

Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w

listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.

nawyki

• Zamknięty/ otwarty zbiór

• Weryfikacja / Identyfikacja

• Zależne (stałe lub zmienne) lub niezależne od tekstu

• Cechy niskiego poziomu (akustyczne) lub wysokiego (lingwistyczne, dialektowe, społeczne, itd.)

Klasyfikacja

System z zamkniętym zbiorem System ze zbiorem otwartymPoza bazą danych

Narzucone

błędne

rozpoznanie

Baza danych Baza danych

Tak

Nie

Mówca NNowak ?

Baza danych Baza danych

„nie pasuje

do

żadnego”

? ?

? ?

Poziomy rozpoznawania mówcy

Semantyka, dykcja,

wymowa

Status społeczno-finansowy, edukacja,

miejsce urodzin

Prozodia, rytm, tempo intonacji, modulacja

głośności

Typ osobowości,

wpływ rodziców

Akustyczne aspekty mowy

Anatomiczna struktura narządów

mowy

Cechy

wysokiego

poziomu

(nieakustyczne)

Cechy

niskiego

poziomu

(fizyczne)

Trudna

ekstrakcja

Łatwa

ekstrakcja

Playback detection

26

[J. Gałka, M. Grzywacz, R. Samborski Playback attackdetection for text-dependent speaker verification over telephonechannels, Speech Communication, vol. 67, pp. 143-153]

Patent pending

Playback attack detection

27

[J. Gałka, M. Grzywacz, R. Samborski Playback attackdetection for text-dependent speaker verification overtelephone channels, Speech Communication, IF, vol. 67, pp. 143-153]

Demo

• ASR

– Taxi: 12 333 76 12

• Biometry

– VoiceColor: 12 312 25 96

• TTS – techmo.pl/tts

• Soundtracer

– https://www.youtube.com/watch?v=EWatzCC7rk0

– https://www.youtube.com/watch?v=05EL5SumE_E

28

2929

DSP AGH Group and Techmo