AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call...

29
Bartosz Ziółko Jak wykorzystaliśmy technologie rozpoznawania mowy i mówcy do automatyzacji call centre. www.techmo.pl www.dsp.agh.edu.pl

Transcript of AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call...

Page 1: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Bartosz ZiółkoJak wykorzystaliśmy technologie rozpoznawania

mowy i mówcy do automatyzacji call centre.

www.techmo.pl www.dsp.agh.edu.pl

Page 2: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

2

• Automatic speech recognition

• Speaker verification, identification and

profiling

• Speech synthesis

• Natural language processing

• VR sound simmulation

Page 3: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

3

Speech recognition

Page 4: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Deep Neural Networks

4

Page 5: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

5

Speech recognition

Fast

Accurate

Reliable

Easily integratable• GRPC • MRCP v2• Propietary protocol• C++ / Java clients

Industry standards• SRGS• Semantic Interpretation

Case #Words Speedup

Numbers 1000 7,7x / core

Streets 1300 5,5x / core

Towns 265 6,7x / core

Commands 50 26,5x / core

Case Samples Rate

Numbers 5600 98,4%

Streets 12000 99,1%

Towns 500 99,2%

Commands 4900 98,5%

[M. Ziółko, J. Gałka, B. Ziółko, T. Jadczyk, D. Skurzok, M. Mąsior, ”Automatic Speech Recognition System Dedicated for Polish, Interspeech 2011, Florence]

[B. Ziółko, T. Jadczyk, D. Skurzok, P. Żelasko, J. Gałka, T. Pędzimąz, I. Gawlik, S. Pałka "SARMATA 2.0 Automatic Polish Language Speech Recognition System", Interspeech, Dresden, 2015]

Page 6: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Recent and undergoing applications

6

Automatic system for

reporting failures by

customers

Automatic

infoline

Time alignment of film

transcripts for

audiodescription research

Page 7: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

IVR + ASR

7

Page 8: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Example of a hypothesis without a grammar

Page 9: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

9

[A system and a method for providing a dialog with a user, B. Ziółko, T. Pędzimąż (patent in USA, and applications in Canada, Japan & EPO)]

Quasi free dialogs in a game

Page 10: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

10

a - graph structure of simple dialogue scenario ; b - schematic (two

dialogue coefficients a and b) representation of a multidimensional map of

possible dialogue transitions in a particular graph node with 3 possible exits.

Transitions map demonstrates simplified 2 dimensional case (in real

applications tens or hundreds of dimensions are needed). The marked fields

3, 6, 7 determine the transition in the dialogue graph.

Page 11: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

11

Speaker verification,

identification and

profiling

Page 12: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Voice biometrics

convenience

price

Page 13: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Recording Matching Decision

Voiceprint database

YES NO

Speaker verification

Page 14: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

System supporting speaker identification in emergency call center

[J. Gałka, J. Grzybowska, M. Igras, P. Jaciow, K. Wajda, M. Witkowski and M. Ziołko, "System supporting speaker identification in emergency call center", Interspeech, Dresden, 2015]

Application for:

Page 15: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Zastosowania

• Biometryczne systemy bezpieczeństwa

– Zalety w porównaniu do innych systemów

• Nieskończona ilość materiału do analizy (więcej nagrań – większa dokładność)

• Wymagany jedynie tani sprzęt

• Niewymagana obecność (zdalne rozpoznanie)

• Bezpieczeństwo

Page 16: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Zastosowania

• Biometryczne systemy bezpieczeństwa• Przez telefon

– Transakcje bankowe

» Zmniejszenie strat powiązanych z defraudacjami

» Zmniejszenie kosztów prewencji defraudacji

» Zwiększenie przychodu w związku ze wzrostem satysfakcji klientów

– Poczta głosowa

– Zakupy przez telefon

– Głosowe interaktywne systemy odpowiadające

Page 17: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Zastosowania

systemy bezpieczeństwa

Odzyskiwanie hasła przez telefon

30 do 40 % telefonów do obsługi klienta to problemy z hasłem

Telephony system

Authentication

centreTarget system

Password Reset

SR

USER

Page 18: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Zastosowanie

– Monitoring

• Kontrola zdalnej pracy i obecności pracowników

• Weryfikacja zwolnień warunkowych i aresztów domowych

• Gmina Iberville w LA (US) używa identyfikacji mówcy przez telefon dla osób objętych opieką kuratora

–Przed automatyzacją -> 1400 $/dziecko

–Po -> 193 $/dziecko

• Użycie telefonów więziennych

Page 19: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Zastosowania

• Wsparcie służb– W kryminalistyce– Rozpoznawanie mówców na żywo w identyfikacji osób

dzwoniących

• Śledzenie mówcy, wykrywanie i nadzór• Analiza mowy syntezowanej i modulowanej• Cechy głosu są trudniejsze do ukrycia niż twarz

Page 20: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Zastosowania

• Rozpoznawanie mowy i mówcy– Ulepszenie systemów bezpieczeństwa– Transkrybowanie wielu mówców na raz w

konwersacji- Rozprawy sądowe, parlamenty i inne

transkrypcje spotkań

Page 21: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Czy biometria głosowa jest atrakcyjna?

21

5 18 23 36 18

zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna

23% nieatrakcyjnaDlaczego?

11

12

28

41

nie ufam jej

jest

dziwna/śmieszna

łatwo nagrać mój

głos

głos może uleć

modyfikacji np.…

12

26

35

42

innowacyjna

łatwa w użyciu

bezpieczna

komfortowa

54% atrakcyjna

Źródło: di.com.pl

Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w

listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.

Page 22: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Czy biometria głosowa jest atrakcyjna?

22

5 18 23 36 18

zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna

23% nieatrakcyjnaDlaczego?

11

12

28

41

nie ufam jej

jest

dziwna/śmieszna

łatwo nagrać mój

głos

głos może uleć

modyfikacji np.…

12

26

35

42

innowacyjna

łatwa w użyciu

bezpieczna

komfortowa

54% atrakcyjna

Źródło: di.com.pl

Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w

listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.

Page 23: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Czy biometria głosowa jest atrakcyjna?

23

5 18 23 36 18

zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna

23% nieatrakcyjnaDlaczego?

11

12

28

41

nie ufam jej

jest

dziwna/śmieszna

łatwo nagrać mój

głos

głos może uleć

modyfikacji np.…

12

26

35

42

innowacyjna

łatwa w użyciu

bezpieczna

komfortowa

54% atrakcyjna

Źródło: di.com.pl

Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w

listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.

nawyki

Page 24: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

• Zamknięty/ otwarty zbiór

• Weryfikacja / Identyfikacja

• Zależne (stałe lub zmienne) lub niezależne od tekstu

• Cechy niskiego poziomu (akustyczne) lub wysokiego (lingwistyczne, dialektowe, społeczne, itd.)

Klasyfikacja

System z zamkniętym zbiorem System ze zbiorem otwartymPoza bazą danych

Narzucone

błędne

rozpoznanie

Baza danych Baza danych

Tak

Nie

Mówca NNowak ?

Baza danych Baza danych

„nie pasuje

do

żadnego”

? ?

? ?

Page 25: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Poziomy rozpoznawania mówcy

Semantyka, dykcja,

wymowa

Status społeczno-finansowy, edukacja,

miejsce urodzin

Prozodia, rytm, tempo intonacji, modulacja

głośności

Typ osobowości,

wpływ rodziców

Akustyczne aspekty mowy

Anatomiczna struktura narządów

mowy

Cechy

wysokiego

poziomu

(nieakustyczne)

Cechy

niskiego

poziomu

(fizyczne)

Trudna

ekstrakcja

Łatwa

ekstrakcja

Page 26: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Playback detection

26

[J. Gałka, M. Grzywacz, R. Samborski Playback attackdetection for text-dependent speaker verification over telephonechannels, Speech Communication, vol. 67, pp. 143-153]

Patent pending

Page 27: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Playback attack detection

27

[J. Gałka, M. Grzywacz, R. Samborski Playback attackdetection for text-dependent speaker verification overtelephone channels, Speech Communication, IF, vol. 67, pp. 143-153]

Page 28: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Demo

• ASR

– Taxi: 12 333 76 12

• Biometry

– VoiceColor: 12 312 25 96

• TTS – techmo.pl/tts

• Soundtracer

– https://www.youtube.com/watch?v=EWatzCC7rk0

– https://www.youtube.com/watch?v=05EL5SumE_E

28

Page 29: AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

2929

DSP AGH Group and Techmo