AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call...

Bartosz ZiółkoJak wykorzystaliśmy technologie rozpoznawania

mowy i mówcy do automatyzacji call centre.

www.techmo.pl www.dsp.agh.edu.pl

• Automatic speech recognition

• Speaker verification, identification and

profiling

• Speech synthesis

• Natural language processing

• VR sound simmulation

Speech recognition

Deep Neural Networks

Speech recognition

Accurate

Reliable

Easily integratable• GRPC • MRCP v2• Propietary protocol• C++ / Java clients

Industry standards• SRGS• Semantic Interpretation

Case #Words Speedup

Numbers 1000 7,7x / core

Streets 1300 5,5x / core

Towns 265 6,7x / core

Commands 50 26,5x / core

Case Samples Rate

Numbers 5600 98,4%

Streets 12000 99,1%

Towns 500 99,2%

Commands 4900 98,5%

[M. Ziółko, J. Gałka, B. Ziółko, T. Jadczyk, D. Skurzok, M. Mąsior, ”Automatic Speech Recognition System Dedicated for Polish, Interspeech 2011, Florence]

[B. Ziółko, T. Jadczyk, D. Skurzok, P. Żelasko, J. Gałka, T. Pędzimąz, I. Gawlik, S. Pałka "SARMATA 2.0 Automatic Polish Language Speech Recognition System", Interspeech, Dresden, 2015]

Recent and undergoing applications

Automatic system for

reporting failures by

customers

Automatic

infoline

Time alignment of film

transcripts for

audiodescription research

IVR + ASR

Example of a hypothesis without a grammar

[A system and a method for providing a dialog with a user, B. Ziółko, T. Pędzimąż (patent in USA, and applications in Canada, Japan & EPO)]

Quasi free dialogs in a game

a - graph structure of simple dialogue scenario ; b - schematic (two

dialogue coefficients a and b) representation of a multidimensional map of

possible dialogue transitions in a particular graph node with 3 possible exits.

Transitions map demonstrates simplified 2 dimensional case (in real

applications tens or hundreds of dimensions are needed). The marked fields

3, 6, 7 determine the transition in the dialogue graph.

Speaker verification,

identification and

profiling

Voice biometrics

convenience

Recording Matching Decision

Voiceprint database

YES NO

Speaker verification

System supporting speaker identification in emergency call center

[J. Gałka, J. Grzybowska, M. Igras, P. Jaciow, K. Wajda, M. Witkowski and M. Ziołko, "System supporting speaker identification in emergency call center", Interspeech, Dresden, 2015]

Application for:

Zastosowania

• Biometryczne systemy bezpieczeństwa

– Zalety w porównaniu do innych systemów

• Nieskończona ilość materiału do analizy (więcej nagrań – większa dokładność)

• Wymagany jedynie tani sprzęt

• Niewymagana obecność (zdalne rozpoznanie)

• Bezpieczeństwo

Zastosowania

• Biometryczne systemy bezpieczeństwa• Przez telefon

– Transakcje bankowe

» Zmniejszenie strat powiązanych z defraudacjami

» Zmniejszenie kosztów prewencji defraudacji

» Zwiększenie przychodu w związku ze wzrostem satysfakcji klientów

– Poczta głosowa

– Zakupy przez telefon

– Głosowe interaktywne systemy odpowiadające

Zastosowania

systemy bezpieczeństwa

Odzyskiwanie hasła przez telefon

30 do 40 % telefonów do obsługi klienta to problemy z hasłem

Telephony system

Authentication

centreTarget system

Password Reset

Zastosowanie

– Monitoring

• Kontrola zdalnej pracy i obecności pracowników

• Weryfikacja zwolnień warunkowych i aresztów domowych

• Gmina Iberville w LA (US) używa identyfikacji mówcy przez telefon dla osób objętych opieką kuratora

–Przed automatyzacją -> 1400 $/dziecko

–Po -> 193 $/dziecko

• Użycie telefonów więziennych

Zastosowania

• Wsparcie służb– W kryminalistyce– Rozpoznawanie mówców na żywo w identyfikacji osób

dzwoniących

• Śledzenie mówcy, wykrywanie i nadzór• Analiza mowy syntezowanej i modulowanej• Cechy głosu są trudniejsze do ukrycia niż twarz

Zastosowania

• Rozpoznawanie mowy i mówcy– Ulepszenie systemów bezpieczeństwa– Transkrybowanie wielu mówców na raz w

konwersacji- Rozprawy sądowe, parlamenty i inne

transkrypcje spotkań

Czy biometria głosowa jest atrakcyjna?

5 18 23 36 18

zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna

23% nieatrakcyjnaDlaczego?

nie ufam jej

dziwna/śmieszna

łatwo nagrać mój

głos może uleć

modyfikacji np.…

innowacyjna

łatwa w użyciu

bezpieczna

komfortowa

54% atrakcyjna

Źródło: di.com.pl

Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w

listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.

5 18 23 36 18

nie ufam jej

dziwna/śmieszna

łatwo nagrać mój

głos może uleć

modyfikacji np.…

innowacyjna

łatwa w użyciu

bezpieczna

komfortowa

54% atrakcyjna

5 18 23 36 18

nie ufam jej

dziwna/śmieszna

łatwo nagrać mój

głos może uleć

modyfikacji np.…

innowacyjna

łatwa w użyciu

bezpieczna

komfortowa

54% atrakcyjna

nawyki

• Zamknięty/ otwarty zbiór

• Weryfikacja / Identyfikacja

• Zależne (stałe lub zmienne) lub niezależne od tekstu

• Cechy niskiego poziomu (akustyczne) lub wysokiego (lingwistyczne, dialektowe, społeczne, itd.)

Klasyfikacja

System z zamkniętym zbiorem System ze zbiorem otwartymPoza bazą danych

Narzucone

błędne

rozpoznanie

Baza danych Baza danych

Mówca NNowak ?

Baza danych Baza danych

„nie pasuje

żadnego”

Poziomy rozpoznawania mówcy

Semantyka, dykcja,

wymowa

Status społeczno-finansowy, edukacja,

miejsce urodzin

Prozodia, rytm, tempo intonacji, modulacja

głośności

Typ osobowości,

wpływ rodziców

Akustyczne aspekty mowy

Anatomiczna struktura narządów

wysokiego

poziomu

(nieakustyczne)

niskiego

poziomu

(fizyczne)

Trudna

ekstrakcja

Łatwa

ekstrakcja

Playback detection

[J. Gałka, M. Grzywacz, R. Samborski Playback attackdetection for text-dependent speaker verification over telephonechannels, Speech Communication, vol. 67, pp. 143-153]

Patent pending

Playback attack detection

[J. Gałka, M. Grzywacz, R. Samborski Playback attackdetection for text-dependent speaker verification overtelephone channels, Speech Communication, IF, vol. 67, pp. 143-153]

• ASR

– Taxi: 12 333 76 12

• Biometry

– VoiceColor: 12 312 25 96

• TTS – techmo.pl/tts

• Soundtracer

– https://www.youtube.com/watch?v=EWatzCC7rk0

– https://www.youtube.com/watch?v=05EL5SumE_E

DSP AGH Group and Techmo

AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call...

Technology

Transcript of AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call...

AIMeetup #2: A.I. - podstawowe pojęcia techniczne

Algorytmy Równoległe (d. Algorytmy Rozproszone) · na poprawę wydajności już wykorzystaliśmy (potokowanie, jednoczesne wykonywanie operacji arytmetycznych i I/O, cache, szybsze

„Niezapominajki” to grupa 5-latkówp34.eduportal.koszalin.pl/pl/f/v/419025/IX-XI 2016.pdf · Dzień Papieski – nasza grupa wystąpiła w wielu piosenkach oraz wierszu, wykorzystaliśmy

"Trzy grzechy mówcy w biznesie" - Seminarium Bezpieczny biznes.

Nazwisko i tytuł mówcy

AIMeetup #3: Uczenie maszynowe - rocket science czy chleb powszedni?

Wyznania mówcy. Spraw, by ludzie Cię słuchali · 2014. 6. 20. · wienie sprawy oznacza bowiem, że dana osoba woli skoczyć z dachu czy połknąć kapsułkę z cyjankiem niż

INFORMATOR DLA PACJENTÓW - Szpital ortopedii i medycyny ... · 2nowoczesne metody leczenia – jako pierwsi w Polsce wykorzystaliśmy w terapii ortopedycznej autogenne komórki ...

Trzy grzechy główne mówcy - Andrzej Różański

Mistrzowskie prezentacje - slajdowy poradnik mówcy doskonałego€¦ · tekst zmieścił”). Wybierz kolor liter i tła (jak najmocniej kon‑ trastowe wobec siebie), żeby nawet

PISMO PARAFII pw. ŚWIĘTEJ TRÓJCY W CZAPLINKU Niech … · Jak tę wolność wykorzystaliśmy? Co my Polacy z darami Ducha Świętego uczyniliśmy: ... pozwala człowiekowi po swojemu

Sztuka prezentacji i wystąpień publicznych - adik.57.pladik.57.pl/sztuka_autoprezentacji.pdf · Najważniejsze osoby ! Stosunek do mówcy i prezentacji ! Poziom znajomości problematyki

„Jak wykorzystaliśmy doświadczenia z Programów Ramowych UE” CENTRUM WSPIERANIA INNOWACJI

AIMeetup #2: Jak dzięki Data Mining księgujemy automatycznie koszty w Infakt.pl?

Prezentacja programu PowerPoint€¦ · mówcy - ang. pitch range (przynajmniej na długości jednostki intonacyjnej) względne -> H (higher), S (same), L (lower), U (upstepped),

Skonsolidowany i jednostkowy raport roczny Scope Fluidics S.A.scopefluidics.com/wp-content/uploads/2018/04/Raport-Y... · 2019. 5. 29. · na rynek diagnostyki medycznej. Wykorzystaliśmy

AIMeetup #3: Cortana intelligence suite - tchnij życie w swoje dane

Klub Rozwoju dla Kobiet „Jak się prezentowac aby ludzie ... · robić powinieneś, i dokąd warto, abyś zmierzał w swojej karierze Mówcy. Jestem przekonana, że dzięki konsekwencji,

HORIZON HD-TC8 Nowy, funkcjonalny analizator ... TELE-satellite — Broadband & Fiber-Optic — 10-11/2009 — Jak poradzi sobie z deszczem sygnał w paśmie Ka? Wykorzystaliśmy spryskiwacz

Comp€¦ · Web viewDziałamy już od ponad 25 lat i jako zespół wykorzystaliśmy je w 100%, aby zapewniać Klientom najlepsze na rynku rozwiązania z zakresu bezpieczeństwa IT