MECHANICZNEJ I ROBOTYKI Praca dyplomowa · Techmo [22] na tego typu ataki. Na potrzeby pracy użyto...

AKADEMIA GÓRNICZO-

HUTNICZA

im. Stanisława Staszica w Krakowie

WYDZIAŁ INŻYNIERII

MECHANICZNEJ I ROBOTYKI

Praca dyplomowa

inżynierska

Jerzy Wolf

Imię i nazwisko

Inżynieria Akustyczna

Kierunek studiów

Testowanie odporności systemu

weryfikacji mówcy na

aktorską modulację głosową

Temat pracy dyplomowej

Dr inż. Bartosz Ziółko …………….

Promotor pracy Ocena

Kraków, rok 2014/2015

http://www.dsp.agh.edu.pl/pl:homepage:bziolko

2

Kraków, dn. 19.02.2015

Imię i nazwisko: Jerzy Wolf

Nr albumu: 241201

Kierunek studiów: Inżynieria Akustyczna

Specjalność: -

OŚWIADCZENIE

Świadomy odpowiedzialności karnej za poświadczanie nieprawdy oświadczam, że

niniejszą inżynierską pracę dyplomową wykonałem osobiście i samodzielnie oraz nie

korzystałem ze źródeł innych niż wymienione w pracy.

Jednocześnie oświadczam, że dokumentacja praca nie narusza praw autorskich

w rozumieniu ustawy z dnia 4 lutego 1994 roku o prawie autorskim i prawach

pokrewnych (Dz. U. z 2006 r. Nr 90 poz. 631 z późniejszymi zmianami) oraz dóbr

osobistych chronionych prawem cywilnym. Nie zawiera ona również danych i informacji,

które uzyskałem w sposób niedozwolony. Wersja dokumentacji dołączona przeze mnie

na nośniku elektronicznym jest w pełni zgodna z wydrukiem przedstawionym do recenzji.

Zaświadczam także, że niniejsza inżynierska praca dyplomowa nie była wcześniej

podstawą żadnej innej urzędowej procedury związanej z nadawaniem dyplomów wyższej

uczelni lub tytułów zawodowych.

………………………………..

podpis dyplomanta

3

Kraków, 19.02.2015

Imię i nazwisko: Jerzy Wolf

Adres korespondencyjny: ul. Nowy Świat 17/5, 34-700 Rabka-Zdrój

Temat pracy dyplomowej inżynierskiej:

Testowanie odporności systemu weryfikacji mówcy na aktorską modulację

głosową

Rok ukończenia: 2015

Nr albumu: 241201

Kierunek studiów: Inżynieria Akustyczna

Profil dyplomowania: -

OŚWIADCZENIE

Niniejszym oświadczam, że zachowując moje prawa autorskie, udzielam Akademii

Górniczo-Hutniczej im. S. Staszica w Krakowie nieograniczonej w czasie nieodpłatnej

licencji niewyłącznej do korzystania z przedstawionej dokumentacji inżynierskiej pracy

dyplomowej, w zakresie publicznego udostępniania i rozpowszechniania w wersji

drukowanej i elektronicznej1.

Publikacja ta może nastąpić po ewentualnym zgłoszeniu do ochrony prawnej

wynalazków, wzorów użytkowych, wzorów przemysłowych będących wynikiem pracy

inżynierskiej2.

Kraków, 19 II 2015 ……………………………..

data podpis dyplomanta

1 Na podstawie Ustawy z dnia 27 lipca 2005 r. Prawo o szkolnictwie wyższym (Dz.U. 2005 nr 164 poz.

1365) Art. 239. oraz Ustawy z dnia 4 lutego 1994 r. o prawie autorskim i prawach pokrewnych (Dz.U. z 2000

r. Nr 80, poz. 904, z późn. zm.) Art. 15a. "Uczelni w rozumieniu przepisów o szkolnictwie wyższym

przysługuje pierwszeństwo w opublikowaniu pracy dyplomowej studenta. Jeżeli uczelnia nie opublikowała

pracy dyplomowej w ciągu 6 miesięcy od jej obrony, student, który ją przygotował, może ją opublikować,

chyba że praca dyplomowa jest częścią utworu zbiorowego." 2 Ustawa z dnia 30 czerwca 2000r. – Prawo własności przemysłowej (Dz.U. z 2003r. Nr 119, poz.

1117 z późniejszymi zmianami) a także rozporządzenie Prezesa Rady Ministrów z dnia 17 września

2001r. w sprawie dokonywania i rozpatrywania zgłoszeń wynalazków i wzorów użytkowych (Dz.U. nr

102 poz. 1119 oraz z 2005r. Nr 109, poz. 910).

4

Kraków, dnia 19.02.2014

AKADEMIA GÓRNICZO-HUTNICZA

WYDZIAŁ INŻYNIERII MECHANICZNEJ I ROBOTYKI

TEMATYKA PRACY DYPLOMOWEJ INŻYNIERSKIEJ

dla studenta IV roku studiów stacjonarnych

Jerzy Wolf imię i nazwisko studenta

TEMAT PRACY DYPLOMOWEJ INŻYNIERSKIEJ:

Testowanie odporności systemu weryfikacji mówcy na

aktorską modulację głosową.

Promotor pracy: dr inż. Bartosz Ziółko

Recenzent pracy: dr hab. Inż. Wiesław Wszołek Podpis dziekana:

PLAN PRACY DYPLOMOWEJ

1. Omówienie tematu pracy i sposobu realizacji z promotorem.

2. Zebranie i opracowanie literatury dotyczącej tematu pracy.

3. Zebranie i opracowanie wyników badań.

4. Analiza wyników badań, ich omówienie i zatwierdzenie przez promotora.

5. Opracowanie redakcyjne.

Kraków, 19 II 2015 …………………………..

data podpis dyplomanta

TERMIN ODDANIA DO DZIEKANATU: 20 r.

podpis promotora

5

Akademia Górniczo-Hutnicza im. Stanisława Staszica Kraków, 19.02.2015

Wydział Inżynierii Mechanicznej i Robotyki

Kierunek: Inżynieria Akustyczna

Jerzy Wolf

Praca dyplomowa inżynierska

Testowanie odporności systemu weryfikacji

mówcy na aktorską modulację głosową.

Opiekun: dr inż. Bartosz Ziółko

STRESZCZENIE

Przedmiotem niniejszej pracy jest zbadanie zagadnienia naśladowania głosu innej

osoby i przetestowanie odporności systemu weryfikacji mowy Voice Color firmy

Techmo [22] na tego typu ataki.

Na potrzeby pracy użyto dwóch typów nagrań mówców oryginalnych i nagrań

naśladowczych. Pierwszy typ nagrań składał się z nagrań ochotników, którzy zgodzili się

użyczyć swojego głosu na potrzeby testów systemu weryfikacji mówcy. W tym

przypadku osobą próbującą naśladować mówców oryginalnych jest autor pracy (dalej:

naśladowca), co umożliwiło dokładniejsze opisanie wyzwań i problemów związanych

z tego typu próbą oszukania systemu. Drugim typem plików dźwiękowych, których użyto

do przetestowania systemu, były nagrania zawodowego aktora głosowego

specjalizującego się w naśladownictwie, Jamesa Arnolda Taylora (dalej: aktor), który

dostarczył swoje próby naśladowania pięciu innych znanych aktorów razem z nagraniami

oryginalnymi, na których się wzorował.

Scenariusz badania zakładał próby oszukania systemu poprzez skuteczne

zalogowanie się naśladowców na cudze konto zabezpieczone wygenerowanym wcześniej

na podstawie nagrań oryginalnych modelem mówcy. Dla zachowania autentyczności

warunków testu próbki głosu mówców oryginalnych i naśladowców zrealizowane zostały

podczas autentycznych rozmów telefonicznych.

6

AGH University of Science and Technology Kraków, Feb 19,2015

Faculty of Mechanical Engineering and Robotics

Field of Study: Acoustic Engineering

Jerzy Wolf

Engineer Diploma Thesis

Testing the resistance of a speaker verification

system versus an actor’s voice modulation.

Supervisor: Bartosz Ziółko, PhD

SUMMARY

The aim of this paper is to research the topic of imitating the voice of another person

in order to deceive a speaker verification system and to test the resistance the Voice Color

speaker verification system developed by Techmo [22] versus such attacks.

Two types of recordings of the original speakers and imitators were used. The first

type of recordings consisted of recordings of volunteers, who agreed to record their voices

in order to help test the speaker verification system. In this case the paper’s author was

the imitator, which allowed for a more detailed examination of challenges and problems

connected with this kind of attack on a speaker verification system. The second type of

recording consisted of recordings by a professional voice actor and ‘voice doubler’, James

Arnold Taylor, who submitted the files with voice impressions of five other actors, along

with the original recordings of said people.

The research scenario assumed that the imitators will try to log into the accounts

protected by passwords generated from the original speakers’ voices. To maintain the

test’s conditions authenticity the voice samples of both the original speakers and imitators

have been recorded during real phone calls.

7

Spis treści

Wstęp………………………………………………………………………………8

Uzasadnienie wyboru tematu pracy……………………………………………..8

Cele pracy……………………………………………………………………….8

1. Wprowadzenie…………………………………………………………………..9

2. Część teoretyczna……………………………………………………………...11

2.1 System weryfikacji biometrycznej…………………………………………11

2.1.1 Ogólne cechy systemu weryfikacji biometrycznej……………………11

2.1.1.1 Pozyskanie danych……………………………………………….12

2.1.1.2 Tworzenie modelu użytkownika…………………………………12

2.1.1.3 Próba logowania………………………………………………….12

2.1.2 Biometryczne systemy weryfikacji mówcy…………………………..13

2.1.2.1 Modelowanie i klasyfikacja mówcy……………………………..14

2.1.3 Metody oszukiwania biometrycznego systemu weryfikacji mówcy…15

2.1.3.1 Metody bezpośrednie…………………………………………….16

2.1.3.1.1 Odtwarzanie nagrań mówcy…………………………………16

2.1.3.1.2 Synteza mowy……………………………………………….17

2.1.3.1.3 Konwersja głosu……………………………………………..18

2.1.3.1.4 Modulacja aktorska…………………………………………..18

3. Bazy mówców…………………………………………………………………21

3.1 Nagrania mówców z bazy finalnej…………………………………………21

3.1.1 Wpływ kodera GSM na nagrania mówców…………………………..22

3.2 Metoda wykonania nagrań ataków………………………………………..23

3.3 Naśladowanie głosów znanych osób…………………………...................24

4. Analiza wyników……………………………………………………………...24

4.1 Mowa zależna i niezależna………………………………………………..25

4.1.3 Wyniki prób naśladowczych………………………………………….27

4.2 Aktorskie naśladowanie głosów znanych osób…………………………....38

4.2.2. Wyniki prób naśladowczych…………………………………………39

5. Dyskusja i podsumowanie…………………………………………………….47

Bibliografia………………………………………………………………………49

8

Wstęp

Uzasadnienie wyboru tematu pracy

Wybór tematu pracy jest umotywowany zaciekawieniem autora sposobem

działania i skutecznością systemu weryfikacji mowy ludzkiej. Autor w trakcie

pogłębiania wiedzy z technologii mowy natknął się na informacje związane z rozwijanym

na Uczelni systemem weryfikacji mówcy Voice Color firmy Techmo [22] i postanowił

sprawdzić, w jaki sposób można podejść do próby sprawdzania skuteczności tego

systemu przy użyciu aktorskiej modulacji głosowej. Dodatkowym czynnikiem

wpływającym na wybór tematu było wcześniejsze zainteresowanie autora aktorstwem

głosowym i głosem ludzkim jako takim.

Cele pracy

Za cele niniejszej pracy obrano doświadczalne sprawdzenie odporności systemu

weryfikacji mówcy na aktorską modulację głosową przy zachowaniu założeń dwóch

osobnych scenariuszy prób oszukania systemu. Pierwszy scenariusz zakładał wybranie

z istniejącej bazy mówców, zebranej na potrzeby testowania systemu weryfikacji mówcy,

mówców brzmiących naturalnie podobnie do głosów, jakie potrafi naśladować autor

pracy, pierwszy z naśladowców. Naśladowca miał za zadanie na podstawie zebranych

próbek głosu wybranych mówców możliwie najdokładniej odtworzyć brzmienie ich

głosu w celu wykonania prób oszukania systemu.

Drugi scenariusz zakładał skorzystanie z nagrań pięciu obcojęzycznych aktorów

(aktorzy to Christian Bale, David Kelly, Matthew McConaughey, Justin Timberlake

i James McAvoy) jako nagrań mówców oryginalnych, a następnie użycie nagrań

dostarczonych przez zawodowego aktora zajmującego się aktorstwem głosowym

i naśladownictwem głosowym, Jamesa Arnolda Taylora, który na potrzeby badania miał

naśladować wyżej wymienionych aktorów. Po wykonaniu wszystkich nagrań miały one

zostać przekazane do systemu weryfikacji mówcy Voice Color, gdzie z nagrań mówców

oryginalnych miały powstać modele mówców, a nagrania naśladowcze miały być użyte

jako próbki głosu do próby nieautoryzowanego logowania na konta chronione przez

system biometryczny poprzez oszukanie go co do tożsamości naśladowców.

9

1. Wprowadzenie

W dzisiejszym świecie, gdzie informacje zapisane na komputerach nierzadko

posiadają olbrzymią wartość, nie powinien więc dziwić stały rozwój technologii

umożliwiających ograniczenie dostęp do nich przez nieautoryzowanych użytkowników

[12]. Niestety, osoby próbujące otrzymać dostęp do takich informacji również znajdują

coraz to nowe sposoby oszukiwanie systemów zabezpieczających.

W przypadku nawet najbardziej rozbudowanych kluczy dostępu, których złamanie

zajęłoby nawet najszybszym komputerom lata, nie jesteśmy w stanie wyeliminować

z równania czynnika ludzkiego. Do wykradnięcia hasła może dojść przez fałszywe

podanie się pod osobę, której miałoby ono być wydane, zgubienie notesu, w którym

zostało zapisane owo hasło, czy też dowolną pokrewną sytuację. Ponadto tak długie hasła,

nawet, jeśli są bardzo dobrze pilnowane i nie ma możliwości, aby dostały się

w niepowołane ręce, są niepraktyczne i niewygodne w codziennym użytkowaniu. Jak

więc obejść ten problem? Jak zyskać pewność, że tylko jeden, konkretny użytkownik

będzie miał dostęp do określonego zestawu danych?

Jednym z rozwiązań zdają się być systemy biometrycznej weryfikacji użytkownika.

[12] Weryfikacja biometryczna odnosi się do ustalenia tożsamości na podstawie

fizycznych lub behawioralnych cech konkretnej osoby, takich jak wygląd jej twarzy,

odcisk palca, wygląd tęczówki, podpis, czy głos. Systemy biometryczne posiadają kilka

cech stawiających je wyżej niż identyfikacja oparta na hasłach. Cech fizycznych nie

można zgubić czy zapomnieć, są trudne do podrobienia i udostępniania innym, a do ich

weryfikacji konieczna jest obecność osoby uprawnionej. Podrobienie biometrii jest

zadaniem trudnym, przez co wymaga o wiele więcej czasu, pieniędzy, doświadczenia

i uprawnień dostępu. Można też oczywiście użyć biometrii jako dodatkowego środka

bezpieczeństwa koniecznego przy logowaniu (równolegle do standardowego hasła).

W zależności od warunków i celu stosowania systemu biometrycznego wybór rodzaju

systemu może być różny. Poniżej znajduje się pobieżny opis najpopularniejszych

biometrii.

Twarz – wygląd ludzkiej twarzy jest prawdopodobnie jedną z najbardziej

rozpoznawalnych, cech biometrycznych człowieka. Istnieją bardzo różne podejścia do

rozpoznawania twarzy, od statycznej weryfikacji podobnej do robienia zdjęcia, do

dynamicznego rozpoznania twarzy osoby będącej w ruchu. Najpopularniejsze podejścia

10

do rozpoznawania twarzy [13] oparte są zwykle na pozycji i kształcie cech wyglądu

twarzy oraz na ogólnej analizie obrazu twarzy i porównywanie ich z modelami

kanonicznymi twarzy znajdującymi się w bazie. Systemy tego typu niestety często mają

problem z rozpoznawaniem twarzy z drastycznie różnych ujęć lub przy złym oświetleniu.

Odcisk palca – identyfikacja ludzi na podstawie odcisków palców funkcjonuje od

wielu lat, a skuteczność tej metody rozpoznawania ludzi wykazała bardzo wysoką

skuteczność [14]. Odcisk palca to wzór wypukłości i dolinek na powierzchni czubka

palca, układ, który kształtuje się w początkowych etapach rozwoju prenatalnego, a szansa

na to, by dwie osoby posiadały taki sam odcisk palca, jest pomijalnie mała. Urządzenia

służące do skanowania odcisków palców są obecnie bardzo tanie, a procedura

weryfikacyjna jest szybka. Wadą tego rozwiązania są bardzo duże wymagania w zakresie

mocy obliczeniowej koniecznej do szybkiego wyszukiwania w bazie danych odcisków

palców i porównywanie z nimi aktualnie skanowanego odcisku.

Tęczówka – tęczówka jest częścią oka ograniczoną z każdej strony przez źrenicę

i białko oka. Tęczówki posiadają bardzo złożony wzór, który może być bardzo przydatny

w rozpoznaniu człowieka po jej teksturze [15]. Dokładność i szybkość obecnie

używanych systemów weryfikacji użytkownika na podstawie tęczówki są

satysfakcjonujące. Uważa się, że nie ma dwóch osób mających taką samą tęczówkę.

Teoretycznie możliwe jest celowe zoperowanie tęczówki w celu nadania jej określonych

cech, ale obecnie jest to niezwykle trudne i niekoniecznie musi się okazać skuteczne

w kontekście oszukania systemu weryfikacji mówcy. Dodatkowo, dotychczasowe

badania wykazują, iż możliwe jest wykrycie sztucznej tęczówki. Dotychczasowe badania

wyglądają obiecująco, lecz ten sposób weryfikacji biometrycznej nadal obarczony jest

bardzo dużym błędem [15]

Podpis – sposób, w jaki ktoś się podpisuje jest znaną cechą umożliwiającą jego

identyfikację [16]. Chociaż złożenie podpisu wymaga pewnego wysiłku ze strony osoby

weryfikowanej, jest to forma weryfikacji własnej tożsamości wystarczająco

jednoznaczna na potrzeby przedstawicieli prawa, systemów bankowych, i pokrewnych

instytucji. Podpis może ewoluować z czasem, a także być celowo zmieniany przez jego

posiadacza, jest również podatny na czynniki ludzkie, jak różne stany emocjonalne,

i pokrewne, może więc wystąpić potrzeba zmiany podpisu znajdującego się w bazie

porównawczej. Chociaż podpisy są bardzo trudne do podrobienia doświadczeni fałszerze

mogą być w stanie podrobić podpis tak, aby oszukać system weryfikacji.

11

Głos – brzmienie głosu ludzkiego jest wynikiem połączenia cech fizycznych

i behawioralnych. Zależy ono od kształtu części ciała, które są odpowiedzialne za

produkcję głosu [19] [20]. Chociaż cechy fizyczne są dla każdego mówcy niezmienne, to

część behawioralna procesu produkcji mowy zmienia się z czasem w miarę starzenia,

zmian stanu zdrowia, zmian stanu emocjonalnego, i pokrewnych czynników. Ponadto

może pojawić się problem zbyt dużego podobieństwa głosów różnych ludzi, przez co

system weryfikacji oparty o biometrię głosu może być niewystarczająco bezpieczny

i akceptować zbyt wiele prób logowania, lub próg graniczny konieczny do poprawnego

logowania może być zbyt wysoki, przez co logowanie może być zbyt uciążliwe przez

konieczność dokładnego odwzorowania brzmienia swojego głosu w momencie

ustawiania go jako 'hasła'. Rozpoznawanie mówcy na podstawie głosu największy sens

zdaje się mieć w systemach rozpoznawania mówcy działających przez telefon - pod

warunkiem, że twórcom danego systemu weryfikacji uda się rozwiązać problemy

związane z niższą jakością tej drogi komunikacji w porównaniu z brzmieniem głosu ‘na

żywo’.

2. Część teoretyczna

2.1 System weryfikacji biometrycznej

2.1.1 Ogólne cechy systemu weryfikacji biometrycznej

Ujmując rzecz ogólnie system identyfikacji użytkownika oparty o biometrię

pozwala na przyjęcie lub odrzucenie próby logowania bez konieczności zapamiętywania

haseł, korzystania z fizycznych kluczy, czy okazywania dokumentów w dowolnej formie

[1]. Zamiast wyżej wymienionych metod, które to nie pozwalają na identyfikację samego

użytkownika, a tylko zweryfikowanie, czy posiada konkretne przedmioty lub informacje,

system biometryczny pozwala na odczyt i analizę cech dla niego unikalnych. Przykładami

takich cech mogą być faktura tęczówki, odcisk palca, czy próbka głosu, której to

w niniejszej pracy poświęcone zostanie najwięcej uwagi. Pomimo tego, iż każda

technologia związana z biometrią ma swoje indywidualne cechy charakterystyczne,

podstawowy zbiór operacji każdego systemu biometrycznego jest bardzo podobny.

Dodatkowym plusem jasnego określenia kolejnych etapów działania systemów

12

weryfikacyjnych tego typu jest łatwiejsze planowanie testów służących poprawie

bezpieczeństwa i skuteczności systemu.

2.1.1.1 Pozyskanie danych

Na tym etapie zachodzi pierwszy kontakt użytkownika z systemem biometrycznym

[8]. Próbka biometryczna użytkownika jest pobierana przy użyciu urządzenia wejścia.

Jakość próbki biometrycznej jest kluczowa dla wszystkich kolejnych prób weryfikacji

użytkownika. Może się zdarzyć, że nawet wielokrotne pobieranie próbek biometrycznych

nie pozwoli na wygenerowanie modelu umożliwiającego rozpoznawanie użytkownika

z wystarczającą dokładnością, czy też skutecznością. Użytkownik, którego dane

biometryczne nie zostaną pobrane poprawnie nie będzie mógł być zarejestrowany

w systemie. Użytkownicy często mogli nie mieć wcześniej do czynienia z podobnym

systemem, pierwsze pomiary powinny więc mieć miejsce pod okiem profesjonalisty,

który wyjaśni jak poprawnie użyć urządzenia wejścia systemu biometrycznego.

2.1.1.2 Tworzenie modelu użytkownika

Po pobraniu próbek biometrycznych muszą one zostać przetworzone. Liczba

próbek koniecznych do utworzenia modelu jest różna i zależy od rodzaju systemu

biometrycznego oraz typu próbki biometrycznej. Czasem wystarczy już jedna próbka, ale

często należy ich pozyskać więcej. Niezależnie od ich typu charakterystyki biometryczne

mówców zwykle nie są zachowywane w niezmienionym formacie i na tym etapie

konwertowane są do formatu zawierającego optymalną ilość cech charakterystycznych

pozwalających na jednoznaczną weryfikację użytkownika. Zespół cech

charakterystycznych wyznaczonych na podstawie pomiarów wymaganych cech

biometrycznych użytkownika i umożliwiających jego rozpoznanie to model

biometryczny użytkownika.

2.1.1.3 Próba logowania

W celu podjęcia próby zalogowania od użytkownika muszą zostać pozyskane

bieżące cechy biometryczne, które następnie zostaną porównane z utworzonym wcześniej

modelem użytkownika. Na podstawie nowego pomiaru system weryfikacji po raz kolejny

13

pozyskuje cechy charakterystyczne, które następnie wprowadzane są do systemu.

Ostatnim etapem w procesie weryfikacji mówcy jest etap decyzyjny, w którym system na

podstawie ustalonego wcześniej progu podejmuje decyzję tak/nie.

2.1.2 Biometryczne systemy weryfikacji mówcy

Chociaż system weryfikacji mówcy w samej zasadzie działania nie odbiega

znacząco od modelu ogólnego systemu biometrycznego, posiada pewne cechy

dystynktywne, które powinny zostać zaadresowane przed przejściem do dalszej części

pracy [2]. Zadaniem systemu weryfikacji mówcy jest przyjęcie lub odrzucenie próby

logowania zadeklarowanego mówcy na podstawie próbki głosu. Wyróżnić należy dwa

typu systemu weryfikacji mówcy, zależny od tekstu oraz niezależny od tekstu. Systemy

zależne od tekstu zakładają istnienie frazy lub fraz, które zwykle nie ulegają zmianie

pomiędzy próbami logowania. Systemy niezależne od tekstu opierają ocenę

weryfikacyjną na dłuższych wypowiedziach mówców, wydobywając z nich bardziej

ogólne charakterystyki głosu. W systemach weryfikacji mówcy służących do

potwierdzania tożsamości mówcy zwykle lepiej sprawdzają się systemy zależne od

tekstu, dzięki którym scenariusze testowe osiągają większą skuteczność rozpoznania

mówcy przy mniejszej długości próbek służących do utworzenia modelu. Testowany

w niniejszej pracy system Voice Color posiada możliwość pracy w trybie zależnym

i niezależnym od tekstu, w zależności od dostarczonych mu danych.

Na potrzeby pozyskiwania danych z mowy ludzkiej uznaje się, że z sygnału mowy

da się pozyskać trzy informacje: o jego barwie, prozodiach i zawartości językowej.

Informacje charakterystyczne dla poszczególnych mówców mogą zostać opisane przy

użyciu cech widmowych, prozodycznych i wysokopoziomowych cech idiolektu.

Wiadomości na temat widma uzyskiwane są zwykle z krótkich ramek, mających 20-30ms

długości. Opisują one krótkoterminowe obwiednie widmowe, które można zestawić

z barwą głosu ludzkiego. Popularnymi właściwościami widmowymi są MFCC [4] (ang.

Mel-Frequency Cepstral Coefficients, współczynniki cepstralne częstotliwości melowej),

LPCC (ang. Linear Predictive Cepstral Coefficients, współczynniki cepstralne predykcji

liniowej) i PLP (ang. Perceptual Linear Prediction, perceptywna predykcja liniowa).

Cechy prozodyczne wydobywane są z dłuższych segmentów, takich jak sylaby i pseudo

słowa służące do charakteryzacji stylu mówienia i intonacji. Ze względu na swój

charakter do pozyskiwania tego typu cech konieczne jest posiadanie dużej ilości danych,

14

a dodatkowo zadanie to nie może być wykonywane na próbkach pozyskanych w głośnym

środowisku. Tworzenie modeli wysokopoziomowych cech leksykalnych jest odporne na

problemy takie jak hałas, czy inne efekty powodujące zniekształcenia głosu, jednak

pozyskiwanie danych do nich wymaga zdecydowanie większej ilości próbek i dużo

większego zaangażowania użytkownika [5].

2.1.2.1 Modelowanie i klasyfikacja mówcy

Podejścia do niezależnej od tekstu weryfikacji mówcy opierają się zwykle na

modelowaniu dystrybucji cech danego mówcy. Ze względu na komercyjny charakter

testowanego w badaniu systemu weryfikacji mówcy nie zostaną ujawnione dokładne

informacje na temat jego działania, zostanie natomiast omówiona podstawa teoretyczna

działania tego i innych systemów weryfikacji mówcy. Fundamentem większości

systemów weryfikacji mówcy są zwykle obliczenia oparte o LLR (ang. Log-Likelihood

Ratio, stosunek logarytmów prawdopodobieństw),

(1)

i jego porównanie z ustalonym wcześniej progiem w celu podjęcia decyzji na korzyść

hipotezy H0 (ten sam mówca) lub hipotezy alternatywnej H1 (inny mówca). Tutaj X =

{x1, x2, …} jest ciągiem wektorów właściwości, podczas gdy p(X|H0) i p(X|H1) oznaczają

prawdopodobieństwa obu hipotez. Ujmując rzecz intuicyjnie, model alternatywny

p(X|H1) pomaga w normalizacji czynników wspólnych niezwiązanych

z tożsamością mówcy. Istnieje wiele sposobów na implementację (1). W podejściu

klasycznym cechy X to zwykle MFCC, a modele akustyczne to zwykle GMM (ang.

gaussian mixture models, modele mieszane Gaussa), opis niżej. Gdy weźmie się pod

uwagę współczesne techniki, X mogą być również wysokowymiarowe wektory własne

modelowane przy użyciu PLDA (ang. probabilistic linear discriminant analysis, analizy

liniowych dyskryminant prawdopodobieństwa). Mimo tego GMM-y dalej są konieczne

do uzyskania wektorów własnych i jako takie zostaną tutaj dokładniej omówione.

GMM-y były bardzo często implementowane w tego typu systemach,

a w połączeniu z UBM (ang. universal background model, uniwersalny model tła)

właściwie stały się standardem, często określanym jako podejście GMM-UBM. W tym

podejściu próbki mowy zebrane od wielu mówców są używane do oszacowania

15

niezależnego od mówcy UBM, używając do tego celu kryterium maksymalnego

prawdopodobieństwa; prawdopodobieństwo UBM odnosi się do p(X|H1) w (1). Modele

zależne od mówcy, używane do ustalenia p(X|H0) z (1) są wtedy wyprowadzane z UBM

z użyciem adaptacji MAP (Maximum A Posteriori) przy pomocy próbek mowy mówcy.

Mówca i modele UBM używane są odpowiednio jako hipotetyczny i alternatywy model

mówcy. Istnieje wiele podejść do pracy z uzyskanymi dzięki GMM-om modelami, ale

najbardziej standardowym wydaje się być korzystanie

z uproszczonego całkowitego modelu zmienności, lub wektorów własnych [3]. Wektor

własny reprezentuje dowolne wyrażenia zakodowane dzięki GMM w postaci

niskowymiarowego wektora zmiennych ukrytych. Patrząc z tej perspektywy uzyskiwanie

wektorów własnych jest procesem prowadzącym do redukcji wymiarowości, co

umożliwia bardziej efektywną pracę systemu na pozyskanych danych.

2.1.3 Metody oszukiwania biometrycznego systemu weryfikacji mówcy

Dla poprawnej weryfikacji mówcy systemy weryfikacji mówcy używają zwykle

dwóch niezależnych od siebie procesów, trenowanie systemu weryfikacji mówcy oraz

przeprowadzanej przy wykonywaniu skryptu weryfikacji mówcy analizy głosu osoby

podającej się za tegoż mówcę [2]. Pierwszy proces polega na utworzeniu na podstawie

charakterystyk mowy z nagrań mówcy profilu, z którym w przyszłości porównywane

będą próby weryfikacji. W przypadku drugiego procesu mówca najpierw podaje

informację na temat swojej tożsamości, po czym dostarcza próbkę swojej mowy do

weryfikacji. System, po wyodrębnieniu z próbki głosu charakterystyk mowy, przyjmuje

próbę weryfikacji, jeśli cechy mowy z próbki zgadzają się z profilem mówcy, bądź

odrzuca ją, jeśli program uzna, iż mówca nie jest osobą, za którą się podaje.

16

Rys. 2.1. Ilustracja pokazująca typowy system automatycznej weryfikacji mówcy z oznaczonymi ośmioma

możliwymi punktami ataku, gdzie punkty od 3-8 oznaczają miejsca ataków pośrednich [2].

Istnieją różne podejścia do próby fałszywego podania się za innego mówcę, na

potrzeby pracy zaproponowany został następujący podział:

Ataki bezpośrednie – mogą zostać wykonane zanim sygnał mowy dotrze do

systemu weryfikacji mówcy, na Rys. 2.1 oznaczone jako punkty ataku 1 i 2. Do ataków

bezpośrednich zaliczają się dostarczenie próbek w postaci wykonanych wcześniej nagrań

mówcy, mowy syntezowanej, mowy modulowanej, oraz naśladowania głosu

oryginalnego mówcy. Ataki te mają miejsce na poziomie mikrofonu lub na poziomie

przesyłania próbki do systemu weryfikacji mówcy.

Ataki pośrednie – wykonywane są już wewnątrz systemu weryfikacji mówcy

i jako takie wymagają dostępu do systemu weryfikacji mówcy. Jednym z założeń badania

jest przyjęcie, że aktor głosowy nie posiada informacji na temat dokładnego zestawu cech

mowy, które są przez niego wyodrębniane, więc ataki pośrednie nie będą w tej pracy

omawiane.

2.1.3.1 Metody bezpośrednie

2.1.3.1.1 Odtwarzanie nagrań mówcy

Odtwarzanie nagrania jest metodą ataku na system weryfikacji mówcy polegającą

na odtwarzaniu wykonanego wcześniej nagrania próbki głosu mówcy oryginalnego [7].

W zależności od możliwości dostępu do próbek głosu mówcy mogą to być na przykład

fragmenty nagranej rozmowy telefonicznej, nagrana na żywo rozmowa z mówcą, wycięte

17

z nagrania rozmowy wieloosobowej fragmenty wypowiedziane przez mówcę

podrabianego i pokrewne. Ze względu na prostotę przeprowadzenia tego typu ataku może

on stanowić spore wyzwanie dla niektórych systemów weryfikacji mówcy. Metoda ta

działa tym lepiej, im wyższej jakości (w sensie mniejszego zniekształcania sygnału) lub

lepiej dobrane do warunków nagrania są mikrofon i głośnik użyte do odpowiednio

nagrywania i odtwarzania próbki.

Zasadniczym problemem przy użyciu tego typu ataku w badanej sytuacji jest fakt,

iż opisana w tej pracy metoda testowania odporności systemu zakłada dostęp do nagrań

telefonicznych mówców naśladowanych zrealizowanych już po kodowaniu GSM,

którego skutki w kontekście oszukiwania systemu weryfikacji mówcy opisane są

w dalszej części pracy – parametry mowy na tym etapie uległy już pewnym nieodzownym

dla tego procesu zmianom. Przy próbie włamania sygnał uległby kolejnym

zniekształceniom spowodowanym przez głośnik i przez mikrofon nagrywający go,

a następnie zostałby powtórnie zmieniony przez koder GSM, co jeszcze bardziej

zmieniłoby parametry sygnału w stosunku do oryginalnej próbki głosu mówcy.

2.1.3.1.2 Synteza mowy

Inną metodą na zaatakowanie systemu weryfikacji mówcy jest tworzenie próbki

sygnału mowy sztucznie przy użyciu syntezatora mowy [9]. Syntezator mowy jest

narzędziem do tworzenia możliwie najbardziej naturalnie brzmiącej mowy ludzkiej

z tekstu podawanego na jego wejściu. Synteza mowy składa się zwykle z dwóch etapów.

W pierwszym etapie podany tekst analizowany jest pod kątem struktury lingwistycznej

do podstawowych jednostki fonologii danego języka, fonemów. W drugim etapie na

podstawie ustalonej w pierwszym etapie specyfikacji lingwistycznej syntezator tworzy

wynikowy sygnał mowy.

Współczesne syntezatory mowy, zwłaszcza te posiadające duże i dostosowane do

tego celu bazy fonemów wraz z innymi związanymi z ich kontekstem lingwistycznym

informacjami, mogą, w połączeniu z odpowiednimi rozwiązaniami modelującymi kształt

wynikowego sygnału mowy (opartymi na przykład na ukrytych modelach Markova),

wytworzyć wysokiej jakości syntetyczne sygnały mowy. Systemy te są w stanie nawet

przy relatywnie małej ilości próbek pochodzących od oryginalnego mówcy nauczyć się

konkretnego modelu mowy, przez co mogą stanowić spore zagrożenie dla niektórych

18

systemów weryfikacji mówcy, znacznie zwiększając ryzyko błędnej pozytywnej

weryfikacji.

2.1.3.1.3 Konwersja głosu

Technika ta polega na polega na manipulacji zarejestrowanym sygnałem mowy

naśladowcy w celu upodobnienia go do sygnału mowy mówcy-ofiary [10]. Istnieją różne

sposoby stosowania konwersji głosu, ich cechami wspólnymi są zwykle korzystanie

z mapowania widmowego oraz konwersja prozodii, gdzie mapowanie spektralne

odpowiada za zmianę tembru głosu, a konwersja prozodii zmianę cech prozodycznych

jak częstotliwości podstawowe i czas trwania głosek. Przy odpowiednim doborze

oprogramowania do konwersji głosu również i ten sposób może znacząco zwiększyć

ryzyko błędnej weryfikacji mówcy – przy użyciu tej techniki charakterystyki głosu

naśladowcy, tak te związane z widmem sygnału mowy, jak i prozodyczne, mogą zostać

zmanipulowane przez program. Jeśli jakość konwersji będzie wystarczająco wysoka

system weryfikacji mówcy, który często opiera się na tych charakterystykach w swojej

logice decyzyjnej, ma większą szans na bycie oszukanym przez naśladowcę.

2.1.3.1.4 Modulacja aktorska

Ostatnią, a zarazem najistotniejszym z punktu widzenia badania, spośród

wyszczególnionych w 2.1.3.1 sposobów uzyskania błędnej weryfikacji mówcy jest

metoda, która na pierwszy rzut oka wydawać by się mogła najbardziej oczywistą.

W celu wykonania próby oszukania systemu weryfikacji mówcy naśladowca musi,

opierając się na wcześniej pozyskanej wiedzy na temat brzmienia głosu mówcy-ofiary,

spróbować odtworzyć je w możliwie najdokładniejszy sposób [6].

O ile jest to sztuka trudna do opanowania, wielu aktorów głosowych specjalizuje

się w naśladowaniu głosów innych ludzi – umiejętności te wykorzystywane są zwykle

w celu uzyskania określonego efektu komediowego lub gdy pojawi się potrzeba

umieszczenia w produkcji audiowizualnej dowolnego typu pewnej ilości kwestii innego

aktora, który nie jest już osiągalny (na przykład do zapowiedzi filmowych lub

pojedynczych scen, które pierwotnie nie miały pojawić się w produkcie finalnym) [21].

Z obserwacji własnych autora pracy wynika, iż dla uzyskania brzmiącej przekonująco dla

odbiorcy parodii bądź interpretacji czyjegoś głosu aktor niejednokrotnie nie musi wcale

19

brzmieć dokładnie tak, jak osoba naśladowana. Gdy mowa o osobach publicznych często

wystarczy umiejętna zmiana intonacji i sposobu mówienia na ten charakterystyczny dla

danej osoby, aby nie było wątpliwości co do tego, kogo naśladuje aktor. Naśladowanie

głosu różnych osób w sposób niedokładny, ale umożliwiający odbiorcom na ich

identyfikację jest tym łatwiejsze, im więcej osoba naśladowana posiada cech

nietypowych lub rzadkich, jak bardzo silny akcent czy łatwo zauważalne wady wymowy.

Dzieje się tak głównie dlatego, że osoba posiadająca doświadczenie w zauważaniu

charakterystycznych dla danej osoby cech głosu, może je zidentyfikować i zdecydować

się naśladować je przy użyciu własnego głosu, często w stopniu wyolbrzymionym

w stosunku do rzeczywiście występujących. Większość ludzi zwraca na takie cechy

uwagę jedynie podświadomie, ale jednocześnie często jest w stanie rozpoznać osobę

naśladowaną na podstawie tych właśnie cech. Każdy aktor specjalizujący się

w naśladowaniu głosów może mieć swoje indywidualne podejście do wyboru

charakterystyk mowy osoby naśladowanej przy próbach sklasyfikowania ich często

pojawiają się częstotliwość głosu, barwa głosu, tempo i rytm, akcent. Na potrzeby tej

pracy zastosowano podział na trzy cechy opisane poniżej [20].

Częstotliwość głosu - jest to cecha, która powoduje największą dostrzegalną

różnicę w tym, jak postrzegany jest głos. Częstotliwości średnie poszczególnych głosek

determinowane są przez budowę strun głosowych i przyzwyczajenie mówcy do mówienia

w określonej częstotliwości, da się nimi jednak świadomie manipulować w obrębie

zakresu zwanego skalą głosu – różnicą pomiędzy najniższymi, a najwyższymi

dźwiękami, które mówca jest w stanie z siebie wydobyć. Nawet niewielkie i zdawać by

się mogło niemal pomijalne zmiany mogą spowodować znaczące zmiany w postrzeganiu

finalnego produktu modulacji głosowej, wprowadzenie ich może mieć decydujące

znaczenie dla stworzenia przekonującej „kopii” głosu mówcy naśladowanego. Na

potrzeby opisu zmian częstotliwości głosu często wykorzystywane są sformułowania

związane ze zmianą relatywną w stosunku do naturalnych częstotliwości używanych

przez mówcę lub opisy bardziej bezwzględne, odnoszące się do częstotliwości podanych

w hercach oraz wartości podawane relatywnie do określonych wartości dźwięków skali

muzycznej (używanej raczej w odniesieniu do śpiewu niż aktorskiej modulacji).

Z obserwacji autora pracy wynika, iż nieumiejętna świadoma zmiana częstotliwości głosu

może sprawiać wrażenie sztuczności, nienaturalności mowy. Inna cecha głosu, która

związana jest z jego częstotliwością i którą można manipulować, jest tendencja do

zmiany wysokości głosu w czasie. Opisuje ona jak duża jest różnica pomiędzy

20

najniższymi a najwyższymi częstotliwościami danego mówcy, czy ma predyspozycje do

bardzo zauważalnych zmian częstotliwości głosu pod wpływem emocji, i pokrewne.

Barwa – poza częstotliwością bardzo duże znaczenie dla brzmienia mowy ma

barwa głosu mówcy. Jest ona jakością dźwięku, dzięki której możliwe jest rozróżnienie

dźwięków o tożsamych częstotliwościach i głośności. Charakterystykami fizycznymi,

które ją opisują, są częstotliwości harmoniczne poszczególnych głosek oraz obwiednia

sygnału. Świadoma manipulacja barwą głosu do pewnego stopnia również jest możliwa,

sposobem na jej osiągnięcie jest odpowiednia zmiana pozycji lub ułożenia elementów

traktu głosowego, a mianowicie ust, języka, podniebienia, głośni, krtani, oraz nosowej

części gardła. Na każdym z tych etapów mówca jest w stanie poprzez celowe działanie

zmienić jakość głosu w stronę brzmienia mniej lub bardziej „pełnego”. W nomenklaturze

związanej ze śpiewem operuje się również pojęciami jaśniejszego lub ciemniejszego

dźwięku, co w praktyce sprowadza się do występowania w sygnale mowy mniejszej lub

większej ilości zauważalnych harmonicznych, częstości ich występowania, a także ich

energii w stosunku do pozostałych harmonicznych i częstotliwości bazowej.

Inne cechy wokalne – w zależności od podejścia do tematyki występuje wiele

różnych podziałów cech głosu, na potrzeby tej pracy wszystkie pozostałem zostały ujęte

w tej kategorii. Należą do niej cechy głosu charakterystyczne dla poszczególnych

mówców, które są mniej lub bardziej świadomie zauważalne przez osoby słuchające ich

głosu, jak specyficzny sposób wymawiania niektórych głosek, szybkość wypowiadania

słów, rytmika głosu, akcent, nietypowa dykcja, chrypa, charakterystyczny sposób

nabierania powietrza i pokrewne. Są to cechy, które często odbierane są nieświadomie,

jednak są bardzo istotne z punktu widzenia naśladowania cudzego głosu. Nie jest

możliwe utworzenie pełnej listy takich cech, gdyż u różnych mówców występują one

z różnym natężeniem, a często są celowymi cechami wokalnymi, które są bardzo trudne

lub niemożliwe do podrobienia i czynią ich głos wyjątkowym i rozpoznawalnym – tu

przykładem mogą być najbardziej znani lektorzy, którzy swój sukces zawodowy

zawdzięczają często niezwykłym właściwościom ich głosu, które są zarówno dobrze

odbierane przez słuchaczy, jak i trudne do naśladowania.

21

3. Bazy mówców

Na początkowym etapie prowadzenia badania pozyskano próbki głosu 302.

mówców (130 pochodziło z nagrań rozmów telefonicznych wykonanych za zgodą osób

nagrywanych przez autora pracy, 172 pochodziły z wewnętrznej bazy pozyskanej

wcześniej na potrzeby testowania systemu weryfikacji mówcy podkontem poprawności

weryfikacji przy użyciu mowy zależnej). Wszystkie pliki zawierały nagrania mówców

wypowiadających kilkukrotnie frazę „używam mojego głosu jako klucza”, która to fraza

była następnie dodawana do bazy jako podstawa do tworzenia profilu głosowego mówcy.

Ta sama fraza stała się później hasłem służącym do testowania poprawności weryfikacji

mówcy. Początkowa baza była zdaniem autora zdecydowanie zbyt duża do

przeprowadzenia dokładniejszej analizy każdego z nagrań i pozyskania od każdego

z mówców znormalizowanego nagrania do przetestowania systemu weryfikacji pod

kątem rozpoznawania mowy niezależnej.

Pierwszej redukcji dokonano na podstawie porównania nagrań pochodzących

z bazy z nagraniami prób naśladowania głosów przez autora pracy. Na podstawie analizy

słuchowej przy równoległym odsłuchu oryginału i próby naśladowania ograniczono

liczbę mówców z 302. do 100. eliminując mówców brzmiących najmniej podobnie do

odpowiednich prób naśladownictwa lub nagrania, których były, ze względu na jakość

transmisji GSM, zbyt trudne do przeanalizowania pod kątem próby naśladowania.

Drugiej redukcji dokonano po przeprowadzeniu ankiety wśród 120. ochotników,

w której słuchacze oceniali bazę składającą się z nagrań mowy zależnej 100. mówców

oraz prób naśladowania ich przez autora pracy. Ankiety wykazały, że 8 nagrań prób

naśladowczych otrzymało ponad 50% ocen pozytywnych (4 lub wyżej

w pięciostopniowej subiektywnej skali wrażenia podobieństwa, gdzie 1 oznaczało

zupełny brak podobieństwa, a 5 podobieństwo wysokie).

3.1 Nagrania mówców z bazy finalnej

Po redukcji ilości mówców-ofiar do ośmiu koniecznym etapem było utworzenie

w systemie modeli tychże mówców. W przypadku mowy zależnej zdecydowano, że do

utworzenia modelu danego mówcy wystarczające jest 9-krotne nagranie przez niego

wypowiedzi-hasła „Używam mojego głosu jako klucza”. Nagrania realizowane było

22

w trakcie trzech połączeń telefonicznych, po trzy powtórzenia na połączenie – dzięki

temu istniała możliwość wykonania nagrania przy różnych jakościach połączenia.

W przypadku mowy niezależnej użyto nagrań mówców czytających tekst z Wikipedii

[23], jego odczytanie zajmowało mówcom od 1:25 do 2:41, w zależności od tempa

mówienia i długości robionych przerw.

Wszystkie nagrania użyte w tej części testu wykonane były przy użyciu dwóch

telefonów Samsung SII GT-I9100G. Pierwszy telefon, używany do nagrywania

mówców, a następnie naśladowcy, wyposażony był w mikrofon zewnętrzny dołączony

do słuchawek EP-81M firmy SNAB. Do rejestracji nagrań użyto programu Another Call

Recorder firmy NLL Productivity zainstalowanego na drugim z telefonów. Modele

telefonów nagrywających wybrane zostały ze względu na dobrą kompatybilność ich

domyślnych systemów operacyjnych z programem Another Call Recorder. Mikrofon

wybrany został ze względu na dużą kompatybilność z różnymi modelami telefonów (na

wypadek awarii telefonu w trakcie nagrywania), oraz dużą zrozumiałość mowy. Program

wybrany został ze względu na stabilne działanie aplikacji, dobrą jakość nagrywanych

rozmów, oraz możliwość nagrywania samego sygnału odbieranego, co nie jest

rozwiązaniem standardowym dla oprogramowania tego typu.

3.1.1 Wpływ kodera GSM i użytych mikrofonów na parametry mowy

Jak zostało wspomniane wcześniej, wszystkie nagrania użyte w badaniu

zrealizowane były podczas rozmowy telefonicznej – jeden telefon był nadawcą, drugi był

używany do nagrywania rozmów. Badanie jakości próbek dźwiękowych sugeruje, iż

kodekiem używanym do transmisji sygnału był AMR, jednak ze względu na użycie

programu do nagrywania połączeń i braku jednoznacznych informacji na ten temat na

stronie internetowej usługodawcy telekomunikacyjnego nie ma całkowitej wersji co do

trybu kodowania, który faktycznie został użyty. Kodek AMR (ang. Adaptive Multi-Rate)

charakteryzuje się częstotliwością próbkowania 8kHz/13-bit (160 sampli dla ramek po

20ms) filtrowanych do częstotliwości 200-3400Hz. Szybkość transmisji danych

w kilobitach na sekundach sięgają od 4.75 do 12.2. Nieoficjalne dane sugerują, iż

szybkość ta wynosić mogła 10.20kbit/s lub 12.20kbit/s.

W kontekście systemów weryfikacji i rozpoznawania mówców jakość transmisji

danych ma bardzo duże znaczenie [11]. Szczególnie problematyczny jest fakt, iż mimo

coraz lepszej jakości usług świadczonych przez usługodawców telekomunikacyjnych

23

nadal mamy do czynienia ze sporym zniekształceniem sygnału mowy. O ile

w porównaniu z pierwszymi systemami rozpoznawania mówcy, które skonfrontowano

z tym problemem poczyniono bardzo duże postępy, o tyle z punktu widzenia naśladowcy

jest to spore utrudnienie. Zgodnie z przyjętym scenariuszem mógł on przy naśladowaniu

głosów używać jedynie własnego słuchu, było to więc spore wyzwanie. Na etapie 3.1,

czyli na poziomie ustalania możliwie najbardziej dopasowanej do głosu naśladowcy

grupy głosów, przyjęto pierwotną bazę wykonaną na potrzeby systemu weryfikacji

mówcy VoicePass, która zrealizowana była przy użyciu różnych standardów kodowania

danych, jak i przy użyciu różnych telefonów. Ekstrakcja parametrów mowy z nagrań

nawet niższej jakości nie jest problematyczna, jednak gdy chodzi o wrażenia słuchowe,

różnice brzmienia głosu po transmisji w porównaniu do brzmienia głosu oryginalnego

mogą być bardzo zauważalne (co potwierdzają komentarze do ankiet, opisanych

w rozdziale 4). Doprowadziło to do sytuacji, w której z powodu różnego rodzaju

zniekształceń spośród 302. mówców z bazy początkowej nie wybrano najbardziej

optymalnych mówców-ofiar. Najbardziej problematycznymi zmianami w stosunku do

sygnału oryginalnego wydają się być ograniczenie całego pasma częstotliwości,

zniekształcenia związane z podbijaniem i tłumieniem niektórych pasm częstotliwości,

oraz występowanie mniejszej lub większej ilości szumów.

3.2 Metoda wykonania nagrań ataków

Na etapie wykonywania nagrań naśladowczych, wykonywanych przy użyciu

identycznego sprzętu jak przy wykonywaniu nagrań celów ataku, naśladowca miał za

zadanie jak najdokładniej odwzorować przy użyciu swojego głosu brzmienia mówców-

ofiar. Przyjęty scenariusz odrzucał możliwość korzystania z oprogramowania służącego

do tworzeniu wykresów widmowych nagrań i porównywania ich ze swoimi próbami

naśladowczymi, którego użycie jest preferowaną przez naśladowcę metodą nauki nowych

głosów, gdyż z założenia miał możliwość tylko słuchową ocenę przygotowanych nagrań.

Chociaż z początku nie wydaje się to oczywiste, powoduje to spore trudności.

Naśladowca nie naśladuje oryginalnego głosu mówcy-ofiary, a głos po transmisji

telefonicznej – w celu osiągnięcia możliwie największego podobieństwa musi więc

skupić się nie na tym, by brzmieć jak głos na nagraniu. Koniecznym okazała się próba

eksperymentu myślowego mającego na celu ustalenie jak faktycznie brzmiał głos

24

mówcy-ofiary przed nagraniem, co znacząco zwiększało poziom trudności prób

naśladowczych.

Ostatecznie w celu wykonania nagrań prób naśladowczych naśladowca korzystał

z odtwarzanych przez słuchawki nagrań mówców-ofiar i wielokrotnie wykonywał

powtórzenia frazy będącej hasłem w mowie zależnej, czyli „Używam mojego głosu jako

klucza” i tekstu mowy niezależnej, równolegle do mówców oryginalnych. Jest to jedna

z polecanych przez zawodowych aktorów technik uczenia się głosu osoby, jego lub jej

sposobu artykulacji, szybkości mówienia, naleciałości regionalnych, oraz częstotliwości

i barwy głosu. Spośród wszystkich wykonanych nagrań wybrano te, które okazały się być

najbardziej podobne do nagrań oryginalnych, które to zdaniem naśladowcy ze względu

na problemy z wybraniem naturalnie podobnie brzmiących mówców ofiar opisanych

w 3.2 nie były satysfakcjonujące.

3.3 Naśladowanie głosów znanych osób

Ze względu na brak fizycznego dostępu do celów ataku, jak i aktora naśladującego

ich głosy, na potrzeby pracy nagrano przy użyciu takiej samej techniki jak poprzednio

mowę odtworzoną przez głośnik. Każde nagranie zrealizowane zostało w trakcie osobnej

rozmowy telefonicznej dla zachowania warunków autentycznych. Dźwięk odtwarzany

był z pojedynczego głośnika BX2 firmy M-Audio ze względu na brak zauważalnych

zniekształceń sygnału mowy.

4. Analiza wyników

Po przeanalizowaniu zebranych i pogrupowanych nagrań przez system weryfikacji

mówcy uzyskane zostały wyniki umożliwiające ocenę odporności systemu na

wykorzystane próby oszukiwania go. Następnie zostały one posegregowane według

mówców-celów i przekonwertowane do postaci wykresów w przypadku mowy zależnej

i niezależnej z autorem pracy jako naśladowcą oraz spektrogramów (w przypadku

naśladowania głosów znanych osób) w celu przedstawienia wyników w sposób klarowny

i ułatwiający ich skomentowanie. Wyniki dla mowy zależnej i niezależnej nie zostały

omówione niezależnie od siebie ze względu na to, że skuteczność w próbach oszukania

25

systemu weryfikacji mówcy oceniona przez system oraz przez ankietowanych były dla

nich zbliżone.

Ochotnicy, którzy zgodzili się wziąć udział w badaniu, mieli za zadanie odsłuchanie

grupy trzech wypowiedzi mówcy i wybrać tą, która należy do innego mówcy (materiał

dostępny na stronie internetowej [24]). W każdej grupie trzech wypowiedzi w sposób

pseudolosowy umieszczono dwie wypowiedzi mówcy oryginalnego, oraz jedną mówcy

próbującego podszyć się pod mówcę oryginalnego, odpowiednio autora pracy lub aktora.

W sytuacji, gdy osoby ankietowane nie potrafiły rozpoznać naśladowcy przy pierwszym

przesłuchaniu, mogły po poinformowaniu o tym w kwestionariuszu odtwarzać nagranie

nieograniczoną ilość razy. Ankiety wypełniło 113. ochotników. Oprócz tego ochotnicy

mogli do każdego pytania, jak i do całości pytania dodać dowolne komentarze, które

następnie zostały uwzględnione przy ustalaniu wniosków. Poza ankietą główną

dziewięciu ochotników przesłuchało wszystkich zrealizowanych nagrań w całości w celu

udzielenia dodatkowych komentarzy do prób naśladowania kolejnych mówców. Na

potrzeby omówienia wyników ankietowani ci będą dalej nazywani ‘grupą większą’

i ‘grupą mniejszą’.

4.1 Mowa zależna i niezależna

Wykresy opisane są dwiema osiami, słupkami niebieskimi, słupkami czerwonymi,

oraz trzema krzywymi i jedną linią przerywaną. Na wykresie znajdują się również

przedstawione w formie tekstowej informacje dodatkowe, które zostaną omówione

poniżej.

Pozioma oś „Score” określa wynik uzyskany przez mówcę przy konkretnej próbie

logowania – punkty te są sumaryczną oceną podobieństwa próby w kontekście

przygotowanego wcześniej modelu wyliczoną przez system weryfikacji mówcy.

Uzyskanie większej ilości informacji na temat sposobu punktowania wymagałoby

posiadania wiedzy na temat sposobu działania systemu weryfikacji mówcy, stan obecny

pozwala jednak na poglądową ocenę skuteczności naśladowcy w porównaniu do

skuteczności mówcy oryginalnego. Oś pionowa określa wartości procentowe słupków

i krzywych, więcej na ten temat w opisach odpowiednich wartości.

Niebieskie i czerwone słupki to wyniki skonfrontowania pojedynczych nagrań

mówcy i naśladowcy z przygotowanym wcześniej modelem mówcy. Słupki czerwone to

26

próby logowania z wykorzystaniem nagrań naśladowcy, słupki niebieskie reprezentują

nagrania mówcy oryginalnego. Informacja na temat całkowitej liczby prób logowania dla

obu mówców znajduje się Ich pozycja w kontekście osi poziomej reprezentuje

przybliżony na potrzeby łatwiejszego wglądu w dane wynik punktowy próby logowania

przy użyciu konkretnego nagrania. Wysokość słupków reprezentuje procentowy udział

ilości prób logowania danego mówcy, które osiągnęły zbliżony wynik punktowy,

w stosunku do sumy prób logowań danego mówcy (liczonych osobno dla obu mówców).

Krzywa FPR (ang. False Positive Rate, wskaźnik fałszywej dodatniości) – błąd

fałszywej dodatniości, nazywany również fałszywym alarmem, jest wynikiem uznania,

że pewien warunek został spełniony, podczas gdy tak naprawdę jego założenia nie zostały

spełnione. W przypadku poniższych wykresów krzywa pokazuje, jaki procent fałszywych

prób zalogowania się zostałby uznany za poprawny gdyby próg punktowy akceptacji

próby logowania znajdował się na określonej ilości punktów.

Krzywa FNR (ang. False Negative Rate, wskaźnik fałszywej ujemności) – błąd

związany z negatywnym wynikiem, podczas gdy w określonych warunkach wynik

powinien być pozytywny. W przypadku poniższych wykresów krzywa pokazuje, jaki

procent prób logowania w wykonaniu mówcy oryginalnego zakończyłby się porażką

gdyby prób punktowy akceptacji próby logowania znajdował się na określonej ilości

punktów.

Linia przerywana i EER (ang. Equal Error Rate, wskaźnik równego błędu) –

wartość pokazująca, kiedy ilość wartości fałszywie dodatnich jest równa ilości wartości

fałszywie ujemnych. Im niższa jest wartość EER, tym dokładniejszy jest system

biometryczny. Linia przerywana pokazuje próg punktowy akceptacji próby logowania,

dla którego występuje wskaźnik równego błędu. W przypadku, gdy takich argumentów

jest więcej, np. gdy wszystkie próby logowania w wykonaniu naśladowcy posiadają

mniej punktów niż posiadająca najmniej punktów próba logowania mówcy oryginalnego,

wybierany jest najmniejszy argument spełniający ten warunek.

Krzywa CDF (ang. Cumulative Distribution Function, dystrybuanta) – krzywa ta

pokazuje statystyczną szansę procentową na niewłaściwą klasyfikację sprawdzanej próby

logowania przy ustaleniu progu punktowego akceptacji dla danego argumentu. Przy

tworzeniu poniższych wykresów dystrybuanta służy do ustalenia optymalnego dla

użytego modelu progu akceptacji przy danych nagraniach prób logowania – wybierany

jest argument, dla którego dystrybuanta przyjmuje najniższą wartość.

27

FNR dla FPR1%, FNR dla FPR0.1% - wartości pokazujące ile wynosi obliczona

na podstawie EER i użytych w badaniu nagrań procentowa szansa na odrzucenie próby

logowania mówcy oryginalnego gdyby próbował się on zalogować odpowiednio 100 (dla

FPR1%) i 1000 (dla FPR0.1%) razy. System jest tym dokładniejszy, im mniejsze są te

wartości.

4.1.1 Wyniki prób naśladowczych

Mówca 1

Rys. 4.1. Mówca 1, wykres mowy niezależnej.

28

Rys.4.2. Mówca 1, wykres mowy zależnej.

Ilość osób błędnie typujących naśladowcę: 1 (1.77% )

Głos mówcy nr 1 to głos kobiecy o średniej częstotliwości głosu na poziomie

220Hz. Dopiero w dalszej fazie badania okazało się, że głos naśladowcy nie pasuje do

brzmienia głosu mówcy-ofiary, co w sposób bezpośredni przekłada się na wyniki. O ile

w przypadku mowy niezależnej wynik można traktować jako przeciętny, o tyle

w przypadku mowy zależnej system przyznał próbom naśladowcy niewielką ilość

punktów, tylko kilka prób dochodzi do granicy 1. punktu. Dopasowanie barwy głosu do

barwy oryginalnej okazało się nieskuteczne przy oryginalnych częstotliwościach głosu,

naśladowca skupił się na naśladowaniu tempa i sposobu artykulacji, co zdaniem grupy

mniejszej udało się zrealizować dobrze w porównaniu do reszty nagrań.

29

Mówca 2

Rys.4.3. Mówca 2, wykres mowy niezależnej.

Rys. 4.4. Mówca 2, wykres mowy zależnej.

30

Ilość osób błędnie typujących naśladowcę: 14 (12.39%)

Mówca nr 2 to stosunkowo niski głos męski o częstotliwości średniej na poziomie

118Hz. Naśladowca napotkał spore trudności przy próbie naśladowania tego mówcy ze

względu na to, iż głos ten znajduje się dużo poniżej częstotliwości, w których może

mówić komfortowo. 12% błędów w typowaniu naśladowcy jest pewnym zaskoczeniem

gdyż zdaniem autora pracy i grupy mniejszej nagrania obu mówców bardzo różnią się

słyszalnymi skutkami różnej jakości transmisji, jednak przy takiej ilości pomyłek wśród

ankietowanych nie można bezpiecznie stwierdzić, że jest to wynikiem błędnego wpisania

wyników do ankiety. W przypadku mowy niezależnej próbki głosu naśladowcy osiągnęły

wynik ponad 0.5, co czyni je najwyżej ocenionymi przez program próbkami w tej

kategorii, natomiast w testach mowy zależnej wynik był bardzo niski.

Mówca 3


31



Mówca nr 3 to kobieta o średniej wysokości głosu na poziomie 220Hz i o dużym,

sięgającym 47Hz, odchyleniu standardowym częstotliwości głosu. Mimo, po raz kolejny,

dużej różnicy jakości brzmienia połączenia podczas nagrywania, prawie co piąty

ankietowany błędnie wytypował naśladowcę. Jest to najwyższy wynik osiągnięty przez

naśladowcę, był to jego zdaniem głos, który był jednym z najmniej zniekształconych

podczas procesu nagrywania w porównaniu do brzmienia ‘na żywo’ i jako taki sprawił

mu najmniej problemów przy nagrywaniu. Mniejsza grupa oceniła podobieństwo

brzmieniowe całości nagrania tekstu mowy niezależnej, jako dobre, co nie znajduje

jednak odzwierciedlenia w wykresach z wynikami. Słupki naśladowcy w przypadku

mowy niezależnej wyglądają bardzo podobnie jak przy większości mówców, natomiast

w przypadku mowy zależnej osiągają wyniki przeciętne, z większością wyników na

poziomie 0 punktów. Słupki mówcy oryginalnego w mowie zależnej są bardzo

rozproszone na osi wyników, co sugeruje pewną niekonsekwencję w sposobie

wypowiadania zdania-klucza.

32

Mówca 4



33


W przypadku mówcy nr 4, kobiety o stosunkowo niskim w porównaniu do reszty

mówczyń głosie (średnia wysokość dźwięku na poziomie 199Hz), ocena skuteczności

naśladowcy mieści się w granicach błędu statystycznego. Wynika to najprawdopodobniej

zarówno z błędnej oceny brzmienia głosu oryginalnego przez naśladowcę na etapie

doboru mówców, jak i zauważalnej różnicy w jakości połączenia pomiędzy nagraniami

głosu oryginalnego i głosu naśladowcy. Pomimo powyższych wyniki sprawdzenia

systemem weryfikacji mówcy nagrań pokazują najwyższe podobieństwo nagrań

naśladowcy do oryginału – prawie 4 punkty w przypadku mowy zależnej i duże

zagęszczenie wyników na poziomie 0.5 punktu w przypadku mowy niezależnej. Tak jak

w przypadku mówcy nr 3 nagrania mówcy oryginalnego w przypadku mowy zależnej

różnią się od siebie brzmieniem, co znajduje przełożenie na rozmieszczenie słupków

niebieskich na wykresie mowy zależnej.

Mówca 5


34


Ilość osób błędnie typujących naśladowcę 1 (0.89%)

Mówca nr 5 to kobieta o średniej wysokości głosu na poziomie 200Hz oraz

naturalnie podobnej do naśladowcy dynamice czytania tekstu. Mimo dużej względnej

łatwości w realizacji nagrania naśladowczego i zbliżonej wysokości głosu przez dużą

część nagrania po raz kolejny okazało się, iż barwa głosu naśladowcy jednak nie jest

zbliżona do barwy głosu osoby naśladowanej. Wyniki podane przez system weryfikacji

potwierdzają niezadowalające wyniki ankiety dotyczącej tego głosu, w której to tylko

jedna osoba błędnie oznaczyła głos naśladowcy. Wykres mowy zależnej wskazuje bardzo

niskie wyniki, natomiast wykres mowy niezależnej jest nieco poniżej średniej gdy chodzi

o wszystkie wyniki z tego testu. Osoby opiniujące nagrania w ramach grupy mniejszej

stwierdziły, iż jest to głos, którego próbki brzmią najmniej podobnie do próbek

naśladowcy.

35

Mówca 6



36


W przypadku mówcy nr 6, którym ponownie była kobieta, a wśród wolontariuszy

wypełniających ankiety sześć osób błędnie podało mówcę naśladowanego. Z komentarzy

do ankiety można wywnioskować, że jeszcze kilka osób mogło się pomylić w podobny

sposób gdyby nie to, że próbka głosu naśladowcy miała nieco inną głośność oraz nagranie

było nieco innej jakości. W żaden sposób nie przekłada się to na wyniki uzyskane przy

konfrontacji głosu naśladowcy z głosem osoby naśladowanej w systemie weryfikacji

mówcy. Z rzeczy, które mogą rzucić się w oczy warto zwrócić uwagę na duży rozrzut

ilości punktów uzyskanych przez nagrania oryginalne przy próbie logowania do systemu.

Wszystkie próby logowania zostały przyjęte, jednak świadczy to o pewnej niestałości

w wypowiadaniu hasła przez tego mówcę.

Mówca 7


37


Ilość osób błędnie typujących naśladowcę 2 (1.77%)

Mówca nr 7 to mężczyzna mówiący dość wysokim jak na przedstawiciela tej płci

głosem, częstotliwość średnia jego wypowiedzi to 217Hz. Jest to głos, który na

początkowym etapie redukcji bazy nagrań po odsłuchiwaniu tychże sprawiał wrażenie

niemal identycznego do naturalnego głosu naśladowcy. Dopiero na etapie nagrywania

prób naśladowczych wyszło na jaw, iż głos ten również został na początku bardzo

zniekształcony przez transmisję telefoniczną i jako taki okazuje się nie być podobnym do

głosu naśladowcy. Mówca posiada bardzo specyficzny i rytmiczny sposób czytania, co

było ciekawym wyzwaniem dla naśladowcy, nie przełożyło się to jednak na wynik

ankiety ani wynik uzyskany po skonfrontowaniu głosu naśladowcy z modelem głosu

oryginalnego w systemie. Po raz kolejny widać duży rozrzut, grupa mniejsza

zaopiniowała, iż mówca ten celowo lub przypadkowo za każdym razem czytał zdanie-

hasło w nieco inny sposób, stąd, być może, taki a nie inny rezultat. Mimo tego system był

w stanie rozpoznać głos oryginalny na podstawie modelu.

38

Mówca 8

Ilość osób błędnie typujących naśladowcę: nie dotyczy (86 76.11%)

Mówca nr 8 został umieszczony zarówno w ankiecie, jak i wśród nagrań poddanych

testowi przez system weryfikacji mówcy jako próbka kontrolna. Nagrania zarówno

mówcy oryginalnego, jak i naśladowcy, należą do tej samej osoby. Wynik ankiety

w nawiasie pokazuje ile osób wytypowało pierwszą z trzech próbek znajdujących się

w tej grupie testowej jako zdanie wypowiedziane przez innego mówcę. Wynik ten jest

o tyle ciekawy, że zdanie pierwsze zostało nagrane w trakcie innej rozmowy telefonicznej

niż dwa pozostałe, co zmyliło zdecydowaną większość ankietowanych, którzy w każdym

teście musieli oznaczyć przynajmniej jednego mówcę. Zdaniem autora pracy może to

sugerować, iż różnice w brzmieniu głosu ludzkiego przy różnych jakościach połączenia

telefonicznego mogą mieć znaczenie w przypadku testów odsłuchowych. Różnice

słyszalne nie miały dużego wpływu na wyniki podane przez system weryfikacji mówcy,

który ocenił próby logowania ‘fałszywego’ naśladowcy bardzo wysoko i zakwalifikował

go jako mówcę oryginalnego. Autor pracy zdecydował się w przypadku tego testu nie

umieszczać tutaj wykresów, gdyż zawierałyby one przekłamane i niepoprawne dane

wynikające ze zmuszania systemu do traktowania mówcy oryginalnego jako naśladowcę.

System był w stanie zasugerować zmianę progu przyjęcia próby logowania, był on jednak

na tyle wysoki, że mówca miałby bardzo duże problemy z zalogowaniem się, gdyż

musiałby wypowiadać hasło prawie dokładnie tak, jak przy tworzeniu modelu.

4.2 Aktorskie naśladowanie głosów znanych osób

W przypadku nagrań naśladowania osób znanych przez aktora za właściwszą formę

wizualnej prezentacji materiałów wspomagających omówienie wyników uznano

spektrogramy – nagrania są zbyt krótkie i jest ich zbyt niewiele, by tworzyć wykresy jak

w przypadku poprzedniej części przedstawienia wyników. W przypadku każdego mówcy

zostały przedstawione dwa wykresy widmowe, mówcy oryginalnego i próby

naśladowczej. Oś pozioma to upływ czasu, oś pionowa to częstotliwości dźwięku

w hercach przedstawione w skali logarytmicznej. Intensywność dźwięku odzwierciedlana

jest przez kolory według legendy po prawej stronie – kolor żółty reprezentuje największą

39

intensywność, najniższa intensywność to kolor czarny. Wszystkie nagrania zostały

znormalizowane tak, aby wyraźniej widoczne były różnice w intensywności

harmonicznych oraz jej zmienność. Wynik obliczony przez system weryfikacji mówcy,

a podany pod spektrogramami, obowiązuje skala punktowa taka sama, jak w przypadku

mowy niezależnej.

4.2.1 Wyniki prób naśladowczych

Mówca 9 – James McAvoy

Rys. 4.15. Mówca 9, spektrogram nagrania oryginalnego

40

Rys. 4.16. Mówca 9, spektrogram nagrania naśladowcy.

Ilość osób błędnie typujących naśladowcę 96 84.96%

Wynik przyznany przez system weryfikacji mówcy: 0.549 – brak logowania

W przypadku próby naśladowania mówcy aktor wykazał się bardzo dużą

dokładnością, jedynie trzech ankietowanych świadomie poprawnie wybrało poprawną

odpowiedź, powołując się na różnice w artykulacji (aktor wypowiedział zdania wyraźniej

niż mówca oryginalny), co można zauważyć na spektrogramach jako większa ilość

harmonicznych o dużej intensywności – jest to widoczne praktycznie w każdym słowie.

Jeśli chodzi o różnice w częstotliwości dźwięku, to zarówno w przypadku średniej

wartości częstotliwości, jak i częstotliwości poszczególnych głosek, które można

odczytać z wykresu, były one u obu mówców bardzo do siebie zbliżone.

41

Mówca 10 – Christian Bale

Rys. 4.17. Mówca 10, spektrogram nagrania oryginalnego.




42

W przypadku tego mówcy aktorowi udało się oszukać nieco ponad połowę

ankietowanych. Ankietowani stwierdzili w ‘uwagach’, iż test ten jest trudny z powodu

‘mamrotanego’ charakteru wypowiedzi obydwu mówców. 17 osób uzasadniło wybór

właściwego mówcy dużą różnicą brzmienia głosu wynikającą ich zdaniem z użycia

innego mikrofonu i/lub innych warunków nagrania, a znajdujących się w jego tle. Ze

spektrogramu można odczytać pewne różnice w położeniu harmonicznych, jak i szum

lub pogłos pomiędzy wypowiadanymi słowami na spektrogramie mówcy oryginalnego,

które u naśladowcy nie występują.

Mówca 11 – Matthew McConaughey


43




W tym przypadku mówca oryginalny był mylony z mówcą-naśladowcą w siedmiu

przypadkach na dziesięć. Osoby, które nie dały się oszukać i zauważały różnicę

w brzmieniu powoływały się na wyraźniejsze brzmienie mówcy naśladującego głos

oryginalny. Na wykresie widmowym widać, iż częstotliwości harmoniczne są dużo lepiej

widoczne, co potwierdzają też obserwacje grupy mniejszej mającej okazję wysłuchać

całości nagrania. Część osób ankietowanych zwraca także uwagę na to, iż mówcę

oryginalnego łatwo jest rozpoznać z powodu różnej jakości próbek. Za pewną

ciekawostkę można tutaj uznać fakt, że osoby dodające ten komentarz do ankiety zwykle

w przypadku tego testu typowały naśladowcę błędnie.

44

Mówca 12 – David Kelly





45

W przypadku tego mówcy mamy do czynienia z kolejnym bardzo wysokim

procentem błędnych odpowiedzi. Głos ten różni się nieco od innych z tej kategorii tym,

że brzmi zdecydowanie od nich starzej, jednak po wyniku ankiety widać, iż aktor

naśladujący poradził sobie z tą różnicą brzmienia. Część osób należących do mniejszej

grupy ankietowanych, która miała dostęp do całości nagrań, sugeruje, iż nagrania

wylosowane do testy są szczęśliwym trafem, gdyż gdyby wylosowane zostało jedno

z pozostałych zdań wynik osiągnięty w ankiecie byłby nieco niższy ze względu na

mniejsze podobieństwo i występowaniu w mowie manieryzmów charakterystycznych dla

naśladowcy związanych z akcentem, których osoba naśladowana nie posiada. Na

wykresie widmowym nie widać dużych różnic pomiędzy obydwoma mówcami.

Mówca 13 – Justin Timberlake


46




Ostatni mówca to głos, którego naśladowanie ‘oszukało’ najmniejszą liczbę

ankietowanych. Komentarze dodawane do tego testu sugerują, iż wynika to z bardzo

nienaturalnego sposobu, w jak naśladowca wypowiedział jedno ze słów, a to wystarczyło

do skutecznego odróżnienia próbki głosu naśladowcy od głosu oryginalnego. Po raz

kolejny zwrócono też uwagę na to, iż głos naśladowcy brzmi nieco wyraźniej niż głos

mówcy oryginalnego, co pozwoliło części ankietowanych na poprawne wytypowanie

naśladowcy. W sprzeczności z powyższym stoi wynik podany przez system, który

zestawił ze sobą głos oryginalny i głos naśladowcy – wynik 0.59 sugeruje największe

podobieństwo głosów obydwu mówców ze wszystkich przeprowadzonych na potrzeby

pracy testów (z pominięciem testu kontrolnego, w którym naśladowcą był mówca

oryginalny).

47

5. Dyskusja i podsumowanie

Po skonfrontowaniu systemu weryfikacji mówcy z dwoma scenariuszami prób

naśladowczych mających na celu nieautoryzowane zalogowanie się system okazał się być

na nie odporny, zachowując jednocześnie wystarczająco niski prób tolerancji na to, aby

autentyczny mówca mógł być przez niego poprawnie rozpoznany i aby próba logowania

w takiej sytuacji się powiodła. Mimo tego, iż (zwłaszcza w przypadku drugiego

scenariusza, prób naśladowczych w wykonaniu Jamesa Arnolda Taylora), ankiety

wypełnione przez wolontariuszy wykazały, że odróżnienie głosu naśladowcy może się

okazać zadaniem bardzo trudnym lub wręcz niemożliwym do wykonania, system okazał

się być wystarczająco skuteczną formą zabezpieczenia przed tego typu atakami na system

weryfikacji mówcy.

Pierwszy scenariusz, zakładający dobór mówców z przygotowanej wcześniej bazy

próbek dźwiękowych zebranych na potrzeby testowania systemu weryfikacji mówcy,

a następnie naśladowanie tych mówców, do których naturalnie podobnie brzmiał głos

naśladowcy, nie przyniósł oczekiwanych wyników, ale dostarczył dużą ilość użytecznych

wniosków. Według wcześniejszego przeświadczenia autora pracy celowy wybór

mówców z bazy miał ułatwić zadanie polegające na naśladowaniu ich głosów miało

w założeniu ułatwić ich naśladowanie, tak się jednak nie stało. Podstawowym wnioskiem

jest informacja, że wybieranie z bazy nagrań wykonanych przy użyciu

nieznormalizowanych mikrofonów oraz przy różnej jakości połączenia telefonicznego

zdecydowanie utrudnia wykonanie scenariusza polegającego na naśladowaniu ich

głosów. Zadanie okazuje się być o tyle trudniejszym, że zamiast zadania podstawowego,

czyli zwyczajnym naśladowaniu mówcy, należy albo starać się ustalić, jak mówca mógł

brzmieć przed zniekształceniem jego głosu przez mikrofon telefoniczny i przez sam

proces transmisji sygnału mowy przez sieć GSM, albo starać się ustalić, jak powinien

brzmieć naśladowca, aby po wyżej wymienionych procesach brzmiał podobnie do próbek

głosu mówców oryginalnych wykonanych w ten sam sposób. Oba procesy są zdaniem

naśladowcy zdecydowanie trudniejsze niż samo naśladowanie głosów mówców

oryginalnych, co pośrednio znajduje swoje odzwierciedlenie w wynikach ankiet

wypełnionych przez wolontariuszy oraz uwagach od nich – tylko niektóre spośród głosów

naśladowanych brzmią podobnie w wykonaniu naśladowcy. Nie bez znaczenia zdawał

się być fakt, iż nagrania mówców oryginalnych i naśladowcy, mimo korzystania z tego

48

samego mikrofonu, wykonywane były w różnym czasie, często więc głos naśladowcy

dało się rozpoznać na podstawie poziomu zakłóceń wywołanych transmisją sygnału

mowy, a nie po samym brzmieniu głosu.

W rozdziale 1 opisano, jakie istnieją biometryczne systemy weryfikacji

użytkownika w celu pobieżnego pokazania wad i zalet różnych rozwiązań.

W rozdziale 2 wprowadzono w temat systemów weryfikacji biometrycznej

i opisano proces ich działania. Następnie opisano dokładniej biometryczny system

weryfikacji mówcy i metody, których można próbować użyć w celu jego oszukania.

Później omówiono dokładniej metody bezpośrednie prób oszukania tegoż systemu ze

szczególnym uwzględnieniem aktorskiej modulacji głosowej. W obrębie aktorskiej

modulacji głosowej opisano metody zmiany własnego głosu w celu dokonania próby

‘podrobienia’ głosu innej osoby.

W rozdziale 3 dokonano dokładniejszej analizy początkowej bazy mówców,

z której następnie wybrano osiem osób, mówców-ofiary, których to mówców głosy

‘podrabiać’ miał naśladowca. Opisano proces redukcji bazy liczącej 302. mówców do

bazy zredukowanej, a następnie opisano metody wykonywania nagrań ataków.

W rozdziale 4 dokonano analizy wyników otrzymanych po porównaniu nagrań

oryginalnych z nagraniami naśladowczymi przy użyciu systemu weryfikacji mówcy.

Omówienia opatrzono wykresami wygenerowanymi na podstawie danych wynikowych

i wykresami widmowymi, które miały za zadanie lepiej zobrazować podobieństwo

głosów lub jego brak. Omówiono także sposób oceny jakości systemu weryfikacji mówcy

przy użyciu parametrów takich jak FPR (False Positive Ratio), FNR (False Negative

Ratio), oraz EER (Equal Error Rate).

Do wykonania zadań opisanych w niniejszej pracy konieczne było zapoznanie się

z informacjami na temat biometrycznych systemów weryfikacji użytkownika, ze

szczególnym uwzględnieniem biometrycznych systemów weryfikacji mówcy. Konieczne

było także przypomnienie sobie cech ludzkiego głosu i metod ich naśladowania, a także

nauczenie się bardziej precyzyjnego i metodycznego naśladowania mówców

oryginalnych w celu osiągnięciu maksymalnego podobieństwa imitacji do głosu

oryginalnego, pomimo utrudnień opisanych wcześniej.

49

Bibliografia

[1] Bimbot F., Bonastre J.F., Fredouille C., Gravier G., Magrin-Chagnolleau I., Meignier

S., Merlin T., Ortega-Garcia J., Petrovska-Delacretaz D., Reynolds D.A.: A Tutorial on

Text-Independent Speaker Verification. EURASIP Journal on Applied Signal Processing

2004:4, 430– 451, Hindawi Publishing Corporation, 2004

[2] Zhizheng Wu Z., Nicholas Evans N., Tomi Kinnunen T., Junichi Yamagashi J.,

Federico Alegre F., Haizhou Li H.: Spoofing and countermeasures for speaker

verification: A survey, Elsevier Speech Communications, 2014

[3] Dehak, N., Dumouchel, P., Kenny, P.: Modeling prosodic features with joint factor

analysis for speaker verification. IEEE Trans. Audio Speech Language Process.,

15.2095-2103, CRIM, Montreal 2007.

[4] Reynolds, D., Rose, R.: Robust text-independent speaker identification using

Gaussian mixture speaker models. IEEE Trans. Speech Audio Process. 3, 72-83, Lincoln

Lab., MIT, Lexington, 1995

[5] Doddington, G.: Speaker recognition based on idiolectal differences between

speakers. In: Proc. European Conference on Speech Communication and Technology,

Eurospeech, 2001

[6] Mariethoz, J., Bengio, S.: Can a professional imitator fool a GMM-based speaker

verification system?, IDIAP Research Report (No. Idiap-RR 05-61), 2006

[7] Villialba, J., Lleida, E.: Detecting replay attacks from far-field recordings on speaker

verification systems. In: Veilhauer, C., Dittmann, J., Drygajlo, A., Juul, N., Fairhurst, M.,

(Eds.), Biometrics and ID Managements, In: Lecture Notes in Computer Science pp. 274-

285, Springer, 2011a

[8] Matyas V., Riha, Z.: Biometric authentication – security and usability, Faculty of

Informatics, Masaryk University Brno, Czech Republic, 2002

[9] Masuko, T., Hitotsumatsu, T., Tokuda, K., Kobayashi, T.: On the security of HMM-

based speaker verification systems against imposture using synthetic speech. In: Proc.

European Conference on Speech Communication and Technology, Eurospeech, 1999

[10] Kinnunen, T., Wu, Z.Z., Lee, K.A., Sedlak, F., Cheng, E.S., Li, H.: Vulnerability of

speaker verification systems against voice conversion spoofing attacks: the case of

telephone speech. In: Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing,

ICASSP, 2012

50

[11] Grassi, S., Besacier, L., Dufaux A., Ansorge M., Pellandini, F.: Influence of GSM

speech coding on the performance of text-independent speaker recognition, Institute of

Microtechnology, University of Neuchâtel, Rue A.-L. Breguet 2, Neuchâtel, Switzerland,

2000

[12] Jain A., K., Ross A., Pankanti S., Biometrics: A Tool for Information Security, IEEE

Transactions on Information Forensics and Security, vol. 1, no. 2, Dept. of Comput. Sci.

& Electr. Eng., Michigan State Univ., USA, 2006

[13] Li, S.Z., Jain A.K.: Handbook of Face Recognition, New York: Springer Verlag,

2004.

[14] Maltoni, D., Maio, D., Jain, A. K., Prabhakar S: Handbook of Fingerprint

Recognition. New York: Springer Verlag, Jun. 2003.

[15] Daugman, J.: The importance of being random: statistical principles of iris

recognition, Pattern Recognit., vol. 36, no. 2, pp. 279–291, Chicago, 2003.

[16] Nalwa, V.S.: Automatic on-line signature verification, Proc. IEEE, vol. 85, no. 2, pp.

213–239, 1997.

[17] Wolf, J.: How to create emotional and/or altered voice quality. An acoustic

comparison between habitual and altered voice of the same speaker, Fac. of Comput.

Sci., Electron. & Telecommun., AGH Univ. of Sci. & Technol., Kraków, Poland, 2014

[18] Sadolin, K.: Complete Vocal Technique, CVI Publications, 2012.

[19] Master, S., Guzman, M., de Miranda, H.C., Lloyd, A.: Electroglottographic Analysis

of Actresses and Nonactresses’ Voices in Different Levels of Intensity, Department of

Performing Arts, UNESP- Univ Estadual Paulista, 2012

[20] Alburger, J.: The Art of Voice Acting: The Craft and Business of Performing

Voiceover, Focal Press, 2011

[21] Scarpelos, T.: How to Do Impressions: Everything you Need to Know to be an

Impression God so you can Rock the House!, Tony Scarpelos, 2013

[22] Strona internetowa system Voice Color, http://techmo.pl/index.php/voice-

color/opis-produktu (dostęp 19.02.2015)

[23] Artykuł z Wikipedii będący źródłem tekstu do nagrań mowy niezależnej,

http://pl.wikipedia.org/wiki/Wilk (dostęp 19.02.2015)

[24] Nagranie zawierające test do ankiet związanych z badaniem,

https://www.youtube.com/watch?v=ZcZzBfiwu2w (dostęp 19.02.2015)

MECHANICZNEJ I ROBOTYKI Praca dyplomowa · Techmo [22] na tego typu ataki. Na potrzeby pracy użyto...

Documents

Transcript of MECHANICZNEJ I ROBOTYKI Praca dyplomowa · Techmo [22] na tego typu ataki. Na potrzeby pracy użyto...