MECHANICZNEJ I ROBOTYKI Praca dyplomowa · Techmo [22] na tego typu ataki. Na potrzeby pracy użyto...
Transcript of MECHANICZNEJ I ROBOTYKI Praca dyplomowa · Techmo [22] na tego typu ataki. Na potrzeby pracy użyto...
AKADEMIA GÓRNICZO-
HUTNICZA
im. Stanisława Staszica w Krakowie
WYDZIAŁ INŻYNIERII
MECHANICZNEJ I ROBOTYKI
Praca dyplomowa
inżynierska
Jerzy Wolf
Imię i nazwisko
Inżynieria Akustyczna
Kierunek studiów
Testowanie odporności systemu
weryfikacji mówcy na
aktorską modulację głosową
Temat pracy dyplomowej
Dr inż. Bartosz Ziółko …………….
Promotor pracy Ocena
Kraków, rok 2014/2015
2
Kraków, dn. 19.02.2015
Imię i nazwisko: Jerzy Wolf
Nr albumu: 241201
Kierunek studiów: Inżynieria Akustyczna
Specjalność: -
OŚWIADCZENIE
Świadomy odpowiedzialności karnej za poświadczanie nieprawdy oświadczam, że
niniejszą inżynierską pracę dyplomową wykonałem osobiście i samodzielnie oraz nie
korzystałem ze źródeł innych niż wymienione w pracy.
Jednocześnie oświadczam, że dokumentacja praca nie narusza praw autorskich
w rozumieniu ustawy z dnia 4 lutego 1994 roku o prawie autorskim i prawach
pokrewnych (Dz. U. z 2006 r. Nr 90 poz. 631 z późniejszymi zmianami) oraz dóbr
osobistych chronionych prawem cywilnym. Nie zawiera ona również danych i informacji,
które uzyskałem w sposób niedozwolony. Wersja dokumentacji dołączona przeze mnie
na nośniku elektronicznym jest w pełni zgodna z wydrukiem przedstawionym do recenzji.
Zaświadczam także, że niniejsza inżynierska praca dyplomowa nie była wcześniej
podstawą żadnej innej urzędowej procedury związanej z nadawaniem dyplomów wyższej
uczelni lub tytułów zawodowych.
………………………………..
podpis dyplomanta
3
Kraków, 19.02.2015
Imię i nazwisko: Jerzy Wolf
Adres korespondencyjny: ul. Nowy Świat 17/5, 34-700 Rabka-Zdrój
Temat pracy dyplomowej inżynierskiej:
Testowanie odporności systemu weryfikacji mówcy na aktorską modulację
głosową
Rok ukończenia: 2015
Nr albumu: 241201
Kierunek studiów: Inżynieria Akustyczna
Profil dyplomowania: -
OŚWIADCZENIE
Niniejszym oświadczam, że zachowując moje prawa autorskie, udzielam Akademii
Górniczo-Hutniczej im. S. Staszica w Krakowie nieograniczonej w czasie nieodpłatnej
licencji niewyłącznej do korzystania z przedstawionej dokumentacji inżynierskiej pracy
dyplomowej, w zakresie publicznego udostępniania i rozpowszechniania w wersji
drukowanej i elektronicznej1.
Publikacja ta może nastąpić po ewentualnym zgłoszeniu do ochrony prawnej
wynalazków, wzorów użytkowych, wzorów przemysłowych będących wynikiem pracy
inżynierskiej2.
Kraków, 19 II 2015 ……………………………..
data podpis dyplomanta
1 Na podstawie Ustawy z dnia 27 lipca 2005 r. Prawo o szkolnictwie wyższym (Dz.U. 2005 nr 164 poz.
1365) Art. 239. oraz Ustawy z dnia 4 lutego 1994 r. o prawie autorskim i prawach pokrewnych (Dz.U. z 2000
r. Nr 80, poz. 904, z późn. zm.) Art. 15a. "Uczelni w rozumieniu przepisów o szkolnictwie wyższym
przysługuje pierwszeństwo w opublikowaniu pracy dyplomowej studenta. Jeżeli uczelnia nie opublikowała
pracy dyplomowej w ciągu 6 miesięcy od jej obrony, student, który ją przygotował, może ją opublikować,
chyba że praca dyplomowa jest częścią utworu zbiorowego." 2 Ustawa z dnia 30 czerwca 2000r. – Prawo własności przemysłowej (Dz.U. z 2003r. Nr 119, poz.
1117 z późniejszymi zmianami) a także rozporządzenie Prezesa Rady Ministrów z dnia 17 września
2001r. w sprawie dokonywania i rozpatrywania zgłoszeń wynalazków i wzorów użytkowych (Dz.U. nr
102 poz. 1119 oraz z 2005r. Nr 109, poz. 910).
4
Kraków, dnia 19.02.2014
AKADEMIA GÓRNICZO-HUTNICZA
WYDZIAŁ INŻYNIERII MECHANICZNEJ I ROBOTYKI
TEMATYKA PRACY DYPLOMOWEJ INŻYNIERSKIEJ
dla studenta IV roku studiów stacjonarnych
Jerzy Wolf imię i nazwisko studenta
TEMAT PRACY DYPLOMOWEJ INŻYNIERSKIEJ:
Testowanie odporności systemu weryfikacji mówcy na
aktorską modulację głosową.
Promotor pracy: dr inż. Bartosz Ziółko
Recenzent pracy: dr hab. Inż. Wiesław Wszołek Podpis dziekana:
PLAN PRACY DYPLOMOWEJ
1. Omówienie tematu pracy i sposobu realizacji z promotorem.
2. Zebranie i opracowanie literatury dotyczącej tematu pracy.
3. Zebranie i opracowanie wyników badań.
4. Analiza wyników badań, ich omówienie i zatwierdzenie przez promotora.
5. Opracowanie redakcyjne.
Kraków, 19 II 2015 …………………………..
data podpis dyplomanta
TERMIN ODDANIA DO DZIEKANATU: 20 r.
podpis promotora
5
Akademia Górniczo-Hutnicza im. Stanisława Staszica Kraków, 19.02.2015
Wydział Inżynierii Mechanicznej i Robotyki
Kierunek: Inżynieria Akustyczna
Jerzy Wolf
Praca dyplomowa inżynierska
Testowanie odporności systemu weryfikacji
mówcy na aktorską modulację głosową.
Opiekun: dr inż. Bartosz Ziółko
STRESZCZENIE
Przedmiotem niniejszej pracy jest zbadanie zagadnienia naśladowania głosu innej
osoby i przetestowanie odporności systemu weryfikacji mowy Voice Color firmy
Techmo [22] na tego typu ataki.
Na potrzeby pracy użyto dwóch typów nagrań mówców oryginalnych i nagrań
naśladowczych. Pierwszy typ nagrań składał się z nagrań ochotników, którzy zgodzili się
użyczyć swojego głosu na potrzeby testów systemu weryfikacji mówcy. W tym
przypadku osobą próbującą naśladować mówców oryginalnych jest autor pracy (dalej:
naśladowca), co umożliwiło dokładniejsze opisanie wyzwań i problemów związanych
z tego typu próbą oszukania systemu. Drugim typem plików dźwiękowych, których użyto
do przetestowania systemu, były nagrania zawodowego aktora głosowego
specjalizującego się w naśladownictwie, Jamesa Arnolda Taylora (dalej: aktor), który
dostarczył swoje próby naśladowania pięciu innych znanych aktorów razem z nagraniami
oryginalnymi, na których się wzorował.
Scenariusz badania zakładał próby oszukania systemu poprzez skuteczne
zalogowanie się naśladowców na cudze konto zabezpieczone wygenerowanym wcześniej
na podstawie nagrań oryginalnych modelem mówcy. Dla zachowania autentyczności
warunków testu próbki głosu mówców oryginalnych i naśladowców zrealizowane zostały
podczas autentycznych rozmów telefonicznych.
6
AGH University of Science and Technology Kraków, Feb 19,2015
Faculty of Mechanical Engineering and Robotics
Field of Study: Acoustic Engineering
Jerzy Wolf
Engineer Diploma Thesis
Testing the resistance of a speaker verification
system versus an actor’s voice modulation.
Supervisor: Bartosz Ziółko, PhD
SUMMARY
The aim of this paper is to research the topic of imitating the voice of another person
in order to deceive a speaker verification system and to test the resistance the Voice Color
speaker verification system developed by Techmo [22] versus such attacks.
Two types of recordings of the original speakers and imitators were used. The first
type of recordings consisted of recordings of volunteers, who agreed to record their voices
in order to help test the speaker verification system. In this case the paper’s author was
the imitator, which allowed for a more detailed examination of challenges and problems
connected with this kind of attack on a speaker verification system. The second type of
recording consisted of recordings by a professional voice actor and ‘voice doubler’, James
Arnold Taylor, who submitted the files with voice impressions of five other actors, along
with the original recordings of said people.
The research scenario assumed that the imitators will try to log into the accounts
protected by passwords generated from the original speakers’ voices. To maintain the
test’s conditions authenticity the voice samples of both the original speakers and imitators
have been recorded during real phone calls.
7
Spis treści
Wstęp………………………………………………………………………………8
Uzasadnienie wyboru tematu pracy……………………………………………..8
Cele pracy……………………………………………………………………….8
1. Wprowadzenie…………………………………………………………………..9
2. Część teoretyczna……………………………………………………………...11
2.1 System weryfikacji biometrycznej…………………………………………11
2.1.1 Ogólne cechy systemu weryfikacji biometrycznej……………………11
2.1.1.1 Pozyskanie danych……………………………………………….12
2.1.1.2 Tworzenie modelu użytkownika…………………………………12
2.1.1.3 Próba logowania………………………………………………….12
2.1.2 Biometryczne systemy weryfikacji mówcy…………………………..13
2.1.2.1 Modelowanie i klasyfikacja mówcy……………………………..14
2.1.3 Metody oszukiwania biometrycznego systemu weryfikacji mówcy…15
2.1.3.1 Metody bezpośrednie…………………………………………….16
2.1.3.1.1 Odtwarzanie nagrań mówcy…………………………………16
2.1.3.1.2 Synteza mowy……………………………………………….17
2.1.3.1.3 Konwersja głosu……………………………………………..18
2.1.3.1.4 Modulacja aktorska…………………………………………..18
3. Bazy mówców…………………………………………………………………21
3.1 Nagrania mówców z bazy finalnej…………………………………………21
3.1.1 Wpływ kodera GSM na nagrania mówców…………………………..22
3.2 Metoda wykonania nagrań ataków………………………………………..23
3.3 Naśladowanie głosów znanych osób…………………………...................24
4. Analiza wyników……………………………………………………………...24
4.1 Mowa zależna i niezależna………………………………………………..25
4.1.3 Wyniki prób naśladowczych………………………………………….27
4.2 Aktorskie naśladowanie głosów znanych osób…………………………....38
4.2.2. Wyniki prób naśladowczych…………………………………………39
5. Dyskusja i podsumowanie…………………………………………………….47
Bibliografia………………………………………………………………………49
8
Wstęp
Uzasadnienie wyboru tematu pracy
Wybór tematu pracy jest umotywowany zaciekawieniem autora sposobem
działania i skutecznością systemu weryfikacji mowy ludzkiej. Autor w trakcie
pogłębiania wiedzy z technologii mowy natknął się na informacje związane z rozwijanym
na Uczelni systemem weryfikacji mówcy Voice Color firmy Techmo [22] i postanowił
sprawdzić, w jaki sposób można podejść do próby sprawdzania skuteczności tego
systemu przy użyciu aktorskiej modulacji głosowej. Dodatkowym czynnikiem
wpływającym na wybór tematu było wcześniejsze zainteresowanie autora aktorstwem
głosowym i głosem ludzkim jako takim.
Cele pracy
Za cele niniejszej pracy obrano doświadczalne sprawdzenie odporności systemu
weryfikacji mówcy na aktorską modulację głosową przy zachowaniu założeń dwóch
osobnych scenariuszy prób oszukania systemu. Pierwszy scenariusz zakładał wybranie
z istniejącej bazy mówców, zebranej na potrzeby testowania systemu weryfikacji mówcy,
mówców brzmiących naturalnie podobnie do głosów, jakie potrafi naśladować autor
pracy, pierwszy z naśladowców. Naśladowca miał za zadanie na podstawie zebranych
próbek głosu wybranych mówców możliwie najdokładniej odtworzyć brzmienie ich
głosu w celu wykonania prób oszukania systemu.
Drugi scenariusz zakładał skorzystanie z nagrań pięciu obcojęzycznych aktorów
(aktorzy to Christian Bale, David Kelly, Matthew McConaughey, Justin Timberlake
i James McAvoy) jako nagrań mówców oryginalnych, a następnie użycie nagrań
dostarczonych przez zawodowego aktora zajmującego się aktorstwem głosowym
i naśladownictwem głosowym, Jamesa Arnolda Taylora, który na potrzeby badania miał
naśladować wyżej wymienionych aktorów. Po wykonaniu wszystkich nagrań miały one
zostać przekazane do systemu weryfikacji mówcy Voice Color, gdzie z nagrań mówców
oryginalnych miały powstać modele mówców, a nagrania naśladowcze miały być użyte
jako próbki głosu do próby nieautoryzowanego logowania na konta chronione przez
system biometryczny poprzez oszukanie go co do tożsamości naśladowców.
9
1. Wprowadzenie
W dzisiejszym świecie, gdzie informacje zapisane na komputerach nierzadko
posiadają olbrzymią wartość, nie powinien więc dziwić stały rozwój technologii
umożliwiających ograniczenie dostęp do nich przez nieautoryzowanych użytkowników
[12]. Niestety, osoby próbujące otrzymać dostęp do takich informacji również znajdują
coraz to nowe sposoby oszukiwanie systemów zabezpieczających.
W przypadku nawet najbardziej rozbudowanych kluczy dostępu, których złamanie
zajęłoby nawet najszybszym komputerom lata, nie jesteśmy w stanie wyeliminować
z równania czynnika ludzkiego. Do wykradnięcia hasła może dojść przez fałszywe
podanie się pod osobę, której miałoby ono być wydane, zgubienie notesu, w którym
zostało zapisane owo hasło, czy też dowolną pokrewną sytuację. Ponadto tak długie hasła,
nawet, jeśli są bardzo dobrze pilnowane i nie ma możliwości, aby dostały się
w niepowołane ręce, są niepraktyczne i niewygodne w codziennym użytkowaniu. Jak
więc obejść ten problem? Jak zyskać pewność, że tylko jeden, konkretny użytkownik
będzie miał dostęp do określonego zestawu danych?
Jednym z rozwiązań zdają się być systemy biometrycznej weryfikacji użytkownika.
[12] Weryfikacja biometryczna odnosi się do ustalenia tożsamości na podstawie
fizycznych lub behawioralnych cech konkretnej osoby, takich jak wygląd jej twarzy,
odcisk palca, wygląd tęczówki, podpis, czy głos. Systemy biometryczne posiadają kilka
cech stawiających je wyżej niż identyfikacja oparta na hasłach. Cech fizycznych nie
można zgubić czy zapomnieć, są trudne do podrobienia i udostępniania innym, a do ich
weryfikacji konieczna jest obecność osoby uprawnionej. Podrobienie biometrii jest
zadaniem trudnym, przez co wymaga o wiele więcej czasu, pieniędzy, doświadczenia
i uprawnień dostępu. Można też oczywiście użyć biometrii jako dodatkowego środka
bezpieczeństwa koniecznego przy logowaniu (równolegle do standardowego hasła).
W zależności od warunków i celu stosowania systemu biometrycznego wybór rodzaju
systemu może być różny. Poniżej znajduje się pobieżny opis najpopularniejszych
biometrii.
Twarz – wygląd ludzkiej twarzy jest prawdopodobnie jedną z najbardziej
rozpoznawalnych, cech biometrycznych człowieka. Istnieją bardzo różne podejścia do
rozpoznawania twarzy, od statycznej weryfikacji podobnej do robienia zdjęcia, do
dynamicznego rozpoznania twarzy osoby będącej w ruchu. Najpopularniejsze podejścia
10
do rozpoznawania twarzy [13] oparte są zwykle na pozycji i kształcie cech wyglądu
twarzy oraz na ogólnej analizie obrazu twarzy i porównywanie ich z modelami
kanonicznymi twarzy znajdującymi się w bazie. Systemy tego typu niestety często mają
problem z rozpoznawaniem twarzy z drastycznie różnych ujęć lub przy złym oświetleniu.
Odcisk palca – identyfikacja ludzi na podstawie odcisków palców funkcjonuje od
wielu lat, a skuteczność tej metody rozpoznawania ludzi wykazała bardzo wysoką
skuteczność [14]. Odcisk palca to wzór wypukłości i dolinek na powierzchni czubka
palca, układ, który kształtuje się w początkowych etapach rozwoju prenatalnego, a szansa
na to, by dwie osoby posiadały taki sam odcisk palca, jest pomijalnie mała. Urządzenia
służące do skanowania odcisków palców są obecnie bardzo tanie, a procedura
weryfikacyjna jest szybka. Wadą tego rozwiązania są bardzo duże wymagania w zakresie
mocy obliczeniowej koniecznej do szybkiego wyszukiwania w bazie danych odcisków
palców i porównywanie z nimi aktualnie skanowanego odcisku.
Tęczówka – tęczówka jest częścią oka ograniczoną z każdej strony przez źrenicę
i białko oka. Tęczówki posiadają bardzo złożony wzór, który może być bardzo przydatny
w rozpoznaniu człowieka po jej teksturze [15]. Dokładność i szybkość obecnie
używanych systemów weryfikacji użytkownika na podstawie tęczówki są
satysfakcjonujące. Uważa się, że nie ma dwóch osób mających taką samą tęczówkę.
Teoretycznie możliwe jest celowe zoperowanie tęczówki w celu nadania jej określonych
cech, ale obecnie jest to niezwykle trudne i niekoniecznie musi się okazać skuteczne
w kontekście oszukania systemu weryfikacji mówcy. Dodatkowo, dotychczasowe
badania wykazują, iż możliwe jest wykrycie sztucznej tęczówki. Dotychczasowe badania
wyglądają obiecująco, lecz ten sposób weryfikacji biometrycznej nadal obarczony jest
bardzo dużym błędem [15]
Podpis – sposób, w jaki ktoś się podpisuje jest znaną cechą umożliwiającą jego
identyfikację [16]. Chociaż złożenie podpisu wymaga pewnego wysiłku ze strony osoby
weryfikowanej, jest to forma weryfikacji własnej tożsamości wystarczająco
jednoznaczna na potrzeby przedstawicieli prawa, systemów bankowych, i pokrewnych
instytucji. Podpis może ewoluować z czasem, a także być celowo zmieniany przez jego
posiadacza, jest również podatny na czynniki ludzkie, jak różne stany emocjonalne,
i pokrewne, może więc wystąpić potrzeba zmiany podpisu znajdującego się w bazie
porównawczej. Chociaż podpisy są bardzo trudne do podrobienia doświadczeni fałszerze
mogą być w stanie podrobić podpis tak, aby oszukać system weryfikacji.
11
Głos – brzmienie głosu ludzkiego jest wynikiem połączenia cech fizycznych
i behawioralnych. Zależy ono od kształtu części ciała, które są odpowiedzialne za
produkcję głosu [19] [20]. Chociaż cechy fizyczne są dla każdego mówcy niezmienne, to
część behawioralna procesu produkcji mowy zmienia się z czasem w miarę starzenia,
zmian stanu zdrowia, zmian stanu emocjonalnego, i pokrewnych czynników. Ponadto
może pojawić się problem zbyt dużego podobieństwa głosów różnych ludzi, przez co
system weryfikacji oparty o biometrię głosu może być niewystarczająco bezpieczny
i akceptować zbyt wiele prób logowania, lub próg graniczny konieczny do poprawnego
logowania może być zbyt wysoki, przez co logowanie może być zbyt uciążliwe przez
konieczność dokładnego odwzorowania brzmienia swojego głosu w momencie
ustawiania go jako 'hasła'. Rozpoznawanie mówcy na podstawie głosu największy sens
zdaje się mieć w systemach rozpoznawania mówcy działających przez telefon - pod
warunkiem, że twórcom danego systemu weryfikacji uda się rozwiązać problemy
związane z niższą jakością tej drogi komunikacji w porównaniu z brzmieniem głosu ‘na
żywo’.
2. Część teoretyczna
2.1 System weryfikacji biometrycznej
2.1.1 Ogólne cechy systemu weryfikacji biometrycznej
Ujmując rzecz ogólnie system identyfikacji użytkownika oparty o biometrię
pozwala na przyjęcie lub odrzucenie próby logowania bez konieczności zapamiętywania
haseł, korzystania z fizycznych kluczy, czy okazywania dokumentów w dowolnej formie
[1]. Zamiast wyżej wymienionych metod, które to nie pozwalają na identyfikację samego
użytkownika, a tylko zweryfikowanie, czy posiada konkretne przedmioty lub informacje,
system biometryczny pozwala na odczyt i analizę cech dla niego unikalnych. Przykładami
takich cech mogą być faktura tęczówki, odcisk palca, czy próbka głosu, której to
w niniejszej pracy poświęcone zostanie najwięcej uwagi. Pomimo tego, iż każda
technologia związana z biometrią ma swoje indywidualne cechy charakterystyczne,
podstawowy zbiór operacji każdego systemu biometrycznego jest bardzo podobny.
Dodatkowym plusem jasnego określenia kolejnych etapów działania systemów
12
weryfikacyjnych tego typu jest łatwiejsze planowanie testów służących poprawie
bezpieczeństwa i skuteczności systemu.
2.1.1.1 Pozyskanie danych
Na tym etapie zachodzi pierwszy kontakt użytkownika z systemem biometrycznym
[8]. Próbka biometryczna użytkownika jest pobierana przy użyciu urządzenia wejścia.
Jakość próbki biometrycznej jest kluczowa dla wszystkich kolejnych prób weryfikacji
użytkownika. Może się zdarzyć, że nawet wielokrotne pobieranie próbek biometrycznych
nie pozwoli na wygenerowanie modelu umożliwiającego rozpoznawanie użytkownika
z wystarczającą dokładnością, czy też skutecznością. Użytkownik, którego dane
biometryczne nie zostaną pobrane poprawnie nie będzie mógł być zarejestrowany
w systemie. Użytkownicy często mogli nie mieć wcześniej do czynienia z podobnym
systemem, pierwsze pomiary powinny więc mieć miejsce pod okiem profesjonalisty,
który wyjaśni jak poprawnie użyć urządzenia wejścia systemu biometrycznego.
2.1.1.2 Tworzenie modelu użytkownika
Po pobraniu próbek biometrycznych muszą one zostać przetworzone. Liczba
próbek koniecznych do utworzenia modelu jest różna i zależy od rodzaju systemu
biometrycznego oraz typu próbki biometrycznej. Czasem wystarczy już jedna próbka, ale
często należy ich pozyskać więcej. Niezależnie od ich typu charakterystyki biometryczne
mówców zwykle nie są zachowywane w niezmienionym formacie i na tym etapie
konwertowane są do formatu zawierającego optymalną ilość cech charakterystycznych
pozwalających na jednoznaczną weryfikację użytkownika. Zespół cech
charakterystycznych wyznaczonych na podstawie pomiarów wymaganych cech
biometrycznych użytkownika i umożliwiających jego rozpoznanie to model
biometryczny użytkownika.
2.1.1.3 Próba logowania
W celu podjęcia próby zalogowania od użytkownika muszą zostać pozyskane
bieżące cechy biometryczne, które następnie zostaną porównane z utworzonym wcześniej
modelem użytkownika. Na podstawie nowego pomiaru system weryfikacji po raz kolejny
13
pozyskuje cechy charakterystyczne, które następnie wprowadzane są do systemu.
Ostatnim etapem w procesie weryfikacji mówcy jest etap decyzyjny, w którym system na
podstawie ustalonego wcześniej progu podejmuje decyzję tak/nie.
2.1.2 Biometryczne systemy weryfikacji mówcy
Chociaż system weryfikacji mówcy w samej zasadzie działania nie odbiega
znacząco od modelu ogólnego systemu biometrycznego, posiada pewne cechy
dystynktywne, które powinny zostać zaadresowane przed przejściem do dalszej części
pracy [2]. Zadaniem systemu weryfikacji mówcy jest przyjęcie lub odrzucenie próby
logowania zadeklarowanego mówcy na podstawie próbki głosu. Wyróżnić należy dwa
typu systemu weryfikacji mówcy, zależny od tekstu oraz niezależny od tekstu. Systemy
zależne od tekstu zakładają istnienie frazy lub fraz, które zwykle nie ulegają zmianie
pomiędzy próbami logowania. Systemy niezależne od tekstu opierają ocenę
weryfikacyjną na dłuższych wypowiedziach mówców, wydobywając z nich bardziej
ogólne charakterystyki głosu. W systemach weryfikacji mówcy służących do
potwierdzania tożsamości mówcy zwykle lepiej sprawdzają się systemy zależne od
tekstu, dzięki którym scenariusze testowe osiągają większą skuteczność rozpoznania
mówcy przy mniejszej długości próbek służących do utworzenia modelu. Testowany
w niniejszej pracy system Voice Color posiada możliwość pracy w trybie zależnym
i niezależnym od tekstu, w zależności od dostarczonych mu danych.
Na potrzeby pozyskiwania danych z mowy ludzkiej uznaje się, że z sygnału mowy
da się pozyskać trzy informacje: o jego barwie, prozodiach i zawartości językowej.
Informacje charakterystyczne dla poszczególnych mówców mogą zostać opisane przy
użyciu cech widmowych, prozodycznych i wysokopoziomowych cech idiolektu.
Wiadomości na temat widma uzyskiwane są zwykle z krótkich ramek, mających 20-30ms
długości. Opisują one krótkoterminowe obwiednie widmowe, które można zestawić
z barwą głosu ludzkiego. Popularnymi właściwościami widmowymi są MFCC [4] (ang.
Mel-Frequency Cepstral Coefficients, współczynniki cepstralne częstotliwości melowej),
LPCC (ang. Linear Predictive Cepstral Coefficients, współczynniki cepstralne predykcji
liniowej) i PLP (ang. Perceptual Linear Prediction, perceptywna predykcja liniowa).
Cechy prozodyczne wydobywane są z dłuższych segmentów, takich jak sylaby i pseudo
słowa służące do charakteryzacji stylu mówienia i intonacji. Ze względu na swój
charakter do pozyskiwania tego typu cech konieczne jest posiadanie dużej ilości danych,
14
a dodatkowo zadanie to nie może być wykonywane na próbkach pozyskanych w głośnym
środowisku. Tworzenie modeli wysokopoziomowych cech leksykalnych jest odporne na
problemy takie jak hałas, czy inne efekty powodujące zniekształcenia głosu, jednak
pozyskiwanie danych do nich wymaga zdecydowanie większej ilości próbek i dużo
większego zaangażowania użytkownika [5].
2.1.2.1 Modelowanie i klasyfikacja mówcy
Podejścia do niezależnej od tekstu weryfikacji mówcy opierają się zwykle na
modelowaniu dystrybucji cech danego mówcy. Ze względu na komercyjny charakter
testowanego w badaniu systemu weryfikacji mówcy nie zostaną ujawnione dokładne
informacje na temat jego działania, zostanie natomiast omówiona podstawa teoretyczna
działania tego i innych systemów weryfikacji mówcy. Fundamentem większości
systemów weryfikacji mówcy są zwykle obliczenia oparte o LLR (ang. Log-Likelihood
Ratio, stosunek logarytmów prawdopodobieństw),
(1)
i jego porównanie z ustalonym wcześniej progiem w celu podjęcia decyzji na korzyść
hipotezy H0 (ten sam mówca) lub hipotezy alternatywnej H1 (inny mówca). Tutaj X =
{x1, x2, …} jest ciągiem wektorów właściwości, podczas gdy p(X|H0) i p(X|H1) oznaczają
prawdopodobieństwa obu hipotez. Ujmując rzecz intuicyjnie, model alternatywny
p(X|H1) pomaga w normalizacji czynników wspólnych niezwiązanych
z tożsamością mówcy. Istnieje wiele sposobów na implementację (1). W podejściu
klasycznym cechy X to zwykle MFCC, a modele akustyczne to zwykle GMM (ang.
gaussian mixture models, modele mieszane Gaussa), opis niżej. Gdy weźmie się pod
uwagę współczesne techniki, X mogą być również wysokowymiarowe wektory własne
modelowane przy użyciu PLDA (ang. probabilistic linear discriminant analysis, analizy
liniowych dyskryminant prawdopodobieństwa). Mimo tego GMM-y dalej są konieczne
do uzyskania wektorów własnych i jako takie zostaną tutaj dokładniej omówione.
GMM-y były bardzo często implementowane w tego typu systemach,
a w połączeniu z UBM (ang. universal background model, uniwersalny model tła)
właściwie stały się standardem, często określanym jako podejście GMM-UBM. W tym
podejściu próbki mowy zebrane od wielu mówców są używane do oszacowania
15
niezależnego od mówcy UBM, używając do tego celu kryterium maksymalnego
prawdopodobieństwa; prawdopodobieństwo UBM odnosi się do p(X|H1) w (1). Modele
zależne od mówcy, używane do ustalenia p(X|H0) z (1) są wtedy wyprowadzane z UBM
z użyciem adaptacji MAP (Maximum A Posteriori) przy pomocy próbek mowy mówcy.
Mówca i modele UBM używane są odpowiednio jako hipotetyczny i alternatywy model
mówcy. Istnieje wiele podejść do pracy z uzyskanymi dzięki GMM-om modelami, ale
najbardziej standardowym wydaje się być korzystanie
z uproszczonego całkowitego modelu zmienności, lub wektorów własnych [3]. Wektor
własny reprezentuje dowolne wyrażenia zakodowane dzięki GMM w postaci
niskowymiarowego wektora zmiennych ukrytych. Patrząc z tej perspektywy uzyskiwanie
wektorów własnych jest procesem prowadzącym do redukcji wymiarowości, co
umożliwia bardziej efektywną pracę systemu na pozyskanych danych.
2.1.3 Metody oszukiwania biometrycznego systemu weryfikacji mówcy
Dla poprawnej weryfikacji mówcy systemy weryfikacji mówcy używają zwykle
dwóch niezależnych od siebie procesów, trenowanie systemu weryfikacji mówcy oraz
przeprowadzanej przy wykonywaniu skryptu weryfikacji mówcy analizy głosu osoby
podającej się za tegoż mówcę [2]. Pierwszy proces polega na utworzeniu na podstawie
charakterystyk mowy z nagrań mówcy profilu, z którym w przyszłości porównywane
będą próby weryfikacji. W przypadku drugiego procesu mówca najpierw podaje
informację na temat swojej tożsamości, po czym dostarcza próbkę swojej mowy do
weryfikacji. System, po wyodrębnieniu z próbki głosu charakterystyk mowy, przyjmuje
próbę weryfikacji, jeśli cechy mowy z próbki zgadzają się z profilem mówcy, bądź
odrzuca ją, jeśli program uzna, iż mówca nie jest osobą, za którą się podaje.
16
Rys. 2.1. Ilustracja pokazująca typowy system automatycznej weryfikacji mówcy z oznaczonymi ośmioma
możliwymi punktami ataku, gdzie punkty od 3-8 oznaczają miejsca ataków pośrednich [2].
Istnieją różne podejścia do próby fałszywego podania się za innego mówcę, na
potrzeby pracy zaproponowany został następujący podział:
Ataki bezpośrednie – mogą zostać wykonane zanim sygnał mowy dotrze do
systemu weryfikacji mówcy, na Rys. 2.1 oznaczone jako punkty ataku 1 i 2. Do ataków
bezpośrednich zaliczają się dostarczenie próbek w postaci wykonanych wcześniej nagrań
mówcy, mowy syntezowanej, mowy modulowanej, oraz naśladowania głosu
oryginalnego mówcy. Ataki te mają miejsce na poziomie mikrofonu lub na poziomie
przesyłania próbki do systemu weryfikacji mówcy.
Ataki pośrednie – wykonywane są już wewnątrz systemu weryfikacji mówcy
i jako takie wymagają dostępu do systemu weryfikacji mówcy. Jednym z założeń badania
jest przyjęcie, że aktor głosowy nie posiada informacji na temat dokładnego zestawu cech
mowy, które są przez niego wyodrębniane, więc ataki pośrednie nie będą w tej pracy
omawiane.
2.1.3.1 Metody bezpośrednie
2.1.3.1.1 Odtwarzanie nagrań mówcy
Odtwarzanie nagrania jest metodą ataku na system weryfikacji mówcy polegającą
na odtwarzaniu wykonanego wcześniej nagrania próbki głosu mówcy oryginalnego [7].
W zależności od możliwości dostępu do próbek głosu mówcy mogą to być na przykład
fragmenty nagranej rozmowy telefonicznej, nagrana na żywo rozmowa z mówcą, wycięte
17
z nagrania rozmowy wieloosobowej fragmenty wypowiedziane przez mówcę
podrabianego i pokrewne. Ze względu na prostotę przeprowadzenia tego typu ataku może
on stanowić spore wyzwanie dla niektórych systemów weryfikacji mówcy. Metoda ta
działa tym lepiej, im wyższej jakości (w sensie mniejszego zniekształcania sygnału) lub
lepiej dobrane do warunków nagrania są mikrofon i głośnik użyte do odpowiednio
nagrywania i odtwarzania próbki.
Zasadniczym problemem przy użyciu tego typu ataku w badanej sytuacji jest fakt,
iż opisana w tej pracy metoda testowania odporności systemu zakłada dostęp do nagrań
telefonicznych mówców naśladowanych zrealizowanych już po kodowaniu GSM,
którego skutki w kontekście oszukiwania systemu weryfikacji mówcy opisane są
w dalszej części pracy – parametry mowy na tym etapie uległy już pewnym nieodzownym
dla tego procesu zmianom. Przy próbie włamania sygnał uległby kolejnym
zniekształceniom spowodowanym przez głośnik i przez mikrofon nagrywający go,
a następnie zostałby powtórnie zmieniony przez koder GSM, co jeszcze bardziej
zmieniłoby parametry sygnału w stosunku do oryginalnej próbki głosu mówcy.
2.1.3.1.2 Synteza mowy
Inną metodą na zaatakowanie systemu weryfikacji mówcy jest tworzenie próbki
sygnału mowy sztucznie przy użyciu syntezatora mowy [9]. Syntezator mowy jest
narzędziem do tworzenia możliwie najbardziej naturalnie brzmiącej mowy ludzkiej
z tekstu podawanego na jego wejściu. Synteza mowy składa się zwykle z dwóch etapów.
W pierwszym etapie podany tekst analizowany jest pod kątem struktury lingwistycznej
do podstawowych jednostki fonologii danego języka, fonemów. W drugim etapie na
podstawie ustalonej w pierwszym etapie specyfikacji lingwistycznej syntezator tworzy
wynikowy sygnał mowy.
Współczesne syntezatory mowy, zwłaszcza te posiadające duże i dostosowane do
tego celu bazy fonemów wraz z innymi związanymi z ich kontekstem lingwistycznym
informacjami, mogą, w połączeniu z odpowiednimi rozwiązaniami modelującymi kształt
wynikowego sygnału mowy (opartymi na przykład na ukrytych modelach Markova),
wytworzyć wysokiej jakości syntetyczne sygnały mowy. Systemy te są w stanie nawet
przy relatywnie małej ilości próbek pochodzących od oryginalnego mówcy nauczyć się
konkretnego modelu mowy, przez co mogą stanowić spore zagrożenie dla niektórych
18
systemów weryfikacji mówcy, znacznie zwiększając ryzyko błędnej pozytywnej
weryfikacji.
2.1.3.1.3 Konwersja głosu
Technika ta polega na polega na manipulacji zarejestrowanym sygnałem mowy
naśladowcy w celu upodobnienia go do sygnału mowy mówcy-ofiary [10]. Istnieją różne
sposoby stosowania konwersji głosu, ich cechami wspólnymi są zwykle korzystanie
z mapowania widmowego oraz konwersja prozodii, gdzie mapowanie spektralne
odpowiada za zmianę tembru głosu, a konwersja prozodii zmianę cech prozodycznych
jak częstotliwości podstawowe i czas trwania głosek. Przy odpowiednim doborze
oprogramowania do konwersji głosu również i ten sposób może znacząco zwiększyć
ryzyko błędnej weryfikacji mówcy – przy użyciu tej techniki charakterystyki głosu
naśladowcy, tak te związane z widmem sygnału mowy, jak i prozodyczne, mogą zostać
zmanipulowane przez program. Jeśli jakość konwersji będzie wystarczająco wysoka
system weryfikacji mówcy, który często opiera się na tych charakterystykach w swojej
logice decyzyjnej, ma większą szans na bycie oszukanym przez naśladowcę.
2.1.3.1.4 Modulacja aktorska
Ostatnią, a zarazem najistotniejszym z punktu widzenia badania, spośród
wyszczególnionych w 2.1.3.1 sposobów uzyskania błędnej weryfikacji mówcy jest
metoda, która na pierwszy rzut oka wydawać by się mogła najbardziej oczywistą.
W celu wykonania próby oszukania systemu weryfikacji mówcy naśladowca musi,
opierając się na wcześniej pozyskanej wiedzy na temat brzmienia głosu mówcy-ofiary,
spróbować odtworzyć je w możliwie najdokładniejszy sposób [6].
O ile jest to sztuka trudna do opanowania, wielu aktorów głosowych specjalizuje
się w naśladowaniu głosów innych ludzi – umiejętności te wykorzystywane są zwykle
w celu uzyskania określonego efektu komediowego lub gdy pojawi się potrzeba
umieszczenia w produkcji audiowizualnej dowolnego typu pewnej ilości kwestii innego
aktora, który nie jest już osiągalny (na przykład do zapowiedzi filmowych lub
pojedynczych scen, które pierwotnie nie miały pojawić się w produkcie finalnym) [21].
Z obserwacji własnych autora pracy wynika, iż dla uzyskania brzmiącej przekonująco dla
odbiorcy parodii bądź interpretacji czyjegoś głosu aktor niejednokrotnie nie musi wcale
19
brzmieć dokładnie tak, jak osoba naśladowana. Gdy mowa o osobach publicznych często
wystarczy umiejętna zmiana intonacji i sposobu mówienia na ten charakterystyczny dla
danej osoby, aby nie było wątpliwości co do tego, kogo naśladuje aktor. Naśladowanie
głosu różnych osób w sposób niedokładny, ale umożliwiający odbiorcom na ich
identyfikację jest tym łatwiejsze, im więcej osoba naśladowana posiada cech
nietypowych lub rzadkich, jak bardzo silny akcent czy łatwo zauważalne wady wymowy.
Dzieje się tak głównie dlatego, że osoba posiadająca doświadczenie w zauważaniu
charakterystycznych dla danej osoby cech głosu, może je zidentyfikować i zdecydować
się naśladować je przy użyciu własnego głosu, często w stopniu wyolbrzymionym
w stosunku do rzeczywiście występujących. Większość ludzi zwraca na takie cechy
uwagę jedynie podświadomie, ale jednocześnie często jest w stanie rozpoznać osobę
naśladowaną na podstawie tych właśnie cech. Każdy aktor specjalizujący się
w naśladowaniu głosów może mieć swoje indywidualne podejście do wyboru
charakterystyk mowy osoby naśladowanej przy próbach sklasyfikowania ich często
pojawiają się częstotliwość głosu, barwa głosu, tempo i rytm, akcent. Na potrzeby tej
pracy zastosowano podział na trzy cechy opisane poniżej [20].
Częstotliwość głosu - jest to cecha, która powoduje największą dostrzegalną
różnicę w tym, jak postrzegany jest głos. Częstotliwości średnie poszczególnych głosek
determinowane są przez budowę strun głosowych i przyzwyczajenie mówcy do mówienia
w określonej częstotliwości, da się nimi jednak świadomie manipulować w obrębie
zakresu zwanego skalą głosu – różnicą pomiędzy najniższymi, a najwyższymi
dźwiękami, które mówca jest w stanie z siebie wydobyć. Nawet niewielkie i zdawać by
się mogło niemal pomijalne zmiany mogą spowodować znaczące zmiany w postrzeganiu
finalnego produktu modulacji głosowej, wprowadzenie ich może mieć decydujące
znaczenie dla stworzenia przekonującej „kopii” głosu mówcy naśladowanego. Na
potrzeby opisu zmian częstotliwości głosu często wykorzystywane są sformułowania
związane ze zmianą relatywną w stosunku do naturalnych częstotliwości używanych
przez mówcę lub opisy bardziej bezwzględne, odnoszące się do częstotliwości podanych
w hercach oraz wartości podawane relatywnie do określonych wartości dźwięków skali
muzycznej (używanej raczej w odniesieniu do śpiewu niż aktorskiej modulacji).
Z obserwacji autora pracy wynika, iż nieumiejętna świadoma zmiana częstotliwości głosu
może sprawiać wrażenie sztuczności, nienaturalności mowy. Inna cecha głosu, która
związana jest z jego częstotliwością i którą można manipulować, jest tendencja do
zmiany wysokości głosu w czasie. Opisuje ona jak duża jest różnica pomiędzy
20
najniższymi a najwyższymi częstotliwościami danego mówcy, czy ma predyspozycje do
bardzo zauważalnych zmian częstotliwości głosu pod wpływem emocji, i pokrewne.
Barwa – poza częstotliwością bardzo duże znaczenie dla brzmienia mowy ma
barwa głosu mówcy. Jest ona jakością dźwięku, dzięki której możliwe jest rozróżnienie
dźwięków o tożsamych częstotliwościach i głośności. Charakterystykami fizycznymi,
które ją opisują, są częstotliwości harmoniczne poszczególnych głosek oraz obwiednia
sygnału. Świadoma manipulacja barwą głosu do pewnego stopnia również jest możliwa,
sposobem na jej osiągnięcie jest odpowiednia zmiana pozycji lub ułożenia elementów
traktu głosowego, a mianowicie ust, języka, podniebienia, głośni, krtani, oraz nosowej
części gardła. Na każdym z tych etapów mówca jest w stanie poprzez celowe działanie
zmienić jakość głosu w stronę brzmienia mniej lub bardziej „pełnego”. W nomenklaturze
związanej ze śpiewem operuje się również pojęciami jaśniejszego lub ciemniejszego
dźwięku, co w praktyce sprowadza się do występowania w sygnale mowy mniejszej lub
większej ilości zauważalnych harmonicznych, częstości ich występowania, a także ich
energii w stosunku do pozostałych harmonicznych i częstotliwości bazowej.
Inne cechy wokalne – w zależności od podejścia do tematyki występuje wiele
różnych podziałów cech głosu, na potrzeby tej pracy wszystkie pozostałem zostały ujęte
w tej kategorii. Należą do niej cechy głosu charakterystyczne dla poszczególnych
mówców, które są mniej lub bardziej świadomie zauważalne przez osoby słuchające ich
głosu, jak specyficzny sposób wymawiania niektórych głosek, szybkość wypowiadania
słów, rytmika głosu, akcent, nietypowa dykcja, chrypa, charakterystyczny sposób
nabierania powietrza i pokrewne. Są to cechy, które często odbierane są nieświadomie,
jednak są bardzo istotne z punktu widzenia naśladowania cudzego głosu. Nie jest
możliwe utworzenie pełnej listy takich cech, gdyż u różnych mówców występują one
z różnym natężeniem, a często są celowymi cechami wokalnymi, które są bardzo trudne
lub niemożliwe do podrobienia i czynią ich głos wyjątkowym i rozpoznawalnym – tu
przykładem mogą być najbardziej znani lektorzy, którzy swój sukces zawodowy
zawdzięczają często niezwykłym właściwościom ich głosu, które są zarówno dobrze
odbierane przez słuchaczy, jak i trudne do naśladowania.
21
3. Bazy mówców
Na początkowym etapie prowadzenia badania pozyskano próbki głosu 302.
mówców (130 pochodziło z nagrań rozmów telefonicznych wykonanych za zgodą osób
nagrywanych przez autora pracy, 172 pochodziły z wewnętrznej bazy pozyskanej
wcześniej na potrzeby testowania systemu weryfikacji mówcy podkontem poprawności
weryfikacji przy użyciu mowy zależnej). Wszystkie pliki zawierały nagrania mówców
wypowiadających kilkukrotnie frazę „używam mojego głosu jako klucza”, która to fraza
była następnie dodawana do bazy jako podstawa do tworzenia profilu głosowego mówcy.
Ta sama fraza stała się później hasłem służącym do testowania poprawności weryfikacji
mówcy. Początkowa baza była zdaniem autora zdecydowanie zbyt duża do
przeprowadzenia dokładniejszej analizy każdego z nagrań i pozyskania od każdego
z mówców znormalizowanego nagrania do przetestowania systemu weryfikacji pod
kątem rozpoznawania mowy niezależnej.
Pierwszej redukcji dokonano na podstawie porównania nagrań pochodzących
z bazy z nagraniami prób naśladowania głosów przez autora pracy. Na podstawie analizy
słuchowej przy równoległym odsłuchu oryginału i próby naśladowania ograniczono
liczbę mówców z 302. do 100. eliminując mówców brzmiących najmniej podobnie do
odpowiednich prób naśladownictwa lub nagrania, których były, ze względu na jakość
transmisji GSM, zbyt trudne do przeanalizowania pod kątem próby naśladowania.
Drugiej redukcji dokonano po przeprowadzeniu ankiety wśród 120. ochotników,
w której słuchacze oceniali bazę składającą się z nagrań mowy zależnej 100. mówców
oraz prób naśladowania ich przez autora pracy. Ankiety wykazały, że 8 nagrań prób
naśladowczych otrzymało ponad 50% ocen pozytywnych (4 lub wyżej
w pięciostopniowej subiektywnej skali wrażenia podobieństwa, gdzie 1 oznaczało
zupełny brak podobieństwa, a 5 podobieństwo wysokie).
3.1 Nagrania mówców z bazy finalnej
Po redukcji ilości mówców-ofiar do ośmiu koniecznym etapem było utworzenie
w systemie modeli tychże mówców. W przypadku mowy zależnej zdecydowano, że do
utworzenia modelu danego mówcy wystarczające jest 9-krotne nagranie przez niego
wypowiedzi-hasła „Używam mojego głosu jako klucza”. Nagrania realizowane było
22
w trakcie trzech połączeń telefonicznych, po trzy powtórzenia na połączenie – dzięki
temu istniała możliwość wykonania nagrania przy różnych jakościach połączenia.
W przypadku mowy niezależnej użyto nagrań mówców czytających tekst z Wikipedii
[23], jego odczytanie zajmowało mówcom od 1:25 do 2:41, w zależności od tempa
mówienia i długości robionych przerw.
Wszystkie nagrania użyte w tej części testu wykonane były przy użyciu dwóch
telefonów Samsung SII GT-I9100G. Pierwszy telefon, używany do nagrywania
mówców, a następnie naśladowcy, wyposażony był w mikrofon zewnętrzny dołączony
do słuchawek EP-81M firmy SNAB. Do rejestracji nagrań użyto programu Another Call
Recorder firmy NLL Productivity zainstalowanego na drugim z telefonów. Modele
telefonów nagrywających wybrane zostały ze względu na dobrą kompatybilność ich
domyślnych systemów operacyjnych z programem Another Call Recorder. Mikrofon
wybrany został ze względu na dużą kompatybilność z różnymi modelami telefonów (na
wypadek awarii telefonu w trakcie nagrywania), oraz dużą zrozumiałość mowy. Program
wybrany został ze względu na stabilne działanie aplikacji, dobrą jakość nagrywanych
rozmów, oraz możliwość nagrywania samego sygnału odbieranego, co nie jest
rozwiązaniem standardowym dla oprogramowania tego typu.
3.1.1 Wpływ kodera GSM i użytych mikrofonów na parametry mowy
Jak zostało wspomniane wcześniej, wszystkie nagrania użyte w badaniu
zrealizowane były podczas rozmowy telefonicznej – jeden telefon był nadawcą, drugi był
używany do nagrywania rozmów. Badanie jakości próbek dźwiękowych sugeruje, iż
kodekiem używanym do transmisji sygnału był AMR, jednak ze względu na użycie
programu do nagrywania połączeń i braku jednoznacznych informacji na ten temat na
stronie internetowej usługodawcy telekomunikacyjnego nie ma całkowitej wersji co do
trybu kodowania, który faktycznie został użyty. Kodek AMR (ang. Adaptive Multi-Rate)
charakteryzuje się częstotliwością próbkowania 8kHz/13-bit (160 sampli dla ramek po
20ms) filtrowanych do częstotliwości 200-3400Hz. Szybkość transmisji danych
w kilobitach na sekundach sięgają od 4.75 do 12.2. Nieoficjalne dane sugerują, iż
szybkość ta wynosić mogła 10.20kbit/s lub 12.20kbit/s.
W kontekście systemów weryfikacji i rozpoznawania mówców jakość transmisji
danych ma bardzo duże znaczenie [11]. Szczególnie problematyczny jest fakt, iż mimo
coraz lepszej jakości usług świadczonych przez usługodawców telekomunikacyjnych
23
nadal mamy do czynienia ze sporym zniekształceniem sygnału mowy. O ile
w porównaniu z pierwszymi systemami rozpoznawania mówcy, które skonfrontowano
z tym problemem poczyniono bardzo duże postępy, o tyle z punktu widzenia naśladowcy
jest to spore utrudnienie. Zgodnie z przyjętym scenariuszem mógł on przy naśladowaniu
głosów używać jedynie własnego słuchu, było to więc spore wyzwanie. Na etapie 3.1,
czyli na poziomie ustalania możliwie najbardziej dopasowanej do głosu naśladowcy
grupy głosów, przyjęto pierwotną bazę wykonaną na potrzeby systemu weryfikacji
mówcy VoicePass, która zrealizowana była przy użyciu różnych standardów kodowania
danych, jak i przy użyciu różnych telefonów. Ekstrakcja parametrów mowy z nagrań
nawet niższej jakości nie jest problematyczna, jednak gdy chodzi o wrażenia słuchowe,
różnice brzmienia głosu po transmisji w porównaniu do brzmienia głosu oryginalnego
mogą być bardzo zauważalne (co potwierdzają komentarze do ankiet, opisanych
w rozdziale 4). Doprowadziło to do sytuacji, w której z powodu różnego rodzaju
zniekształceń spośród 302. mówców z bazy początkowej nie wybrano najbardziej
optymalnych mówców-ofiar. Najbardziej problematycznymi zmianami w stosunku do
sygnału oryginalnego wydają się być ograniczenie całego pasma częstotliwości,
zniekształcenia związane z podbijaniem i tłumieniem niektórych pasm częstotliwości,
oraz występowanie mniejszej lub większej ilości szumów.
3.2 Metoda wykonania nagrań ataków
Na etapie wykonywania nagrań naśladowczych, wykonywanych przy użyciu
identycznego sprzętu jak przy wykonywaniu nagrań celów ataku, naśladowca miał za
zadanie jak najdokładniej odwzorować przy użyciu swojego głosu brzmienia mówców-
ofiar. Przyjęty scenariusz odrzucał możliwość korzystania z oprogramowania służącego
do tworzeniu wykresów widmowych nagrań i porównywania ich ze swoimi próbami
naśladowczymi, którego użycie jest preferowaną przez naśladowcę metodą nauki nowych
głosów, gdyż z założenia miał możliwość tylko słuchową ocenę przygotowanych nagrań.
Chociaż z początku nie wydaje się to oczywiste, powoduje to spore trudności.
Naśladowca nie naśladuje oryginalnego głosu mówcy-ofiary, a głos po transmisji
telefonicznej – w celu osiągnięcia możliwie największego podobieństwa musi więc
skupić się nie na tym, by brzmieć jak głos na nagraniu. Koniecznym okazała się próba
eksperymentu myślowego mającego na celu ustalenie jak faktycznie brzmiał głos
24
mówcy-ofiary przed nagraniem, co znacząco zwiększało poziom trudności prób
naśladowczych.
Ostatecznie w celu wykonania nagrań prób naśladowczych naśladowca korzystał
z odtwarzanych przez słuchawki nagrań mówców-ofiar i wielokrotnie wykonywał
powtórzenia frazy będącej hasłem w mowie zależnej, czyli „Używam mojego głosu jako
klucza” i tekstu mowy niezależnej, równolegle do mówców oryginalnych. Jest to jedna
z polecanych przez zawodowych aktorów technik uczenia się głosu osoby, jego lub jej
sposobu artykulacji, szybkości mówienia, naleciałości regionalnych, oraz częstotliwości
i barwy głosu. Spośród wszystkich wykonanych nagrań wybrano te, które okazały się być
najbardziej podobne do nagrań oryginalnych, które to zdaniem naśladowcy ze względu
na problemy z wybraniem naturalnie podobnie brzmiących mówców ofiar opisanych
w 3.2 nie były satysfakcjonujące.
3.3 Naśladowanie głosów znanych osób
Ze względu na brak fizycznego dostępu do celów ataku, jak i aktora naśladującego
ich głosy, na potrzeby pracy nagrano przy użyciu takiej samej techniki jak poprzednio
mowę odtworzoną przez głośnik. Każde nagranie zrealizowane zostało w trakcie osobnej
rozmowy telefonicznej dla zachowania warunków autentycznych. Dźwięk odtwarzany
był z pojedynczego głośnika BX2 firmy M-Audio ze względu na brak zauważalnych
zniekształceń sygnału mowy.
4. Analiza wyników
Po przeanalizowaniu zebranych i pogrupowanych nagrań przez system weryfikacji
mówcy uzyskane zostały wyniki umożliwiające ocenę odporności systemu na
wykorzystane próby oszukiwania go. Następnie zostały one posegregowane według
mówców-celów i przekonwertowane do postaci wykresów w przypadku mowy zależnej
i niezależnej z autorem pracy jako naśladowcą oraz spektrogramów (w przypadku
naśladowania głosów znanych osób) w celu przedstawienia wyników w sposób klarowny
i ułatwiający ich skomentowanie. Wyniki dla mowy zależnej i niezależnej nie zostały
omówione niezależnie od siebie ze względu na to, że skuteczność w próbach oszukania
25
systemu weryfikacji mówcy oceniona przez system oraz przez ankietowanych były dla
nich zbliżone.
Ochotnicy, którzy zgodzili się wziąć udział w badaniu, mieli za zadanie odsłuchanie
grupy trzech wypowiedzi mówcy i wybrać tą, która należy do innego mówcy (materiał
dostępny na stronie internetowej [24]). W każdej grupie trzech wypowiedzi w sposób
pseudolosowy umieszczono dwie wypowiedzi mówcy oryginalnego, oraz jedną mówcy
próbującego podszyć się pod mówcę oryginalnego, odpowiednio autora pracy lub aktora.
W sytuacji, gdy osoby ankietowane nie potrafiły rozpoznać naśladowcy przy pierwszym
przesłuchaniu, mogły po poinformowaniu o tym w kwestionariuszu odtwarzać nagranie
nieograniczoną ilość razy. Ankiety wypełniło 113. ochotników. Oprócz tego ochotnicy
mogli do każdego pytania, jak i do całości pytania dodać dowolne komentarze, które
następnie zostały uwzględnione przy ustalaniu wniosków. Poza ankietą główną
dziewięciu ochotników przesłuchało wszystkich zrealizowanych nagrań w całości w celu
udzielenia dodatkowych komentarzy do prób naśladowania kolejnych mówców. Na
potrzeby omówienia wyników ankietowani ci będą dalej nazywani ‘grupą większą’
i ‘grupą mniejszą’.
4.1 Mowa zależna i niezależna
Wykresy opisane są dwiema osiami, słupkami niebieskimi, słupkami czerwonymi,
oraz trzema krzywymi i jedną linią przerywaną. Na wykresie znajdują się również
przedstawione w formie tekstowej informacje dodatkowe, które zostaną omówione
poniżej.
Pozioma oś „Score” określa wynik uzyskany przez mówcę przy konkretnej próbie
logowania – punkty te są sumaryczną oceną podobieństwa próby w kontekście
przygotowanego wcześniej modelu wyliczoną przez system weryfikacji mówcy.
Uzyskanie większej ilości informacji na temat sposobu punktowania wymagałoby
posiadania wiedzy na temat sposobu działania systemu weryfikacji mówcy, stan obecny
pozwala jednak na poglądową ocenę skuteczności naśladowcy w porównaniu do
skuteczności mówcy oryginalnego. Oś pionowa określa wartości procentowe słupków
i krzywych, więcej na ten temat w opisach odpowiednich wartości.
Niebieskie i czerwone słupki to wyniki skonfrontowania pojedynczych nagrań
mówcy i naśladowcy z przygotowanym wcześniej modelem mówcy. Słupki czerwone to
26
próby logowania z wykorzystaniem nagrań naśladowcy, słupki niebieskie reprezentują
nagrania mówcy oryginalnego. Informacja na temat całkowitej liczby prób logowania dla
obu mówców znajduje się Ich pozycja w kontekście osi poziomej reprezentuje
przybliżony na potrzeby łatwiejszego wglądu w dane wynik punktowy próby logowania
przy użyciu konkretnego nagrania. Wysokość słupków reprezentuje procentowy udział
ilości prób logowania danego mówcy, które osiągnęły zbliżony wynik punktowy,
w stosunku do sumy prób logowań danego mówcy (liczonych osobno dla obu mówców).
Krzywa FPR (ang. False Positive Rate, wskaźnik fałszywej dodatniości) – błąd
fałszywej dodatniości, nazywany również fałszywym alarmem, jest wynikiem uznania,
że pewien warunek został spełniony, podczas gdy tak naprawdę jego założenia nie zostały
spełnione. W przypadku poniższych wykresów krzywa pokazuje, jaki procent fałszywych
prób zalogowania się zostałby uznany za poprawny gdyby próg punktowy akceptacji
próby logowania znajdował się na określonej ilości punktów.
Krzywa FNR (ang. False Negative Rate, wskaźnik fałszywej ujemności) – błąd
związany z negatywnym wynikiem, podczas gdy w określonych warunkach wynik
powinien być pozytywny. W przypadku poniższych wykresów krzywa pokazuje, jaki
procent prób logowania w wykonaniu mówcy oryginalnego zakończyłby się porażką
gdyby prób punktowy akceptacji próby logowania znajdował się na określonej ilości
punktów.
Linia przerywana i EER (ang. Equal Error Rate, wskaźnik równego błędu) –
wartość pokazująca, kiedy ilość wartości fałszywie dodatnich jest równa ilości wartości
fałszywie ujemnych. Im niższa jest wartość EER, tym dokładniejszy jest system
biometryczny. Linia przerywana pokazuje próg punktowy akceptacji próby logowania,
dla którego występuje wskaźnik równego błędu. W przypadku, gdy takich argumentów
jest więcej, np. gdy wszystkie próby logowania w wykonaniu naśladowcy posiadają
mniej punktów niż posiadająca najmniej punktów próba logowania mówcy oryginalnego,
wybierany jest najmniejszy argument spełniający ten warunek.
Krzywa CDF (ang. Cumulative Distribution Function, dystrybuanta) – krzywa ta
pokazuje statystyczną szansę procentową na niewłaściwą klasyfikację sprawdzanej próby
logowania przy ustaleniu progu punktowego akceptacji dla danego argumentu. Przy
tworzeniu poniższych wykresów dystrybuanta służy do ustalenia optymalnego dla
użytego modelu progu akceptacji przy danych nagraniach prób logowania – wybierany
jest argument, dla którego dystrybuanta przyjmuje najniższą wartość.
27
FNR dla FPR1%, FNR dla FPR0.1% - wartości pokazujące ile wynosi obliczona
na podstawie EER i użytych w badaniu nagrań procentowa szansa na odrzucenie próby
logowania mówcy oryginalnego gdyby próbował się on zalogować odpowiednio 100 (dla
FPR1%) i 1000 (dla FPR0.1%) razy. System jest tym dokładniejszy, im mniejsze są te
wartości.
4.1.1 Wyniki prób naśladowczych
Mówca 1
Rys. 4.1. Mówca 1, wykres mowy niezależnej.
28
Rys.4.2. Mówca 1, wykres mowy zależnej.
Ilość osób błędnie typujących naśladowcę: 1 (1.77% )
Głos mówcy nr 1 to głos kobiecy o średniej częstotliwości głosu na poziomie
220Hz. Dopiero w dalszej fazie badania okazało się, że głos naśladowcy nie pasuje do
brzmienia głosu mówcy-ofiary, co w sposób bezpośredni przekłada się na wyniki. O ile
w przypadku mowy niezależnej wynik można traktować jako przeciętny, o tyle
w przypadku mowy zależnej system przyznał próbom naśladowcy niewielką ilość
punktów, tylko kilka prób dochodzi do granicy 1. punktu. Dopasowanie barwy głosu do
barwy oryginalnej okazało się nieskuteczne przy oryginalnych częstotliwościach głosu,
naśladowca skupił się na naśladowaniu tempa i sposobu artykulacji, co zdaniem grupy
mniejszej udało się zrealizować dobrze w porównaniu do reszty nagrań.
29
Mówca 2
Rys.4.3. Mówca 2, wykres mowy niezależnej.
Rys. 4.4. Mówca 2, wykres mowy zależnej.
30
Ilość osób błędnie typujących naśladowcę: 14 (12.39%)
Mówca nr 2 to stosunkowo niski głos męski o częstotliwości średniej na poziomie
118Hz. Naśladowca napotkał spore trudności przy próbie naśladowania tego mówcy ze
względu na to, iż głos ten znajduje się dużo poniżej częstotliwości, w których może
mówić komfortowo. 12% błędów w typowaniu naśladowcy jest pewnym zaskoczeniem
gdyż zdaniem autora pracy i grupy mniejszej nagrania obu mówców bardzo różnią się
słyszalnymi skutkami różnej jakości transmisji, jednak przy takiej ilości pomyłek wśród
ankietowanych nie można bezpiecznie stwierdzić, że jest to wynikiem błędnego wpisania
wyników do ankiety. W przypadku mowy niezależnej próbki głosu naśladowcy osiągnęły
wynik ponad 0.5, co czyni je najwyżej ocenionymi przez program próbkami w tej
kategorii, natomiast w testach mowy zależnej wynik był bardzo niski.
Mówca 3
Rys. 4.5. Mówca 3, wykres mowy niezależnej.
31
Rys. 4.6. Mówca 3, wykres mowy zależnej.
Ilość osób błędnie typujących naśladowcę: 23 (20.35%)
Mówca nr 3 to kobieta o średniej wysokości głosu na poziomie 220Hz i o dużym,
sięgającym 47Hz, odchyleniu standardowym częstotliwości głosu. Mimo, po raz kolejny,
dużej różnicy jakości brzmienia połączenia podczas nagrywania, prawie co piąty
ankietowany błędnie wytypował naśladowcę. Jest to najwyższy wynik osiągnięty przez
naśladowcę, był to jego zdaniem głos, który był jednym z najmniej zniekształconych
podczas procesu nagrywania w porównaniu do brzmienia ‘na żywo’ i jako taki sprawił
mu najmniej problemów przy nagrywaniu. Mniejsza grupa oceniła podobieństwo
brzmieniowe całości nagrania tekstu mowy niezależnej, jako dobre, co nie znajduje
jednak odzwierciedlenia w wykresach z wynikami. Słupki naśladowcy w przypadku
mowy niezależnej wyglądają bardzo podobnie jak przy większości mówców, natomiast
w przypadku mowy zależnej osiągają wyniki przeciętne, z większością wyników na
poziomie 0 punktów. Słupki mówcy oryginalnego w mowie zależnej są bardzo
rozproszone na osi wyników, co sugeruje pewną niekonsekwencję w sposobie
wypowiadania zdania-klucza.
32
Mówca 4
Rys. 4.7. Mówca 4, wykres mowy niezależnej.
Rys. 4.8. Mówca 4, wykres mowy zależnej.
33
Ilość osób błędnie typujących naśladowcę: 1 (0.89%)
W przypadku mówcy nr 4, kobiety o stosunkowo niskim w porównaniu do reszty
mówczyń głosie (średnia wysokość dźwięku na poziomie 199Hz), ocena skuteczności
naśladowcy mieści się w granicach błędu statystycznego. Wynika to najprawdopodobniej
zarówno z błędnej oceny brzmienia głosu oryginalnego przez naśladowcę na etapie
doboru mówców, jak i zauważalnej różnicy w jakości połączenia pomiędzy nagraniami
głosu oryginalnego i głosu naśladowcy. Pomimo powyższych wyniki sprawdzenia
systemem weryfikacji mówcy nagrań pokazują najwyższe podobieństwo nagrań
naśladowcy do oryginału – prawie 4 punkty w przypadku mowy zależnej i duże
zagęszczenie wyników na poziomie 0.5 punktu w przypadku mowy niezależnej. Tak jak
w przypadku mówcy nr 3 nagrania mówcy oryginalnego w przypadku mowy zależnej
różnią się od siebie brzmieniem, co znajduje przełożenie na rozmieszczenie słupków
niebieskich na wykresie mowy zależnej.
Mówca 5
Rys. 4.9. Mówca 5, wykres mowy niezależnej.
34
Rys. 4.10. Mówca 5, wykres mowy zależnej.
Ilość osób błędnie typujących naśladowcę 1 (0.89%)
Mówca nr 5 to kobieta o średniej wysokości głosu na poziomie 200Hz oraz
naturalnie podobnej do naśladowcy dynamice czytania tekstu. Mimo dużej względnej
łatwości w realizacji nagrania naśladowczego i zbliżonej wysokości głosu przez dużą
część nagrania po raz kolejny okazało się, iż barwa głosu naśladowcy jednak nie jest
zbliżona do barwy głosu osoby naśladowanej. Wyniki podane przez system weryfikacji
potwierdzają niezadowalające wyniki ankiety dotyczącej tego głosu, w której to tylko
jedna osoba błędnie oznaczyła głos naśladowcy. Wykres mowy zależnej wskazuje bardzo
niskie wyniki, natomiast wykres mowy niezależnej jest nieco poniżej średniej gdy chodzi
o wszystkie wyniki z tego testu. Osoby opiniujące nagrania w ramach grupy mniejszej
stwierdziły, iż jest to głos, którego próbki brzmią najmniej podobnie do próbek
naśladowcy.
35
Mówca 6
Rys. 4.11. Mówca 6, wykres mowy niezależnej.
Rys. 4.12. Mówca 6, wykres mowy zależnej.
36
Ilość osób błędnie typujących naśladowcę: 6 (5.31%)
W przypadku mówcy nr 6, którym ponownie była kobieta, a wśród wolontariuszy
wypełniających ankiety sześć osób błędnie podało mówcę naśladowanego. Z komentarzy
do ankiety można wywnioskować, że jeszcze kilka osób mogło się pomylić w podobny
sposób gdyby nie to, że próbka głosu naśladowcy miała nieco inną głośność oraz nagranie
było nieco innej jakości. W żaden sposób nie przekłada się to na wyniki uzyskane przy
konfrontacji głosu naśladowcy z głosem osoby naśladowanej w systemie weryfikacji
mówcy. Z rzeczy, które mogą rzucić się w oczy warto zwrócić uwagę na duży rozrzut
ilości punktów uzyskanych przez nagrania oryginalne przy próbie logowania do systemu.
Wszystkie próby logowania zostały przyjęte, jednak świadczy to o pewnej niestałości
w wypowiadaniu hasła przez tego mówcę.
Mówca 7
Rys. 4.13. Mówca 7, wykres mowy niezależnej.
37
Rys. 4.14. Mówca 7, wykres mowy zależnej.
Ilość osób błędnie typujących naśladowcę 2 (1.77%)
Mówca nr 7 to mężczyzna mówiący dość wysokim jak na przedstawiciela tej płci
głosem, częstotliwość średnia jego wypowiedzi to 217Hz. Jest to głos, który na
początkowym etapie redukcji bazy nagrań po odsłuchiwaniu tychże sprawiał wrażenie
niemal identycznego do naturalnego głosu naśladowcy. Dopiero na etapie nagrywania
prób naśladowczych wyszło na jaw, iż głos ten również został na początku bardzo
zniekształcony przez transmisję telefoniczną i jako taki okazuje się nie być podobnym do
głosu naśladowcy. Mówca posiada bardzo specyficzny i rytmiczny sposób czytania, co
było ciekawym wyzwaniem dla naśladowcy, nie przełożyło się to jednak na wynik
ankiety ani wynik uzyskany po skonfrontowaniu głosu naśladowcy z modelem głosu
oryginalnego w systemie. Po raz kolejny widać duży rozrzut, grupa mniejsza
zaopiniowała, iż mówca ten celowo lub przypadkowo za każdym razem czytał zdanie-
hasło w nieco inny sposób, stąd, być może, taki a nie inny rezultat. Mimo tego system był
w stanie rozpoznać głos oryginalny na podstawie modelu.
38
Mówca 8
Ilość osób błędnie typujących naśladowcę: nie dotyczy (86 76.11%)
Mówca nr 8 został umieszczony zarówno w ankiecie, jak i wśród nagrań poddanych
testowi przez system weryfikacji mówcy jako próbka kontrolna. Nagrania zarówno
mówcy oryginalnego, jak i naśladowcy, należą do tej samej osoby. Wynik ankiety
w nawiasie pokazuje ile osób wytypowało pierwszą z trzech próbek znajdujących się
w tej grupie testowej jako zdanie wypowiedziane przez innego mówcę. Wynik ten jest
o tyle ciekawy, że zdanie pierwsze zostało nagrane w trakcie innej rozmowy telefonicznej
niż dwa pozostałe, co zmyliło zdecydowaną większość ankietowanych, którzy w każdym
teście musieli oznaczyć przynajmniej jednego mówcę. Zdaniem autora pracy może to
sugerować, iż różnice w brzmieniu głosu ludzkiego przy różnych jakościach połączenia
telefonicznego mogą mieć znaczenie w przypadku testów odsłuchowych. Różnice
słyszalne nie miały dużego wpływu na wyniki podane przez system weryfikacji mówcy,
który ocenił próby logowania ‘fałszywego’ naśladowcy bardzo wysoko i zakwalifikował
go jako mówcę oryginalnego. Autor pracy zdecydował się w przypadku tego testu nie
umieszczać tutaj wykresów, gdyż zawierałyby one przekłamane i niepoprawne dane
wynikające ze zmuszania systemu do traktowania mówcy oryginalnego jako naśladowcę.
System był w stanie zasugerować zmianę progu przyjęcia próby logowania, był on jednak
na tyle wysoki, że mówca miałby bardzo duże problemy z zalogowaniem się, gdyż
musiałby wypowiadać hasło prawie dokładnie tak, jak przy tworzeniu modelu.
4.2 Aktorskie naśladowanie głosów znanych osób
W przypadku nagrań naśladowania osób znanych przez aktora za właściwszą formę
wizualnej prezentacji materiałów wspomagających omówienie wyników uznano
spektrogramy – nagrania są zbyt krótkie i jest ich zbyt niewiele, by tworzyć wykresy jak
w przypadku poprzedniej części przedstawienia wyników. W przypadku każdego mówcy
zostały przedstawione dwa wykresy widmowe, mówcy oryginalnego i próby
naśladowczej. Oś pozioma to upływ czasu, oś pionowa to częstotliwości dźwięku
w hercach przedstawione w skali logarytmicznej. Intensywność dźwięku odzwierciedlana
jest przez kolory według legendy po prawej stronie – kolor żółty reprezentuje największą
39
intensywność, najniższa intensywność to kolor czarny. Wszystkie nagrania zostały
znormalizowane tak, aby wyraźniej widoczne były różnice w intensywności
harmonicznych oraz jej zmienność. Wynik obliczony przez system weryfikacji mówcy,
a podany pod spektrogramami, obowiązuje skala punktowa taka sama, jak w przypadku
mowy niezależnej.
4.2.1 Wyniki prób naśladowczych
Mówca 9 – James McAvoy
Rys. 4.15. Mówca 9, spektrogram nagrania oryginalnego
40
Rys. 4.16. Mówca 9, spektrogram nagrania naśladowcy.
Ilość osób błędnie typujących naśladowcę 96 84.96%
Wynik przyznany przez system weryfikacji mówcy: 0.549 – brak logowania
W przypadku próby naśladowania mówcy aktor wykazał się bardzo dużą
dokładnością, jedynie trzech ankietowanych świadomie poprawnie wybrało poprawną
odpowiedź, powołując się na różnice w artykulacji (aktor wypowiedział zdania wyraźniej
niż mówca oryginalny), co można zauważyć na spektrogramach jako większa ilość
harmonicznych o dużej intensywności – jest to widoczne praktycznie w każdym słowie.
Jeśli chodzi o różnice w częstotliwości dźwięku, to zarówno w przypadku średniej
wartości częstotliwości, jak i częstotliwości poszczególnych głosek, które można
odczytać z wykresu, były one u obu mówców bardzo do siebie zbliżone.
41
Mówca 10 – Christian Bale
Rys. 4.17. Mówca 10, spektrogram nagrania oryginalnego.
Rys. 4.18. Mówca 10, spektrogram nagrania naśladowcy.
Ilość osób błędnie typujących naśladowcę: 56 (49.56%)
Wynik przyznany przez system weryfikacji mówcy: 0.344 – brak logowania
42
W przypadku tego mówcy aktorowi udało się oszukać nieco ponad połowę
ankietowanych. Ankietowani stwierdzili w ‘uwagach’, iż test ten jest trudny z powodu
‘mamrotanego’ charakteru wypowiedzi obydwu mówców. 17 osób uzasadniło wybór
właściwego mówcy dużą różnicą brzmienia głosu wynikającą ich zdaniem z użycia
innego mikrofonu i/lub innych warunków nagrania, a znajdujących się w jego tle. Ze
spektrogramu można odczytać pewne różnice w położeniu harmonicznych, jak i szum
lub pogłos pomiędzy wypowiadanymi słowami na spektrogramie mówcy oryginalnego,
które u naśladowcy nie występują.
Mówca 11 – Matthew McConaughey
Rys. 4.19. Mówca 11, spektrogram nagrania oryginalnego.
43
Rys. 4.20. Mówca 11, spektrogram nagrania naśladowcy.
Ilość osób błędnie typujących naśladowcę: 79 (69.91%)
Wynik przyznany przez system weryfikacji mówcy: 0.425 – brak logowania
W tym przypadku mówca oryginalny był mylony z mówcą-naśladowcą w siedmiu
przypadkach na dziesięć. Osoby, które nie dały się oszukać i zauważały różnicę
w brzmieniu powoływały się na wyraźniejsze brzmienie mówcy naśladującego głos
oryginalny. Na wykresie widmowym widać, iż częstotliwości harmoniczne są dużo lepiej
widoczne, co potwierdzają też obserwacje grupy mniejszej mającej okazję wysłuchać
całości nagrania. Część osób ankietowanych zwraca także uwagę na to, iż mówcę
oryginalnego łatwo jest rozpoznać z powodu różnej jakości próbek. Za pewną
ciekawostkę można tutaj uznać fakt, że osoby dodające ten komentarz do ankiety zwykle
w przypadku tego testu typowały naśladowcę błędnie.
44
Mówca 12 – David Kelly
Rys. 4.21. Mówca 12, spektrogram nagrania oryginalnego.
Rys. 4.22. Mówca 12, spektrogram nagrania naśladowcy.
Ilość osób błędnie typujących naśladowcę: 78 (69.03%)
Wynik przyznany przez system weryfikacji mówcy: 0.544 – brak logowania
45
W przypadku tego mówcy mamy do czynienia z kolejnym bardzo wysokim
procentem błędnych odpowiedzi. Głos ten różni się nieco od innych z tej kategorii tym,
że brzmi zdecydowanie od nich starzej, jednak po wyniku ankiety widać, iż aktor
naśladujący poradził sobie z tą różnicą brzmienia. Część osób należących do mniejszej
grupy ankietowanych, która miała dostęp do całości nagrań, sugeruje, iż nagrania
wylosowane do testy są szczęśliwym trafem, gdyż gdyby wylosowane zostało jedno
z pozostałych zdań wynik osiągnięty w ankiecie byłby nieco niższy ze względu na
mniejsze podobieństwo i występowaniu w mowie manieryzmów charakterystycznych dla
naśladowcy związanych z akcentem, których osoba naśladowana nie posiada. Na
wykresie widmowym nie widać dużych różnic pomiędzy obydwoma mówcami.
Mówca 13 – Justin Timberlake
Rys. 4.23. Mówca 13, spektrogram nagrania oryginalnego.
46
Rys. 4.24. Mówca 13, spektrogram nagrania naśladowcy.
Ilość osób błędnie typujących naśladowcę: 52 (46.02%)
Wynik przyznany przez system weryfikacji mówcy: 0.590 – brak logowania
Ostatni mówca to głos, którego naśladowanie ‘oszukało’ najmniejszą liczbę
ankietowanych. Komentarze dodawane do tego testu sugerują, iż wynika to z bardzo
nienaturalnego sposobu, w jak naśladowca wypowiedział jedno ze słów, a to wystarczyło
do skutecznego odróżnienia próbki głosu naśladowcy od głosu oryginalnego. Po raz
kolejny zwrócono też uwagę na to, iż głos naśladowcy brzmi nieco wyraźniej niż głos
mówcy oryginalnego, co pozwoliło części ankietowanych na poprawne wytypowanie
naśladowcy. W sprzeczności z powyższym stoi wynik podany przez system, który
zestawił ze sobą głos oryginalny i głos naśladowcy – wynik 0.59 sugeruje największe
podobieństwo głosów obydwu mówców ze wszystkich przeprowadzonych na potrzeby
pracy testów (z pominięciem testu kontrolnego, w którym naśladowcą był mówca
oryginalny).
47
5. Dyskusja i podsumowanie
Po skonfrontowaniu systemu weryfikacji mówcy z dwoma scenariuszami prób
naśladowczych mających na celu nieautoryzowane zalogowanie się system okazał się być
na nie odporny, zachowując jednocześnie wystarczająco niski prób tolerancji na to, aby
autentyczny mówca mógł być przez niego poprawnie rozpoznany i aby próba logowania
w takiej sytuacji się powiodła. Mimo tego, iż (zwłaszcza w przypadku drugiego
scenariusza, prób naśladowczych w wykonaniu Jamesa Arnolda Taylora), ankiety
wypełnione przez wolontariuszy wykazały, że odróżnienie głosu naśladowcy może się
okazać zadaniem bardzo trudnym lub wręcz niemożliwym do wykonania, system okazał
się być wystarczająco skuteczną formą zabezpieczenia przed tego typu atakami na system
weryfikacji mówcy.
Pierwszy scenariusz, zakładający dobór mówców z przygotowanej wcześniej bazy
próbek dźwiękowych zebranych na potrzeby testowania systemu weryfikacji mówcy,
a następnie naśladowanie tych mówców, do których naturalnie podobnie brzmiał głos
naśladowcy, nie przyniósł oczekiwanych wyników, ale dostarczył dużą ilość użytecznych
wniosków. Według wcześniejszego przeświadczenia autora pracy celowy wybór
mówców z bazy miał ułatwić zadanie polegające na naśladowaniu ich głosów miało
w założeniu ułatwić ich naśladowanie, tak się jednak nie stało. Podstawowym wnioskiem
jest informacja, że wybieranie z bazy nagrań wykonanych przy użyciu
nieznormalizowanych mikrofonów oraz przy różnej jakości połączenia telefonicznego
zdecydowanie utrudnia wykonanie scenariusza polegającego na naśladowaniu ich
głosów. Zadanie okazuje się być o tyle trudniejszym, że zamiast zadania podstawowego,
czyli zwyczajnym naśladowaniu mówcy, należy albo starać się ustalić, jak mówca mógł
brzmieć przed zniekształceniem jego głosu przez mikrofon telefoniczny i przez sam
proces transmisji sygnału mowy przez sieć GSM, albo starać się ustalić, jak powinien
brzmieć naśladowca, aby po wyżej wymienionych procesach brzmiał podobnie do próbek
głosu mówców oryginalnych wykonanych w ten sam sposób. Oba procesy są zdaniem
naśladowcy zdecydowanie trudniejsze niż samo naśladowanie głosów mówców
oryginalnych, co pośrednio znajduje swoje odzwierciedlenie w wynikach ankiet
wypełnionych przez wolontariuszy oraz uwagach od nich – tylko niektóre spośród głosów
naśladowanych brzmią podobnie w wykonaniu naśladowcy. Nie bez znaczenia zdawał
się być fakt, iż nagrania mówców oryginalnych i naśladowcy, mimo korzystania z tego
48
samego mikrofonu, wykonywane były w różnym czasie, często więc głos naśladowcy
dało się rozpoznać na podstawie poziomu zakłóceń wywołanych transmisją sygnału
mowy, a nie po samym brzmieniu głosu.
W rozdziale 1 opisano, jakie istnieją biometryczne systemy weryfikacji
użytkownika w celu pobieżnego pokazania wad i zalet różnych rozwiązań.
W rozdziale 2 wprowadzono w temat systemów weryfikacji biometrycznej
i opisano proces ich działania. Następnie opisano dokładniej biometryczny system
weryfikacji mówcy i metody, których można próbować użyć w celu jego oszukania.
Później omówiono dokładniej metody bezpośrednie prób oszukania tegoż systemu ze
szczególnym uwzględnieniem aktorskiej modulacji głosowej. W obrębie aktorskiej
modulacji głosowej opisano metody zmiany własnego głosu w celu dokonania próby
‘podrobienia’ głosu innej osoby.
W rozdziale 3 dokonano dokładniejszej analizy początkowej bazy mówców,
z której następnie wybrano osiem osób, mówców-ofiary, których to mówców głosy
‘podrabiać’ miał naśladowca. Opisano proces redukcji bazy liczącej 302. mówców do
bazy zredukowanej, a następnie opisano metody wykonywania nagrań ataków.
W rozdziale 4 dokonano analizy wyników otrzymanych po porównaniu nagrań
oryginalnych z nagraniami naśladowczymi przy użyciu systemu weryfikacji mówcy.
Omówienia opatrzono wykresami wygenerowanymi na podstawie danych wynikowych
i wykresami widmowymi, które miały za zadanie lepiej zobrazować podobieństwo
głosów lub jego brak. Omówiono także sposób oceny jakości systemu weryfikacji mówcy
przy użyciu parametrów takich jak FPR (False Positive Ratio), FNR (False Negative
Ratio), oraz EER (Equal Error Rate).
Do wykonania zadań opisanych w niniejszej pracy konieczne było zapoznanie się
z informacjami na temat biometrycznych systemów weryfikacji użytkownika, ze
szczególnym uwzględnieniem biometrycznych systemów weryfikacji mówcy. Konieczne
było także przypomnienie sobie cech ludzkiego głosu i metod ich naśladowania, a także
nauczenie się bardziej precyzyjnego i metodycznego naśladowania mówców
oryginalnych w celu osiągnięciu maksymalnego podobieństwa imitacji do głosu
oryginalnego, pomimo utrudnień opisanych wcześniej.
49
Bibliografia
[1] Bimbot F., Bonastre J.F., Fredouille C., Gravier G., Magrin-Chagnolleau I., Meignier
S., Merlin T., Ortega-Garcia J., Petrovska-Delacretaz D., Reynolds D.A.: A Tutorial on
Text-Independent Speaker Verification. EURASIP Journal on Applied Signal Processing
2004:4, 430– 451, Hindawi Publishing Corporation, 2004
[2] Zhizheng Wu Z., Nicholas Evans N., Tomi Kinnunen T., Junichi Yamagashi J.,
Federico Alegre F., Haizhou Li H.: Spoofing and countermeasures for speaker
verification: A survey, Elsevier Speech Communications, 2014
[3] Dehak, N., Dumouchel, P., Kenny, P.: Modeling prosodic features with joint factor
analysis for speaker verification. IEEE Trans. Audio Speech Language Process.,
15.2095-2103, CRIM, Montreal 2007.
[4] Reynolds, D., Rose, R.: Robust text-independent speaker identification using
Gaussian mixture speaker models. IEEE Trans. Speech Audio Process. 3, 72-83, Lincoln
Lab., MIT, Lexington, 1995
[5] Doddington, G.: Speaker recognition based on idiolectal differences between
speakers. In: Proc. European Conference on Speech Communication and Technology,
Eurospeech, 2001
[6] Mariethoz, J., Bengio, S.: Can a professional imitator fool a GMM-based speaker
verification system?, IDIAP Research Report (No. Idiap-RR 05-61), 2006
[7] Villialba, J., Lleida, E.: Detecting replay attacks from far-field recordings on speaker
verification systems. In: Veilhauer, C., Dittmann, J., Drygajlo, A., Juul, N., Fairhurst, M.,
(Eds.), Biometrics and ID Managements, In: Lecture Notes in Computer Science pp. 274-
285, Springer, 2011a
[8] Matyas V., Riha, Z.: Biometric authentication – security and usability, Faculty of
Informatics, Masaryk University Brno, Czech Republic, 2002
[9] Masuko, T., Hitotsumatsu, T., Tokuda, K., Kobayashi, T.: On the security of HMM-
based speaker verification systems against imposture using synthetic speech. In: Proc.
European Conference on Speech Communication and Technology, Eurospeech, 1999
[10] Kinnunen, T., Wu, Z.Z., Lee, K.A., Sedlak, F., Cheng, E.S., Li, H.: Vulnerability of
speaker verification systems against voice conversion spoofing attacks: the case of
telephone speech. In: Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing,
ICASSP, 2012
50
[11] Grassi, S., Besacier, L., Dufaux A., Ansorge M., Pellandini, F.: Influence of GSM
speech coding on the performance of text-independent speaker recognition, Institute of
Microtechnology, University of Neuchâtel, Rue A.-L. Breguet 2, Neuchâtel, Switzerland,
2000
[12] Jain A., K., Ross A., Pankanti S., Biometrics: A Tool for Information Security, IEEE
Transactions on Information Forensics and Security, vol. 1, no. 2, Dept. of Comput. Sci.
& Electr. Eng., Michigan State Univ., USA, 2006
[13] Li, S.Z., Jain A.K.: Handbook of Face Recognition, New York: Springer Verlag,
2004.
[14] Maltoni, D., Maio, D., Jain, A. K., Prabhakar S: Handbook of Fingerprint
Recognition. New York: Springer Verlag, Jun. 2003.
[15] Daugman, J.: The importance of being random: statistical principles of iris
recognition, Pattern Recognit., vol. 36, no. 2, pp. 279–291, Chicago, 2003.
[16] Nalwa, V.S.: Automatic on-line signature verification, Proc. IEEE, vol. 85, no. 2, pp.
213–239, 1997.
[17] Wolf, J.: How to create emotional and/or altered voice quality. An acoustic
comparison between habitual and altered voice of the same speaker, Fac. of Comput.
Sci., Electron. & Telecommun., AGH Univ. of Sci. & Technol., Kraków, Poland, 2014
[18] Sadolin, K.: Complete Vocal Technique, CVI Publications, 2012.
[19] Master, S., Guzman, M., de Miranda, H.C., Lloyd, A.: Electroglottographic Analysis
of Actresses and Nonactresses’ Voices in Different Levels of Intensity, Department of
Performing Arts, UNESP- Univ Estadual Paulista, 2012
[20] Alburger, J.: The Art of Voice Acting: The Craft and Business of Performing
Voiceover, Focal Press, 2011
[21] Scarpelos, T.: How to Do Impressions: Everything you Need to Know to be an
Impression God so you can Rock the House!, Tony Scarpelos, 2013
[22] Strona internetowa system Voice Color, http://techmo.pl/index.php/voice-
color/opis-produktu (dostęp 19.02.2015)
[23] Artykuł z Wikipedii będący źródłem tekstu do nagrań mowy niezależnej,
http://pl.wikipedia.org/wiki/Wilk (dostęp 19.02.2015)
[24] Nagranie zawierające test do ankiet związanych z badaniem,
https://www.youtube.com/watch?v=ZcZzBfiwu2w (dostęp 19.02.2015)