PRZETWARZANIE SYGNAŁÓ W B I O M E T R Y C Z N Y C...
Click here to load reader
Transcript of PRZETWARZANIE SYGNAŁÓ W B I O M E T R Y C Z N Y C...
PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 1 z 8
W O J S K O W A A K A D E M I A T E C H N I C Z N A
W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie
P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H
Grupa ........................... Data wykonania ćwiczenia: Ćwiczenie prowadził:
Nazwisko i imię: Ocena ................................... ...................................
1. ........................................................ Uwagi: Podpis:
2. ........................................................
S P R A W O Z D A N I E Z Ć W I C Z E N I A L A B O R A T O R Y J N E G O
Temat: Badanie eksploatacyjne automatycznego systemu rozpoznawania mówcy
1. INSTRUKCJA OBSŁUGI PROGRAMU ASR_1_WAT Program może funkcjonować w dowolnie wybranym folderze, przy czym wszystkie plików dźwiękowe oraz ewentualne tablice z wektorami cech (pliki *.mat) powinny być również zapisane w tym folderze. Program uruchamia się poprzez wywołanie dowolnym sposobem polecenia ASR_1_WAT.exe. Program operuje na plikach dźwiękowych w formacie .wav, o parametrach: fp = 22050 Hz, 16 bitów, nagranie monofoniczne. Po uruchomieniu programu otwiera się okno główne przedstawione na poniższym rysunku.
W grupie NAGRYWANIE: pole PODAJ CZAS NAGRANIA umożliwia zdefiniowanie długości nagrania, jakiego moż-
na dokonać przy użyciu dowolnie zainstalowanego w komputerze mikrofonu. Po nagraniu możliwie jest odtwo-
rzenie zarejestrowanego sygnału mowy poprzez intuicyjnie oznaczone przyciski.
PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 2 z 8
W grupie BAZA_DANYCH_DODAWANIE_NOWEJ_OSOBY możliwie jest zapisanie sygnału, nagranego przy użyciu
opcji NAGRYWANIE, do pliku w formacie .wav (fp = 22050 Hz, 16 bitów, nagranie monofoniczne). Zapis obejmu-
je podanie akronimu imienia i nazwiska, przy czym zapisywany plik musi posiadać końcówkę ’_u’, która świad-
czy, iż jest to plik przeznaczony do „uczenia”, tj. plik, który będzie zapisany w bazie jako plik referencyjny do po-
równań. Dodatkowo w ramach zapisywania pliku dokonuje się jednoczesnego obliczenia odpowiadających mu
wektorów cech. W tym celu w polu Podaj ile VP określa się liczbę wektorów cech, a w polu Podaj z jakich czasów
można dodatkowo określić, z jakich odcinków czasowych nagranego sygnału mowy, będą one obliczane. Przy
użyciu przycisku DODAJ DO BAZY następuje automatyczny zapis pliku do folderu, w którym znajduje się program
oraz równoległe obliczenie odpowiednich wektorów cech i zapisanie ich w tablicy pod taką samą nazwą jak zapi-
sywany plik audio, z tym że z rozszerzeniem .mat.
W grupie BAZA_DANYCH_UAKTUALNIENIE_MACIERZY_CECH program wyświetla listę plików typu .wav, które
znajdują się w docelowym folderze, z którego dokonano uruchomienia programu. Dodatkowo można dokonać
odsłuchu wybranego pliku. Po kliknięciu na wybrany plik wyświetla się informacja o czasie jego trwania. W tym
panelu można przeprowadzić obliczenia wektorów cech dla wybranych z listy plików. Istnieje również opcja wy-
świetlenia wartości obliczonych cech poprzez kliknięcie na pole: POKAŻ OBLICZONE CECHY. W trakcie generacji
wektorów cech obserwujemy wskaźnik postępu pracy systemu. Następnie pojawia się dodatkowy komunikat
programu o obliczeniu wektorów cech, po kliknięciu przycisku OK, powraca się do programu i możliwe jest wy-
świetlenie obliczonych wartości wektorów cech.
W grupie IDENTYFIKACJA/WERYFIKACJA możliwe jest przeprowadzenie identyfikacji na dwa różne sposoby.
Pierwszy z nich umożliwia identyfikację głosu pochodzącego bezpośrednio z mikrofonu zarejestrowanego przy
użyciu panelu NAGRYWANIE. W takim przypadku uruchamia się procedurę identyfikacji poprzez naciśnięcie
przycisku: GŁOS NAGRANY. Alternatywnym sposobem jest identyfikacja na bazie dowolnie wybranego pliku typu
.wav wczytanego przy użyciu przycisku: GŁOS Z PLIKU. Dla każdego z tych sposobów identyfikacji można określić
długość wypowiedzi jaka będzie podlegać rozpoznaniu, wpisując wybraną wartość w pole: CZAS TESTOWANIA.
Również w tym przypadku obserwujemy wskaźnik postępu pracy systemu, by w końcowym etapie otrzymać ta-
belaryczne zestawienie najbardziej podobnych klas w odniesieniu do testowanej wypowiedzi. W kolejnych ko-
lumnach tabeli umieszczone są odpowiednio: akronim rozpoznanej klasy (imię i nazwisko), nazwa rozpoznanego
pliku .wav, liczbowa wartość podobieństwa rozpoznanej klasy do aktualnie identyfikowanego nagrania.
W kolejnych kolumnach tabeli umieszczone są odpowiednio:
akronim rozpoznanej klasy,
PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 3 z 8
nazwa rozpoznanego pliku .wav,
liczbowa wartość podobieństwa rozpoznanej klasy do aktualnie identyfikowanego nagrania.
Program umożliwia również rozpoznawanie w trybie weryfikacji – w tym przypadku następuje porównanie 1:1.
Analiza wyników eksperymentów
System ASR_1_WAT został wyposażony w dodatkową metodę decyzyjną związaną z określaniem podobieństw
rozpoznawanych głosów. W związku z tym wyniki każdego z eksperymentów można analizować na dwa różne
sposoby.
Pierwszym z nich jest ocena biorąca pod uwagę jedynie binarną decyzję systemu co do rozpoznania. Zgodnie
z nią za poprawną identyfikację uważa się taką, dla której rozpoznawana klasa wystąpi na pierwszej pozycji
w rankingu rozpoznanych klas - identyfikacja binarna.
Drugim wariantem, jest rozszerzenie pojęcia poprawności identyfikacji do sytuacji, w której jako sukces traktuje się obecność prawidłowej klasy w pewnym podzbiorze (max. czterech) klas wyselekcjonowanych przez system - identyfikacja rankingowa. Poniżej przedstawiono poprawną identyfikację, w której prawidłowo rozpoznana kla-sa znalazła się na 3 pozycji.
2. ZADANIA
Zadanie 1. Analiza możliwości programu ASR_1_WAT
Po zapoznaniu się z instrukcją obsługi programu ASR_1_WAT przetestować następujące funkcjonalności programu:
nagrywanie,
rejestrację nowego użytkownika do bazy systemu,
identyfikację użytkownika,
weryfikację użytkownika,
generację odcisku głosu dla wcześniej zarejestrowanego pliku.
PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 4 z 8
Zadanie 2. Badanie wpływu długości wypowiedzi testowej na skuteczność rozpoznania
Celem zadania jest ocena skuteczności działania systemu w zależności od czasu trwania wypowiedzi testowej, przy za-chowaniu stałej długości czasu uczenia. Badań należy dokonać w oparciu o wybrane do testów pliki .wav.. Plik musi po-siadać końcówkę „_t” , która świadczy, iż jest to plik przeznaczony do „testowania”. Pliki te znajdują się w oddzielnym folderze pliki testowe i są takie same dla wszystkich wariantów badań.
Badanie przeprowadzić w następującej kolejności:
Stworzyć bazę modeli dla 20 mówców (Uaktualnij cechy VP) dla następujących parametrów:
Czas uczenia: 60
Podaj ile VP: 10
Podaj z jakich czasów: 15
Testowanie (tryb identyfikacji) przeprowadzić dla wypowiedzi testowej o długości: 10 s, 5 s oraz 3 s.
Badania należy wykonać z zastosowaniem identyfikacji binarnej oraz identyfikacji rankingowej, a wyniki umieścić
oraz zobrazować na wykresie. W celu określenia skuteczności działania systemu na wybranej grupie mówców,
należy obliczyć tzw. globalny błąd rozpoznania.
Wyciągnąć wnioski komentując wpływ skracania wypowiedzi testowej na skuteczność działania systemu. Dodat-
kowo zanotować, czy błędy rozpoznania występują dla tych samych klas we wszystkich wariantach działania sys-
temu. Zaobserwować czas działania systemu w zależności od długości wypowiedzi testowej.
Identyfikacja binarna Identyfikacja rankingowa
Długość wypowiedzi testowej [s] Liczba błędów % błąd rozpoznania Liczba błędów % błąd rozpoznania
10
5
3
60
65
70
75
80
85
90
95
100
10 s 5 s 3 s
Slu
tecz
no
ść r
ozp
ozn
ania
Długość wypowiedzi testowej
Długość wypowiedzi testowej a skuteczność rozpoznania
IB
IR
PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 5 z 8
Zadanie 3. Badanie wpływu długości wypowiedzi uczącej na skuteczność rozpoznania
Celem zadania jest ocena skuteczności działania systemu w zależności od czasu trwania wypowiedzi uczącej, przy za-chowaniu stałej długości czasu testowania. Ze względu na czasochłonne obliczenia wszystkie niezbędne modele mów-ców dla poszczególnych wariantów badania zostały zebrane w odpowiednich folderach (uczenie 90_s, uczenie 60_s, uczenie 30_s) odpowiadających kolejno długościom wypowiedzi uczącej 90, 60 oraz 30 sekund. Pliki testowe znajdują się w oddzielnym folderze pliki testowe i są takie same dla wszystkich przeprowadzonych wariantów badań. Dla każdego z wariantów badania należy przeprowadzić następujące eksperymenty:
Testowanie (tryb identyfikacji) przeprowadzić dla wypowiedzi testowej o długości: 10 s.
Badania należy wykonać z zastosowaniem identyfikacji binarnej oraz identyfikacji rankingowej a wyniki umieścić
oraz zobrazować na wykresie. W celu określenia skuteczności działania systemu na wybranej grupie mówców,
należy obliczyć tzw. błąd globalny rozpoznania.
Wyciągnąć wnioski komentując wpływ skracania wypowiedzi uczącej na skuteczność działania systemu. Dodat-
kowo zanotować, czy błędy rozpoznania występują dla tych samych klas we wszystkich wariantach działania sys-
temu. Zaobserwować czas działania systemu w zależności od długości wypowiedzi testowej
Identyfikacja binarna Identyfikacja rankingowa
Długość wypowiedzi uczącej [s] Liczba błędów % błąd rozpoznania Liczba błędów % błąd rozpoznania
90
60
30
85
90
95
100
90 s 60 s 45 s
Slu
tecz
no
ść r
ozp
ozn
ania
Długość wypowiedzi uczącej
Długość wypowiedzi uczącej a skuteczność rozpoznania
IB
IR
PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 6 z 8
Zadanie 4. Badanie wpływu liczebności bazy mówców na skuteczność rozpoznania
Celem badania jest ocena wpływu wielkości populacji na skuteczność działania systemu ASR.
Eksperymenty przeprowadzić w następującej kolejności:
Stworzyć bazę modeli dla 40 mówców (Uaktualnij cechy VP) dla następujących parametrów:
Czas uczenia: 60
Podaj ile VP: 10
Podaj z jakich czasów: 15
Do testów należy użyć wypowiedzi testowej o długości 10 s (tryb identyfikacji).
Badania należy wykonać z zastosowaniem identyfikacji binarnej oraz identyfikacji rankingowej a wyniki umieścić
oraz zobrazować na wykresie. W celu określenia skuteczności działania systemu na wybranej grupie mówców,
należy obliczyć tzw. błąd globalny rozpoznania.
Porównać otrzymane wyniki z adekwatnymi wynikami dla dwukrotnie mniejszej bazy mówców
Wyciągnąć wnioski komentując wpływ podwojenia liczebności bazy mówców na skuteczność działania systemu.
Zaobserwować czas działania systemu.
Identyfikacja binarna Identyfikacja rankingowa
Liczebność bazy mówców Liczba błędów % błąd rozpoznania Liczba błędów % błąd rozpoznania
20
40
80
85
90
95
100
20 40
Slu
tecz
no
ść r
ozp
ozn
ania
Rozmiar populacji
Rozmiar polulacji a skuteczność rozpoznania
IB
IR
PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 7 z 8
Zadanie 5. Badanie systemu w trybie weryfikacji
Celem eksperymentów jest określenie progu podobieństwa, powyżej którego system uznaje osobę weryfikowaną za tą, za którą się podaje. Liczebność populacji: 20 mówców. Badania przeprowadzić w następującej kolejności:
Badania przeprowadzić korzystając z katalogu: zadanie 2
Zastosować tryb weryfikacji
Do testów należy użyć wypowiedzi testowej o długości 10 s
Zanotować wyniki w tabeli, z zaznaczeniem najmniejszej oraz największej wartości podobieństwa
Określić próg podobieństwa i odpowiadającą mu skuteczność działania systemu
Wyciągnąć wnioski co do skutków przyjęcia konkretnych wartości progu podobieństwa, Jaki ma to wpływ na
działanie całego systemu?
PLIK TESTOWY
podobieństwo
1_aa_01
2_aa_01
3_aa_01
4_aa_01
5_aa_01
6_aa_01
7_aa_01
8_aa_01
9_aa_01
10_aa_01
11_aa_01
12_aa_01
13_aa_01
14_aa_01
15_aa_01
16_aa_01
17_aa_01
18_aa_01
19_aa_01
20_aa_01
3. SPOSTRZEŻENIA I WNIOSKI
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 8 z 8
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…
……………………………………..……………………………………………....………………………………………………...…