PRZETWARZANIE SYGNAŁÓ W B I O M E T R Y C Z N Y C...

8

Click here to load reader

Transcript of PRZETWARZANIE SYGNAŁÓ W B I O M E T R Y C Z N Y C...

Page 1: PRZETWARZANIE SYGNAŁÓ W B I O M E T R Y C Z N Y C Hzese.wel.wat.edu.pl/adobrowolski/do_pobrania/ASRM_Sprawozdanie.pdf · PRZETWARZANIE SYGNAŁÓW IOMETRY ZNY H str. 3 z 8 nazwa

PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 1 z 8

W O J S K O W A A K A D E M I A T E C H N I C Z N A

W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Grupa ........................... Data wykonania ćwiczenia: Ćwiczenie prowadził:

Nazwisko i imię: Ocena ................................... ...................................

1. ........................................................ Uwagi: Podpis:

2. ........................................................

S P R A W O Z D A N I E Z Ć W I C Z E N I A L A B O R A T O R Y J N E G O

Temat: Badanie eksploatacyjne automatycznego systemu rozpoznawania mówcy

1. INSTRUKCJA OBSŁUGI PROGRAMU ASR_1_WAT Program może funkcjonować w dowolnie wybranym folderze, przy czym wszystkie plików dźwiękowe oraz ewentualne tablice z wektorami cech (pliki *.mat) powinny być również zapisane w tym folderze. Program uruchamia się poprzez wywołanie dowolnym sposobem polecenia ASR_1_WAT.exe. Program operuje na plikach dźwiękowych w formacie .wav, o parametrach: fp = 22050 Hz, 16 bitów, nagranie monofoniczne. Po uruchomieniu programu otwiera się okno główne przedstawione na poniższym rysunku.

W grupie NAGRYWANIE: pole PODAJ CZAS NAGRANIA umożliwia zdefiniowanie długości nagrania, jakiego moż-

na dokonać przy użyciu dowolnie zainstalowanego w komputerze mikrofonu. Po nagraniu możliwie jest odtwo-

rzenie zarejestrowanego sygnału mowy poprzez intuicyjnie oznaczone przyciski.

Page 2: PRZETWARZANIE SYGNAŁÓ W B I O M E T R Y C Z N Y C Hzese.wel.wat.edu.pl/adobrowolski/do_pobrania/ASRM_Sprawozdanie.pdf · PRZETWARZANIE SYGNAŁÓW IOMETRY ZNY H str. 3 z 8 nazwa

PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 2 z 8

W grupie BAZA_DANYCH_DODAWANIE_NOWEJ_OSOBY możliwie jest zapisanie sygnału, nagranego przy użyciu

opcji NAGRYWANIE, do pliku w formacie .wav (fp = 22050 Hz, 16 bitów, nagranie monofoniczne). Zapis obejmu-

je podanie akronimu imienia i nazwiska, przy czym zapisywany plik musi posiadać końcówkę ’_u’, która świad-

czy, iż jest to plik przeznaczony do „uczenia”, tj. plik, który będzie zapisany w bazie jako plik referencyjny do po-

równań. Dodatkowo w ramach zapisywania pliku dokonuje się jednoczesnego obliczenia odpowiadających mu

wektorów cech. W tym celu w polu Podaj ile VP określa się liczbę wektorów cech, a w polu Podaj z jakich czasów

można dodatkowo określić, z jakich odcinków czasowych nagranego sygnału mowy, będą one obliczane. Przy

użyciu przycisku DODAJ DO BAZY następuje automatyczny zapis pliku do folderu, w którym znajduje się program

oraz równoległe obliczenie odpowiednich wektorów cech i zapisanie ich w tablicy pod taką samą nazwą jak zapi-

sywany plik audio, z tym że z rozszerzeniem .mat.

W grupie BAZA_DANYCH_UAKTUALNIENIE_MACIERZY_CECH program wyświetla listę plików typu .wav, które

znajdują się w docelowym folderze, z którego dokonano uruchomienia programu. Dodatkowo można dokonać

odsłuchu wybranego pliku. Po kliknięciu na wybrany plik wyświetla się informacja o czasie jego trwania. W tym

panelu można przeprowadzić obliczenia wektorów cech dla wybranych z listy plików. Istnieje również opcja wy-

świetlenia wartości obliczonych cech poprzez kliknięcie na pole: POKAŻ OBLICZONE CECHY. W trakcie generacji

wektorów cech obserwujemy wskaźnik postępu pracy systemu. Następnie pojawia się dodatkowy komunikat

programu o obliczeniu wektorów cech, po kliknięciu przycisku OK, powraca się do programu i możliwe jest wy-

świetlenie obliczonych wartości wektorów cech.

W grupie IDENTYFIKACJA/WERYFIKACJA możliwe jest przeprowadzenie identyfikacji na dwa różne sposoby.

Pierwszy z nich umożliwia identyfikację głosu pochodzącego bezpośrednio z mikrofonu zarejestrowanego przy

użyciu panelu NAGRYWANIE. W takim przypadku uruchamia się procedurę identyfikacji poprzez naciśnięcie

przycisku: GŁOS NAGRANY. Alternatywnym sposobem jest identyfikacja na bazie dowolnie wybranego pliku typu

.wav wczytanego przy użyciu przycisku: GŁOS Z PLIKU. Dla każdego z tych sposobów identyfikacji można określić

długość wypowiedzi jaka będzie podlegać rozpoznaniu, wpisując wybraną wartość w pole: CZAS TESTOWANIA.

Również w tym przypadku obserwujemy wskaźnik postępu pracy systemu, by w końcowym etapie otrzymać ta-

belaryczne zestawienie najbardziej podobnych klas w odniesieniu do testowanej wypowiedzi. W kolejnych ko-

lumnach tabeli umieszczone są odpowiednio: akronim rozpoznanej klasy (imię i nazwisko), nazwa rozpoznanego

pliku .wav, liczbowa wartość podobieństwa rozpoznanej klasy do aktualnie identyfikowanego nagrania.

W kolejnych kolumnach tabeli umieszczone są odpowiednio:

akronim rozpoznanej klasy,

Page 3: PRZETWARZANIE SYGNAŁÓ W B I O M E T R Y C Z N Y C Hzese.wel.wat.edu.pl/adobrowolski/do_pobrania/ASRM_Sprawozdanie.pdf · PRZETWARZANIE SYGNAŁÓW IOMETRY ZNY H str. 3 z 8 nazwa

PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 3 z 8

nazwa rozpoznanego pliku .wav,

liczbowa wartość podobieństwa rozpoznanej klasy do aktualnie identyfikowanego nagrania.

Program umożliwia również rozpoznawanie w trybie weryfikacji – w tym przypadku następuje porównanie 1:1.

Analiza wyników eksperymentów

System ASR_1_WAT został wyposażony w dodatkową metodę decyzyjną związaną z określaniem podobieństw

rozpoznawanych głosów. W związku z tym wyniki każdego z eksperymentów można analizować na dwa różne

sposoby.

Pierwszym z nich jest ocena biorąca pod uwagę jedynie binarną decyzję systemu co do rozpoznania. Zgodnie

z nią za poprawną identyfikację uważa się taką, dla której rozpoznawana klasa wystąpi na pierwszej pozycji

w rankingu rozpoznanych klas - identyfikacja binarna.

Drugim wariantem, jest rozszerzenie pojęcia poprawności identyfikacji do sytuacji, w której jako sukces traktuje się obecność prawidłowej klasy w pewnym podzbiorze (max. czterech) klas wyselekcjonowanych przez system - identyfikacja rankingowa. Poniżej przedstawiono poprawną identyfikację, w której prawidłowo rozpoznana kla-sa znalazła się na 3 pozycji.

2. ZADANIA

Zadanie 1. Analiza możliwości programu ASR_1_WAT

Po zapoznaniu się z instrukcją obsługi programu ASR_1_WAT przetestować następujące funkcjonalności programu:

nagrywanie,

rejestrację nowego użytkownika do bazy systemu,

identyfikację użytkownika,

weryfikację użytkownika,

generację odcisku głosu dla wcześniej zarejestrowanego pliku.

Page 4: PRZETWARZANIE SYGNAŁÓ W B I O M E T R Y C Z N Y C Hzese.wel.wat.edu.pl/adobrowolski/do_pobrania/ASRM_Sprawozdanie.pdf · PRZETWARZANIE SYGNAŁÓW IOMETRY ZNY H str. 3 z 8 nazwa

PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 4 z 8

Zadanie 2. Badanie wpływu długości wypowiedzi testowej na skuteczność rozpoznania

Celem zadania jest ocena skuteczności działania systemu w zależności od czasu trwania wypowiedzi testowej, przy za-chowaniu stałej długości czasu uczenia. Badań należy dokonać w oparciu o wybrane do testów pliki .wav.. Plik musi po-siadać końcówkę „_t” , która świadczy, iż jest to plik przeznaczony do „testowania”. Pliki te znajdują się w oddzielnym folderze pliki testowe i są takie same dla wszystkich wariantów badań.

Badanie przeprowadzić w następującej kolejności:

Stworzyć bazę modeli dla 20 mówców (Uaktualnij cechy VP) dla następujących parametrów:

Czas uczenia: 60

Podaj ile VP: 10

Podaj z jakich czasów: 15

Testowanie (tryb identyfikacji) przeprowadzić dla wypowiedzi testowej o długości: 10 s, 5 s oraz 3 s.

Badania należy wykonać z zastosowaniem identyfikacji binarnej oraz identyfikacji rankingowej, a wyniki umieścić

oraz zobrazować na wykresie. W celu określenia skuteczności działania systemu na wybranej grupie mówców,

należy obliczyć tzw. globalny błąd rozpoznania.

Wyciągnąć wnioski komentując wpływ skracania wypowiedzi testowej na skuteczność działania systemu. Dodat-

kowo zanotować, czy błędy rozpoznania występują dla tych samych klas we wszystkich wariantach działania sys-

temu. Zaobserwować czas działania systemu w zależności od długości wypowiedzi testowej.

Identyfikacja binarna Identyfikacja rankingowa

Długość wypowiedzi testowej [s] Liczba błędów % błąd rozpoznania Liczba błędów % błąd rozpoznania

10

5

3

60

65

70

75

80

85

90

95

100

10 s 5 s 3 s

Slu

tecz

no

ść r

ozp

ozn

ania

Długość wypowiedzi testowej

Długość wypowiedzi testowej a skuteczność rozpoznania

IB

IR

Page 5: PRZETWARZANIE SYGNAŁÓ W B I O M E T R Y C Z N Y C Hzese.wel.wat.edu.pl/adobrowolski/do_pobrania/ASRM_Sprawozdanie.pdf · PRZETWARZANIE SYGNAŁÓW IOMETRY ZNY H str. 3 z 8 nazwa

PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 5 z 8

Zadanie 3. Badanie wpływu długości wypowiedzi uczącej na skuteczność rozpoznania

Celem zadania jest ocena skuteczności działania systemu w zależności od czasu trwania wypowiedzi uczącej, przy za-chowaniu stałej długości czasu testowania. Ze względu na czasochłonne obliczenia wszystkie niezbędne modele mów-ców dla poszczególnych wariantów badania zostały zebrane w odpowiednich folderach (uczenie 90_s, uczenie 60_s, uczenie 30_s) odpowiadających kolejno długościom wypowiedzi uczącej 90, 60 oraz 30 sekund. Pliki testowe znajdują się w oddzielnym folderze pliki testowe i są takie same dla wszystkich przeprowadzonych wariantów badań. Dla każdego z wariantów badania należy przeprowadzić następujące eksperymenty:

Testowanie (tryb identyfikacji) przeprowadzić dla wypowiedzi testowej o długości: 10 s.

Badania należy wykonać z zastosowaniem identyfikacji binarnej oraz identyfikacji rankingowej a wyniki umieścić

oraz zobrazować na wykresie. W celu określenia skuteczności działania systemu na wybranej grupie mówców,

należy obliczyć tzw. błąd globalny rozpoznania.

Wyciągnąć wnioski komentując wpływ skracania wypowiedzi uczącej na skuteczność działania systemu. Dodat-

kowo zanotować, czy błędy rozpoznania występują dla tych samych klas we wszystkich wariantach działania sys-

temu. Zaobserwować czas działania systemu w zależności od długości wypowiedzi testowej

Identyfikacja binarna Identyfikacja rankingowa

Długość wypowiedzi uczącej [s] Liczba błędów % błąd rozpoznania Liczba błędów % błąd rozpoznania

90

60

30

85

90

95

100

90 s 60 s 45 s

Slu

tecz

no

ść r

ozp

ozn

ania

Długość wypowiedzi uczącej

Długość wypowiedzi uczącej a skuteczność rozpoznania

IB

IR

Page 6: PRZETWARZANIE SYGNAŁÓ W B I O M E T R Y C Z N Y C Hzese.wel.wat.edu.pl/adobrowolski/do_pobrania/ASRM_Sprawozdanie.pdf · PRZETWARZANIE SYGNAŁÓW IOMETRY ZNY H str. 3 z 8 nazwa

PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 6 z 8

Zadanie 4. Badanie wpływu liczebności bazy mówców na skuteczność rozpoznania

Celem badania jest ocena wpływu wielkości populacji na skuteczność działania systemu ASR.

Eksperymenty przeprowadzić w następującej kolejności:

Stworzyć bazę modeli dla 40 mówców (Uaktualnij cechy VP) dla następujących parametrów:

Czas uczenia: 60

Podaj ile VP: 10

Podaj z jakich czasów: 15

Do testów należy użyć wypowiedzi testowej o długości 10 s (tryb identyfikacji).

Badania należy wykonać z zastosowaniem identyfikacji binarnej oraz identyfikacji rankingowej a wyniki umieścić

oraz zobrazować na wykresie. W celu określenia skuteczności działania systemu na wybranej grupie mówców,

należy obliczyć tzw. błąd globalny rozpoznania.

Porównać otrzymane wyniki z adekwatnymi wynikami dla dwukrotnie mniejszej bazy mówców

Wyciągnąć wnioski komentując wpływ podwojenia liczebności bazy mówców na skuteczność działania systemu.

Zaobserwować czas działania systemu.

Identyfikacja binarna Identyfikacja rankingowa

Liczebność bazy mówców Liczba błędów % błąd rozpoznania Liczba błędów % błąd rozpoznania

20

40

80

85

90

95

100

20 40

Slu

tecz

no

ść r

ozp

ozn

ania

Rozmiar populacji

Rozmiar polulacji a skuteczność rozpoznania

IB

IR

Page 7: PRZETWARZANIE SYGNAŁÓ W B I O M E T R Y C Z N Y C Hzese.wel.wat.edu.pl/adobrowolski/do_pobrania/ASRM_Sprawozdanie.pdf · PRZETWARZANIE SYGNAŁÓW IOMETRY ZNY H str. 3 z 8 nazwa

PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 7 z 8

Zadanie 5. Badanie systemu w trybie weryfikacji

Celem eksperymentów jest określenie progu podobieństwa, powyżej którego system uznaje osobę weryfikowaną za tą, za którą się podaje. Liczebność populacji: 20 mówców. Badania przeprowadzić w następującej kolejności:

Badania przeprowadzić korzystając z katalogu: zadanie 2

Zastosować tryb weryfikacji

Do testów należy użyć wypowiedzi testowej o długości 10 s

Zanotować wyniki w tabeli, z zaznaczeniem najmniejszej oraz największej wartości podobieństwa

Określić próg podobieństwa i odpowiadającą mu skuteczność działania systemu

Wyciągnąć wnioski co do skutków przyjęcia konkretnych wartości progu podobieństwa, Jaki ma to wpływ na

działanie całego systemu?

PLIK TESTOWY

podobieństwo

1_aa_01

2_aa_01

3_aa_01

4_aa_01

5_aa_01

6_aa_01

7_aa_01

8_aa_01

9_aa_01

10_aa_01

11_aa_01

12_aa_01

13_aa_01

14_aa_01

15_aa_01

16_aa_01

17_aa_01

18_aa_01

19_aa_01

20_aa_01

3. SPOSTRZEŻENIA I WNIOSKI

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

Page 8: PRZETWARZANIE SYGNAŁÓ W B I O M E T R Y C Z N Y C Hzese.wel.wat.edu.pl/adobrowolski/do_pobrania/ASRM_Sprawozdanie.pdf · PRZETWARZANIE SYGNAŁÓW IOMETRY ZNY H str. 3 z 8 nazwa

PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 8 z 8

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…

……………………………………..……………………………………………....………………………………………………...…