inż. Sławomir Zieliński Wydział

dr hab. inż. Sławomir Zieliński

Wydział InformatykiPolitechnika Białostockaul. Wiejska 45A, 15-351 Białystok

Tel. 85 746 9113

Email: [email protected]

Białystok, 3 lipca 2019 r.

RECENZJA rozprawy doktorskiej

mgr inż. Aleksandry Król-Nowak

z Wydziału Inżynierii Mechanicznej i Robotyki, Akademii Górniczo-Hutniczej

zatytułowanej „Reprodukcja dźwięku z rozdzieleniem części bezpośredniej i odbitej”

Promotor:

Profesor dr hab. inż. Piotr Kleczkowski

Wydział Inżynierii Mechanicznej i Robotyki

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie

Niniejszą recenzję przygotowałem na prośbę zatvartą w piśmie z dnia 13.05.2019 r.,

które otrzynłałem od Pana Profesora Antoniego Kalukiewicza, Dziekana Wydziału Inżynierii

Mechanicznej i Robotyki Akademii Górniczo-Hutniczej na podstawie uchwały Rady tego

Wydziału.

I. Omówienie zawartości rozprawy

Rozprawa doktorska mgr inż. Aleksandry Król-Nowak poświęcona jestudoskonaleniu metod odtwarzania dźwięku w wielokanałowych systemachfonicznych z horyzontalnie rozmieszczonymi głośnikami. Celem pracy jestweryfikacja tezy, że odtwarzanie dźwięku z rozdzieleniem składowej bezpośredniej i

odbitej skutkuje w typowych systemach wielokanałowych poprawą jakości dźwięku.

Rozprawa ma charakter doświadczalny. W swojej pracy Autorka zaprezentowała

kilka nowych algorytmów, pozwalających na przestrzenną separację komponentubezpośredniego i odbitego dźwięku.

Praca obejmuje 182 stron formatu A4, zawierających tekst, zdjęcia, rysunki

i tabele. Składa się ona z ośmiu rozdziałów, bibliografii oraz kilku spisów i wykazów.

Rozdział pienvszy stanowi wprowadzenie do pracy, w którym Autorka

nakreśliła zarys problemu badawczego, przedstawiła zakres pracy oraz jej tezę.

W rozdziale drugim Doktorantka przedstawiła genezę separacji dźwięku oraz

przegląd literatury dotyczący odwzorozvania przestrzenności dźtvięku. Bardzo dobrze

Autorka opisała ewolucję kreowania przestrzenności dźwięku od strony

muzykologicznej. Jednak, w mojej opinii, zabrakło odniesień do kilku istotnych

publikacji dotyczących słuchowej oceny odwzorowania przestrzenności dźwięku

(Załącznik A do recenzji). W przeglądzie technologii 3D zabrakło odniesienia do

najnowszych systemów dźwięku przestrzennego.

Rozdział trzeci zawiera opis znanej od kilkudziesięciu lat technologii nagrańambisonicznych. Pełni on jednak ważną rolę z punktu widzenia opisu metodologiibadań, gdyż odpowiedzi impulsowe pomieszczeń, wykorzystane w niniejszej pracy,zostały zarejestrowane z użyciem wspomnianej technologii.

W rozdziale czwartynł Autorka opisała metodologię przeprowadzonych badań.W sposób szczegółowy przedstawiła metody operacji na sygnałach pozwalające narozdzielenie komponentu bezpośredniego oraz odbitego dźwięku. W spójny sposóbopisała wersje odniesienia oraz wersje testowe dźwięku wykorzystane we wszystkich

eksperymentach. Ponadto, w rozdziale tym Doktorantka przedstawiła metodykęprzeprowadzania formalnych testów odsłuchowych.

Rozdział piąty zawiera szczegółowy opis standardowych metod statystycznych,wykorzystanych do analiz danych uzyskanych w poszczególnych testachodsłuchowych. Dodatkowo w rozdziale tym zamieszczono opis sieci neuronowych

Kohenena oraz interesującą propozycję zastosowania takiej sieci do eksploracji danychuzyskanych w niniejszej pracy.

W serii siedmiu eksperymentów Autorka modyfikowała rozkład przestrzennydźwięku bezpośredniego i odbitego wokół optymalnego miejsca odsłuchowego,a następnie badała uzyskane efekty za pomocą formalnych testów odsłuchowych.Uzyskane wyniki opisano w rozdziale szóstynł pracy. Rozdział siódmy przedstawiadyskusję wyników oraz ich porównanie. Część merytoryczną zamyka rozdział ósmy,w którym Autorka podaje wnioski i podsumowanie najważniejszych wyników.

Całość pracy kończy bibliografia, która zawiera 119 pozycji,wyselekcjonowanych głównie z bogatej anglojęzycznej literatury naukowej. W spisiebibliografii znajdują się trzy publikacje współautorstwa Doktorantki. Dobór publikacji

świadczy o dobrej wiedzy Autorki, jednak, jak wspomniałem wcześniej, pewienniedosyt budzić może brak kilku kluczowych publikacji podsumowujących badanianad subiektywną oceną odwzorowania przestrzenności odtwarzanego dźwięku(Załącznik A do recenzji).

II. Ogólna ocena pracy

Rozprawa doktorska mgr inż. Aleksandry Król-Nowak pt. „Reprodukcjadźwięku z rozdzieleniem części bezpośredniej i odbitej” stanowi oryginalnerozwiązanie postawionych problemów badawczych. Autorka wykonała rzetelnąpracę, polegającą na opracowaniu kilku oryginalnych metod odtwarzania dźwiękuprzestrzennego oraz ich zweryfikowaniu poprzez realizację serii formalnych testów

odsłuchowych. Pomimo drobnych zastrzeżeń, przegląd literatury zawarty

str. 2 z 6

w rozprawie jest poprawny i umożliwia czytelnikowi umiejscowienie wykonanych

badań w kontekście prac innych autorów.

Podsumowując, należy uznać, że Autorka w pełni zrealizowała postawioneprzed nią zadania. Doktorantka z sukcesem dowiodła postawioną na wstępie tezę

badawczą.

Omówienie i przedstawienie wszystkich istotnych dla pracy aspektów jest

czytelne, uporządkowane i logiczne. Nie znalazłem błędów merytorycznych.

W mojej ocenie mgr inż. Aleksandry Król-Nowak w pełni osiągnęła cel

niniejszej pracy doktorskiej, przedstawiając oryginalne rozwiązanie problemu

naukowego oraz demonstrując wiedzę i umiejętności wymagane do prowadzeniapracy naukowej w dziedzinie inżynierii mechanicznej.

III. Opinia o rozprawie doktorskiej

Rozprawę doktorską mgr inż. Aleksandry Król-Nowak chciałbym ocenić w

dwóch aspektach: merytorycznym i redakcyjnym.

A. Aspekt merytoryczny

O ile idea syntezy dźwięku przestrzennego z adaptacyjnym sterowaniem

rozkładem przestrzennym składowych bezpośrednich i dyfuzyjnych nie jest czymś

nowym, literatura naukowa podaje bardzo skąpe wyniki, pozwalających na ilościowe

zweryfikowanie takiego podejścia. Stąd też dużym walorem niniejszej rozprawy jest

fakt, iż oprócz propozycji kilku oryginalnych algorytmów sygnałowych odtwarzania

dźwięku, Autorka zamieściła w niej skrupulatnie udokumentowane wyniki testówodsłuchowych (dowód empiryczny).

Tematyka podjętej pracy jest ważna, gdyż dobrze wpisuje się nie tylko w nurt

badań klasycznych, np. dotyczących ambisonii, ale również wybiega w przyszłość.

Niektóre z uzyskanych przez Autorkę wniosków mogą być w pewnym stopniu

uwzględnione w najnowszych technologiach dźwięku przestrzennego kodowanego

obiektowo.

Problem separacji i oddzielnego odtwarzania składników bezpośredniego i

odbitego w systemach wielokanałowych jest zagadnieniem nietrywialnym. Autorka

rozwiązała go w sposób dwuetapowy, wpierw dokonując odpowiednich operacji

sygnałowych na odpowiedziach impulsowych wybranych pomieszczeń

pogłosowych, a następnie dokonując splotu zmodyfikowanych odpowiedzi

impulsowych z bezechowymi nagraniami muzycznymi.

W swojej rozprawie Doktorantka zademonstrowała bardzo dobre umiejętności

w zakresie realizacji formalnych testów odsłuchowych i analizy danych. Wyniki

badań zostały opisane rzetelnie, a analizy statystyczne wykonane skrupulatnie.

Bardzo interesującym podejściem do analizy danych, wykraczającym poza klasyczne

testy statystyczne lub tradycyjne skalowanie wielowymiarowe, było udane

wykorzystanie przez Autorkę samoorganizujących map Kohenena.

str. 3 z 6

Doktorantka wykazała się dobrą znajomością literatury z dziedziny

odtwarzania dźwięku przestrzennego. Widać to bardzo wyraźnie w rozdziale 2.1.,przedstawiającym historię kreowania przestrzenności dźwięku od stronymuzykologicznej, oraz w końcowej części rozdziału 2.2., gdzie zaprezentowano

genezę separacji dźwięku bezpośredniego i pogłosowego. Technologie 3D zostały

opisane poprawnie, jednak z pominięciem najnowszych osiągnięć w zakresiereprodukcji dźwięku przestrzennego (format dźwięku przestrzennego kodowanego

obiektowo oraz format 22.2).

Biorąc pod uwagę, iż główną metodą weryfikacji proponowanych algorytmówbyły testy odsłuchowe, zastrzeżenie może budzić pominięcie w pracy kilku istotnych

publikacji z zakresu metodologii subiektywnej oceny jakości dźwięku przestrzennego,

których uwieńczeniem są leksykony i taksonomie atrybutów dźwięku przestrzennego

(Załącznik A do recenzji). Drobnym mankamentem rozprawy jest również to, iż w jej

części przeglądowej zabrakło opisu (choćby pobieżnego) cech fizycznych dźwięku

odpowiedzialnych za słyszenie przestrzenne u ludzi (np. między-uszne różnice czasu,

poziomu i koherencji) i ich związku z atrybutami percepcyjnymi dźwięku (kierunek,

pozorna szerokość dźwięku, klarowność).

Niżej wymienione uwagi i pytania, nasuwające się podczas lektury rozprawy,

nie umniejszają jej walorów. Mam nadzieję, że Autorka będzie miała sposobność do

ustosunkowania się do nich podczas obrony pracy doktorskiej.

1) We wnioskach uwypuklono uniwersalność opracowanych metod, natomiast pominiętoomówienie ich ograniczeń. W pracy milcząco założono, że kreowane sceny dźwiękowe mają

charakterystykę typu scena-widownia (ang. stage-audience). Tymczasem wiele współczesnychnagrań dźwięku przestrzennego reprezentuje sytuacje, w których scena dźwiękowa otaczasłuchacza ze wszystkich stron (ang. 3600 stage scenario). Czy opracowana metoda zadziałarównież w takich sytuacjach? Nie zostały one uwzględnione w badaniach. Dodatkowo, należy

zaznaczyć, że metoda została przetestowana wyłącznie w jednym miejscu odsłuchowym,

jedynie w systemach z pięcioma lub siedmioma głośnikami rozmieszczonymi horyzontalnie,z maksymalnie trzema źródłami dźwięku oraz z ograniczonym repertuarem gatunkówprodukcji dźwięku przestrzennego (pominięto takie gatunki jak film i muzyka popularna). Czy

w związku z powyższym, dość od ważne sformułowania dotyczące uniwersalności metody pod

względem „systemu dźwiękowego”, „liczby źródeł dźwięku” oraz „materiału dźwiękowego"

(str. 168) są w pełni uzasadnione?2) Do oceny jakości dźwięku Autorka wykorzystała cztery atrybuty, zwane w rozprawie

'kryteriam{, podając dość dokładny opis pierwszego z nich. Jakie są definicje pozostałych

atrybutów? (Opis biegunów skali pomiarowej jest niewystarczający do pełnego ich

zdefiniowania.) W jaki sposób wybrane atrybuty są spójne z atrybutami rekomendowanymi w

publikacjach innych autorów (Załącznik A do recenzji)?

3) W pracy występuje problem braku konsekwencji w używanej terminologii. Przykładowo,

zgodnie z Tabelą 4.9, czwarte kryterium określono jako 'ogólna ocena wersji'. Jednak w rozprawie

nie zachowano konsekwencji nomenklaturowej, gdyż kryterium to określane jest zamiennie

jako 'ogólne wrażeni/ (str. 10, 160, 161), 'wrażenie' (str. 154), 'intpression' (str. 144, 145) oraz

'subiektywna ocend (str. 142, 155).

Podobny problem dotyczy również atrybutu 'naturalność przestrzeni'. Atrybut ten jest używany

zamiennie z atrybutem 'naturalność brznłienid. Jednak w drugim przypadku jego znaczenie jest

znacznie szersze, gdyż również uwzględnia naturalność banvy dźwięku. Błędem więc wydaje

się traktowanie wyżej wymienionych terminów jako synonimy.

4) Wersja metody oznaczona jako S5_W wydaje się być z założenia obarczona błędem

algorytmicznym, gdyż czynnik pogłosowy przekierowany do poszczególnych głośników jest

ze sobą skorelowany, co spowoduje wystąpienie efektu filtru grzebieniowego i wynikające z

str. 4 z 6

niego zniekształcenia barwy dźwięku. W metodzie tej należałoby 'zdekorelować' czynnik

pogłosowy, np. poprzez zastosowanie filtru wszech-przepustowego.

5) Dane z testów odsłuchowych zostały przeanalizowane poprawnie, rzetelnie i skrupulatnie.

Jednak moc statystyczna niektórych metod, w szczególności testu ANOVA, mogłaby być

zwiększona poprzez jego lepsze dopasowanie do natury uzyskanych danych. Przykładowo,

w kilku eksperymentach te same próbki były oceniane przez wszystkich słuchaczy. W takiej

sytuacji typowym testem, pozwalającym na zwiększenie mocy statystycznej (poprzez usunięcie

wariancji wynikającej z różnic pomiędzy słuchaczami), jest test RM ANOVA (ang. Repeated

Measures ANOVA). Ponadto, należy zauważać, że w kilku eksperymentach uzyskane dane

zawierały cztery zmienne zależne, reprezentujące oceny czterech atrybutów dźwięku. W takim

przypadku moc testu mogłaby być zwiększona poprzez zastosowanie metody MANOVA (ang.

Multivariate ANOVA).

B. Aspekt redakcyjny

Praca jest napisana bardzo klarownym językiem. Jest czytelna, uporządkowana

i logiczna. Pomimo starań Autorki, w pracy wkradły się błędy interpunkcyjne oraz

drobne usterki, głównie literowe (Załącznik B do recenzji). W wersji czarno-białej

rozprawy czytelność legend naniesionych na niektórych wykresach jest słaba, co

utrudnia rozróżnienie znaczenia poszczególnych krzywych (wykresy 6.12, 6.19 i 6.50).

W mojej opinii, praca zyskałaby na jej skróceniu poprzez usunięcie

szczegółowych opisów standardowych metod statystycznych i odesłanie czytelnika

do klasycznych źródeł z zakresu statystycznej analizy danych. W ten sposób lepiej

wyeksponowana bałaby oryginalna część pracy.

IV. Podsumowanie osiągnięć merytorycznych doktorantki

Autorka empirycznie udowodniła tezę rozprawy, wykazując, że odtwarzanie

dźwięku bezpośredniego oraz odbitego skutkuje w typowych systemach

wielokanałowych poprawą jakości dźwięku.

Na podkreślenie zasługuje również fakt, iż część wyników zaprezentowanych

przez Autorkę w rozprawie, była już poddana pozytywnej weryfikacji środowiska

naukowego. Wyniki te zostały opublikowane przez Doktorantkę w trzech

współautorskich artykułach na łamach cenionych czasopism naukowych (Journal ofthe

Audio Engineering Society, Archives ofAcoustics oraz Acta Physica Polonica A).

V. Wnioski końcowe

Rozprawa mgr inż. Aleksandry Król-Nowak zawiera opis oryginalnych

rozwiązań naukowych zweryfikowanych empirycznie. Cele postawione pracy

doktorskiej zostały osiągnięte z sukcesem.

W mojej ocenie rozprawa spełnia wszystkie wymogi ustawowo stawiane

rozprawom doktorskim. W związku z powyższym, wnioskuję o dopuszczenie

mgr inż. Aleksandry Król-Nowak do dalszych etapów przewodu doktorskiego, w tym

do publicznej obrony rozprawy.

Sławomir Zieliński

str. 5 z 6

Załączniki do recenzji

A. Brakujące pozycje literaturowe

[Il Lindau, A. et al., A Spatial Audio Quality Inventory (SAQI), Acta Acustica united withAcustica, vol. 100, pp. 984—994 (2014)

[21 Łętowski, T., Sound Quality Assessntent: Concepts and Criteria, 87th Convention of the

Audio Engineering Society, Preprint 2825 (1989)

[31 Rumsey, F., Spatial Quality Evaluation for Reproduced Sound: Tenninology, Meaning, and

a Scene-Based Paradignt, J. Audio Eng. Soc., vol. 50, pp. 651—666 (2002)

[41 Zacharov, N. and Pike, C., A contnton le.ricon for spatial sound quality assessntent — latest

developnłents. Eighth International Conference on Quality of Multimedia Experience

(Q0MEX) (2016)

B. Drobne usterki

a) str. 17, 'kontynuując działa' —4 'kontynuując dzieła'

b) str. 23, 'Głośniki ... pozwalają na odbieranie muzyki całym ciałem...'. Uogólnienie tojest niepoprawne. Głównym powodem przemawiającym na, korzyść odsłuchugłośnikowego jest to, iż typowe nagrania stereofoniczne odtwarzane na słuchawkach

powodują zbyt duże różnice między-uszne, co jest nienaturalne i prowadzi dolokalizacji dźwięku 'wewnątrz' głowy.

c) str. 40, 'W niniejszej pracy wykorzystane będzie. systemy', 'będzie' —+ 'będą'

d) str. 45, podpis pod rys. 4.3, 'referencji' 'referencja'

e) str. 65, 'reverberation ratio' —+ 'reverberation time'

f) str. 75, 'kierujących preferencja' 'kierujących preferencją' ('ą' na końcu)

g) str. 78, 'W trzecim teście zredukowano liczbę...' Zdanie długie i niegramatyczne

h) str. 94, 'W Drugiej fazie' 'W drugiej fazie'

i) str. 94, 'sztuczne sieci neuronowych' 'sztuczne sieci neuronowe'

j) str. 102, rys. 5.2, Kryterium wyboru (T/ N) opisano jedynie przy pierwszym bloku

decyzyjnym (obsenvacje odstające), natomiast opis ten pominięto przy pozostałych

trzech blokach decyzyjnych.

k) str. 129, 'na rysunkach numer 6.21 i 622' 'na rysunkach numer 6.24 i 6.25'

l) str. 137, 'obliczono wartości obliczono wartości' 'obliczono wartości'

m) str. 144-155, Oznaczenia osi poziomej na wykresach 6.41-6.44 nie zostały

przetłumaczone na język polski.

n) str. 146, 'poza kryterium lokalizacji na przykładzie chóru'. Czy nie powinno być 'poza

kryterium naturalności na przykładzie chóru'?

o) str. 152, 'wskazywał na to wykres 6.30' 'wskazywał na to wykres 6.39'

p)str. 153, 'Po porównaniu wykresu numer 6.49 i 6.30' 'Po porównaniu wykresu

numer 6.49 i 6.39'

q) str. 158, W tytule rozdziału 7.2 napisano '...usunięcia pogłosu z dźwięku

bezpośredniego', co wydaje się być sprzecznością, gdyż dźwięk bezpośredni nie

zawiera pogłosu.

r) str. 157, 'ale tez' 'ale też'

s) str. 172-178, Bibliografia zawiera błędy literowe.

str. 6 z 6

inż. Sławomir Zieliński Wydział

Documents

Transcript of inż. Sławomir Zieliński Wydział