inż. Sławomir Zieliński Wydział
Transcript of inż. Sławomir Zieliński Wydział
dr hab. inż. Sławomir Zieliński
Wydział InformatykiPolitechnika Białostockaul. Wiejska 45A, 15-351 Białystok
Tel. 85 746 9113
Email: [email protected]
Białystok, 3 lipca 2019 r.
RECENZJA rozprawy doktorskiej
mgr inż. Aleksandry Król-Nowak
z Wydziału Inżynierii Mechanicznej i Robotyki, Akademii Górniczo-Hutniczej
zatytułowanej „Reprodukcja dźwięku z rozdzieleniem części bezpośredniej i odbitej”
Promotor:
Profesor dr hab. inż. Piotr Kleczkowski
Wydział Inżynierii Mechanicznej i Robotyki
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie
Niniejszą recenzję przygotowałem na prośbę zatvartą w piśmie z dnia 13.05.2019 r.,
które otrzynłałem od Pana Profesora Antoniego Kalukiewicza, Dziekana Wydziału Inżynierii
Mechanicznej i Robotyki Akademii Górniczo-Hutniczej na podstawie uchwały Rady tego
Wydziału.
I. Omówienie zawartości rozprawy
Rozprawa doktorska mgr inż. Aleksandry Król-Nowak poświęcona jestudoskonaleniu metod odtwarzania dźwięku w wielokanałowych systemachfonicznych z horyzontalnie rozmieszczonymi głośnikami. Celem pracy jestweryfikacja tezy, że odtwarzanie dźwięku z rozdzieleniem składowej bezpośredniej i
odbitej skutkuje w typowych systemach wielokanałowych poprawą jakości dźwięku.
Rozprawa ma charakter doświadczalny. W swojej pracy Autorka zaprezentowała
kilka nowych algorytmów, pozwalających na przestrzenną separację komponentubezpośredniego i odbitego dźwięku.
Praca obejmuje 182 stron formatu A4, zawierających tekst, zdjęcia, rysunki
i tabele. Składa się ona z ośmiu rozdziałów, bibliografii oraz kilku spisów i wykazów.
Rozdział pienvszy stanowi wprowadzenie do pracy, w którym Autorka
nakreśliła zarys problemu badawczego, przedstawiła zakres pracy oraz jej tezę.
W rozdziale drugim Doktorantka przedstawiła genezę separacji dźwięku oraz
przegląd literatury dotyczący odwzorozvania przestrzenności dźtvięku. Bardzo dobrze
Autorka opisała ewolucję kreowania przestrzenności dźwięku od strony
muzykologicznej. Jednak, w mojej opinii, zabrakło odniesień do kilku istotnych
publikacji dotyczących słuchowej oceny odwzorowania przestrzenności dźwięku
(Załącznik A do recenzji). W przeglądzie technologii 3D zabrakło odniesienia do
najnowszych systemów dźwięku przestrzennego.
Rozdział trzeci zawiera opis znanej od kilkudziesięciu lat technologii nagrańambisonicznych. Pełni on jednak ważną rolę z punktu widzenia opisu metodologiibadań, gdyż odpowiedzi impulsowe pomieszczeń, wykorzystane w niniejszej pracy,zostały zarejestrowane z użyciem wspomnianej technologii.
W rozdziale czwartynł Autorka opisała metodologię przeprowadzonych badań.W sposób szczegółowy przedstawiła metody operacji na sygnałach pozwalające narozdzielenie komponentu bezpośredniego oraz odbitego dźwięku. W spójny sposóbopisała wersje odniesienia oraz wersje testowe dźwięku wykorzystane we wszystkich
eksperymentach. Ponadto, w rozdziale tym Doktorantka przedstawiła metodykęprzeprowadzania formalnych testów odsłuchowych.
Rozdział piąty zawiera szczegółowy opis standardowych metod statystycznych,wykorzystanych do analiz danych uzyskanych w poszczególnych testachodsłuchowych. Dodatkowo w rozdziale tym zamieszczono opis sieci neuronowych
Kohenena oraz interesującą propozycję zastosowania takiej sieci do eksploracji danychuzyskanych w niniejszej pracy.
W serii siedmiu eksperymentów Autorka modyfikowała rozkład przestrzennydźwięku bezpośredniego i odbitego wokół optymalnego miejsca odsłuchowego,a następnie badała uzyskane efekty za pomocą formalnych testów odsłuchowych.Uzyskane wyniki opisano w rozdziale szóstynł pracy. Rozdział siódmy przedstawiadyskusję wyników oraz ich porównanie. Część merytoryczną zamyka rozdział ósmy,w którym Autorka podaje wnioski i podsumowanie najważniejszych wyników.
Całość pracy kończy bibliografia, która zawiera 119 pozycji,wyselekcjonowanych głównie z bogatej anglojęzycznej literatury naukowej. W spisiebibliografii znajdują się trzy publikacje współautorstwa Doktorantki. Dobór publikacji
świadczy o dobrej wiedzy Autorki, jednak, jak wspomniałem wcześniej, pewienniedosyt budzić może brak kilku kluczowych publikacji podsumowujących badanianad subiektywną oceną odwzorowania przestrzenności odtwarzanego dźwięku(Załącznik A do recenzji).
II. Ogólna ocena pracy
Rozprawa doktorska mgr inż. Aleksandry Król-Nowak pt. „Reprodukcjadźwięku z rozdzieleniem części bezpośredniej i odbitej” stanowi oryginalnerozwiązanie postawionych problemów badawczych. Autorka wykonała rzetelnąpracę, polegającą na opracowaniu kilku oryginalnych metod odtwarzania dźwiękuprzestrzennego oraz ich zweryfikowaniu poprzez realizację serii formalnych testów
odsłuchowych. Pomimo drobnych zastrzeżeń, przegląd literatury zawarty
str. 2 z 6
w rozprawie jest poprawny i umożliwia czytelnikowi umiejscowienie wykonanych
badań w kontekście prac innych autorów.
Podsumowując, należy uznać, że Autorka w pełni zrealizowała postawioneprzed nią zadania. Doktorantka z sukcesem dowiodła postawioną na wstępie tezę
badawczą.
Omówienie i przedstawienie wszystkich istotnych dla pracy aspektów jest
czytelne, uporządkowane i logiczne. Nie znalazłem błędów merytorycznych.
W mojej ocenie mgr inż. Aleksandry Król-Nowak w pełni osiągnęła cel
niniejszej pracy doktorskiej, przedstawiając oryginalne rozwiązanie problemu
naukowego oraz demonstrując wiedzę i umiejętności wymagane do prowadzeniapracy naukowej w dziedzinie inżynierii mechanicznej.
III. Opinia o rozprawie doktorskiej
Rozprawę doktorską mgr inż. Aleksandry Król-Nowak chciałbym ocenić w
dwóch aspektach: merytorycznym i redakcyjnym.
A. Aspekt merytoryczny
O ile idea syntezy dźwięku przestrzennego z adaptacyjnym sterowaniem
rozkładem przestrzennym składowych bezpośrednich i dyfuzyjnych nie jest czymś
nowym, literatura naukowa podaje bardzo skąpe wyniki, pozwalających na ilościowe
zweryfikowanie takiego podejścia. Stąd też dużym walorem niniejszej rozprawy jest
fakt, iż oprócz propozycji kilku oryginalnych algorytmów sygnałowych odtwarzania
dźwięku, Autorka zamieściła w niej skrupulatnie udokumentowane wyniki testówodsłuchowych (dowód empiryczny).
Tematyka podjętej pracy jest ważna, gdyż dobrze wpisuje się nie tylko w nurt
badań klasycznych, np. dotyczących ambisonii, ale również wybiega w przyszłość.
Niektóre z uzyskanych przez Autorkę wniosków mogą być w pewnym stopniu
uwzględnione w najnowszych technologiach dźwięku przestrzennego kodowanego
obiektowo.
Problem separacji i oddzielnego odtwarzania składników bezpośredniego i
odbitego w systemach wielokanałowych jest zagadnieniem nietrywialnym. Autorka
rozwiązała go w sposób dwuetapowy, wpierw dokonując odpowiednich operacji
sygnałowych na odpowiedziach impulsowych wybranych pomieszczeń
pogłosowych, a następnie dokonując splotu zmodyfikowanych odpowiedzi
impulsowych z bezechowymi nagraniami muzycznymi.
W swojej rozprawie Doktorantka zademonstrowała bardzo dobre umiejętności
w zakresie realizacji formalnych testów odsłuchowych i analizy danych. Wyniki
badań zostały opisane rzetelnie, a analizy statystyczne wykonane skrupulatnie.
Bardzo interesującym podejściem do analizy danych, wykraczającym poza klasyczne
testy statystyczne lub tradycyjne skalowanie wielowymiarowe, było udane
wykorzystanie przez Autorkę samoorganizujących map Kohenena.
str. 3 z 6
Doktorantka wykazała się dobrą znajomością literatury z dziedziny
odtwarzania dźwięku przestrzennego. Widać to bardzo wyraźnie w rozdziale 2.1.,przedstawiającym historię kreowania przestrzenności dźwięku od stronymuzykologicznej, oraz w końcowej części rozdziału 2.2., gdzie zaprezentowano
genezę separacji dźwięku bezpośredniego i pogłosowego. Technologie 3D zostały
opisane poprawnie, jednak z pominięciem najnowszych osiągnięć w zakresiereprodukcji dźwięku przestrzennego (format dźwięku przestrzennego kodowanego
obiektowo oraz format 22.2).
Biorąc pod uwagę, iż główną metodą weryfikacji proponowanych algorytmówbyły testy odsłuchowe, zastrzeżenie może budzić pominięcie w pracy kilku istotnych
publikacji z zakresu metodologii subiektywnej oceny jakości dźwięku przestrzennego,
których uwieńczeniem są leksykony i taksonomie atrybutów dźwięku przestrzennego
(Załącznik A do recenzji). Drobnym mankamentem rozprawy jest również to, iż w jej
części przeglądowej zabrakło opisu (choćby pobieżnego) cech fizycznych dźwięku
odpowiedzialnych za słyszenie przestrzenne u ludzi (np. między-uszne różnice czasu,
poziomu i koherencji) i ich związku z atrybutami percepcyjnymi dźwięku (kierunek,
pozorna szerokość dźwięku, klarowność).
Niżej wymienione uwagi i pytania, nasuwające się podczas lektury rozprawy,
nie umniejszają jej walorów. Mam nadzieję, że Autorka będzie miała sposobność do
ustosunkowania się do nich podczas obrony pracy doktorskiej.
1) We wnioskach uwypuklono uniwersalność opracowanych metod, natomiast pominiętoomówienie ich ograniczeń. W pracy milcząco założono, że kreowane sceny dźwiękowe mają
charakterystykę typu scena-widownia (ang. stage-audience). Tymczasem wiele współczesnychnagrań dźwięku przestrzennego reprezentuje sytuacje, w których scena dźwiękowa otaczasłuchacza ze wszystkich stron (ang. 3600 stage scenario). Czy opracowana metoda zadziałarównież w takich sytuacjach? Nie zostały one uwzględnione w badaniach. Dodatkowo, należy
zaznaczyć, że metoda została przetestowana wyłącznie w jednym miejscu odsłuchowym,
jedynie w systemach z pięcioma lub siedmioma głośnikami rozmieszczonymi horyzontalnie,z maksymalnie trzema źródłami dźwięku oraz z ograniczonym repertuarem gatunkówprodukcji dźwięku przestrzennego (pominięto takie gatunki jak film i muzyka popularna). Czy
w związku z powyższym, dość od ważne sformułowania dotyczące uniwersalności metody pod
względem „systemu dźwiękowego”, „liczby źródeł dźwięku” oraz „materiału dźwiękowego"
(str. 168) są w pełni uzasadnione?2) Do oceny jakości dźwięku Autorka wykorzystała cztery atrybuty, zwane w rozprawie
'kryteriam{, podając dość dokładny opis pierwszego z nich. Jakie są definicje pozostałych
atrybutów? (Opis biegunów skali pomiarowej jest niewystarczający do pełnego ich
zdefiniowania.) W jaki sposób wybrane atrybuty są spójne z atrybutami rekomendowanymi w
publikacjach innych autorów (Załącznik A do recenzji)?
3) W pracy występuje problem braku konsekwencji w używanej terminologii. Przykładowo,
zgodnie z Tabelą 4.9, czwarte kryterium określono jako 'ogólna ocena wersji'. Jednak w rozprawie
nie zachowano konsekwencji nomenklaturowej, gdyż kryterium to określane jest zamiennie
jako 'ogólne wrażeni/ (str. 10, 160, 161), 'wrażenie' (str. 154), 'intpression' (str. 144, 145) oraz
'subiektywna ocend (str. 142, 155).
Podobny problem dotyczy również atrybutu 'naturalność przestrzeni'. Atrybut ten jest używany
zamiennie z atrybutem 'naturalność brznłienid. Jednak w drugim przypadku jego znaczenie jest
znacznie szersze, gdyż również uwzględnia naturalność banvy dźwięku. Błędem więc wydaje
się traktowanie wyżej wymienionych terminów jako synonimy.
4) Wersja metody oznaczona jako S5_W wydaje się być z założenia obarczona błędem
algorytmicznym, gdyż czynnik pogłosowy przekierowany do poszczególnych głośników jest
ze sobą skorelowany, co spowoduje wystąpienie efektu filtru grzebieniowego i wynikające z
str. 4 z 6
niego zniekształcenia barwy dźwięku. W metodzie tej należałoby 'zdekorelować' czynnik
pogłosowy, np. poprzez zastosowanie filtru wszech-przepustowego.
5) Dane z testów odsłuchowych zostały przeanalizowane poprawnie, rzetelnie i skrupulatnie.
Jednak moc statystyczna niektórych metod, w szczególności testu ANOVA, mogłaby być
zwiększona poprzez jego lepsze dopasowanie do natury uzyskanych danych. Przykładowo,
w kilku eksperymentach te same próbki były oceniane przez wszystkich słuchaczy. W takiej
sytuacji typowym testem, pozwalającym na zwiększenie mocy statystycznej (poprzez usunięcie
wariancji wynikającej z różnic pomiędzy słuchaczami), jest test RM ANOVA (ang. Repeated
Measures ANOVA). Ponadto, należy zauważać, że w kilku eksperymentach uzyskane dane
zawierały cztery zmienne zależne, reprezentujące oceny czterech atrybutów dźwięku. W takim
przypadku moc testu mogłaby być zwiększona poprzez zastosowanie metody MANOVA (ang.
Multivariate ANOVA).
B. Aspekt redakcyjny
Praca jest napisana bardzo klarownym językiem. Jest czytelna, uporządkowana
i logiczna. Pomimo starań Autorki, w pracy wkradły się błędy interpunkcyjne oraz
drobne usterki, głównie literowe (Załącznik B do recenzji). W wersji czarno-białej
rozprawy czytelność legend naniesionych na niektórych wykresach jest słaba, co
utrudnia rozróżnienie znaczenia poszczególnych krzywych (wykresy 6.12, 6.19 i 6.50).
W mojej opinii, praca zyskałaby na jej skróceniu poprzez usunięcie
szczegółowych opisów standardowych metod statystycznych i odesłanie czytelnika
do klasycznych źródeł z zakresu statystycznej analizy danych. W ten sposób lepiej
wyeksponowana bałaby oryginalna część pracy.
IV. Podsumowanie osiągnięć merytorycznych doktorantki
Autorka empirycznie udowodniła tezę rozprawy, wykazując, że odtwarzanie
dźwięku bezpośredniego oraz odbitego skutkuje w typowych systemach
wielokanałowych poprawą jakości dźwięku.
Na podkreślenie zasługuje również fakt, iż część wyników zaprezentowanych
przez Autorkę w rozprawie, była już poddana pozytywnej weryfikacji środowiska
naukowego. Wyniki te zostały opublikowane przez Doktorantkę w trzech
współautorskich artykułach na łamach cenionych czasopism naukowych (Journal ofthe
Audio Engineering Society, Archives ofAcoustics oraz Acta Physica Polonica A).
V. Wnioski końcowe
Rozprawa mgr inż. Aleksandry Król-Nowak zawiera opis oryginalnych
rozwiązań naukowych zweryfikowanych empirycznie. Cele postawione pracy
doktorskiej zostały osiągnięte z sukcesem.
W mojej ocenie rozprawa spełnia wszystkie wymogi ustawowo stawiane
rozprawom doktorskim. W związku z powyższym, wnioskuję o dopuszczenie
mgr inż. Aleksandry Król-Nowak do dalszych etapów przewodu doktorskiego, w tym
do publicznej obrony rozprawy.
Sławomir Zieliński
str. 5 z 6
Załączniki do recenzji
A. Brakujące pozycje literaturowe
[Il Lindau, A. et al., A Spatial Audio Quality Inventory (SAQI), Acta Acustica united withAcustica, vol. 100, pp. 984—994 (2014)
[21 Łętowski, T., Sound Quality Assessntent: Concepts and Criteria, 87th Convention of the
Audio Engineering Society, Preprint 2825 (1989)
[31 Rumsey, F., Spatial Quality Evaluation for Reproduced Sound: Tenninology, Meaning, and
a Scene-Based Paradignt, J. Audio Eng. Soc., vol. 50, pp. 651—666 (2002)
[41 Zacharov, N. and Pike, C., A contnton le.ricon for spatial sound quality assessntent — latest
developnłents. Eighth International Conference on Quality of Multimedia Experience
(Q0MEX) (2016)
B. Drobne usterki
a) str. 17, 'kontynuując działa' —4 'kontynuując dzieła'
b) str. 23, 'Głośniki ... pozwalają na odbieranie muzyki całym ciałem...'. Uogólnienie tojest niepoprawne. Głównym powodem przemawiającym na, korzyść odsłuchugłośnikowego jest to, iż typowe nagrania stereofoniczne odtwarzane na słuchawkach
powodują zbyt duże różnice między-uszne, co jest nienaturalne i prowadzi dolokalizacji dźwięku 'wewnątrz' głowy.
c) str. 40, 'W niniejszej pracy wykorzystane będzie. systemy', 'będzie' —+ 'będą'
d) str. 45, podpis pod rys. 4.3, 'referencji' 'referencja'
e) str. 65, 'reverberation ratio' —+ 'reverberation time'
f) str. 75, 'kierujących preferencja' 'kierujących preferencją' ('ą' na końcu)
g) str. 78, 'W trzecim teście zredukowano liczbę...' Zdanie długie i niegramatyczne
h) str. 94, 'W Drugiej fazie' 'W drugiej fazie'
i) str. 94, 'sztuczne sieci neuronowych' 'sztuczne sieci neuronowe'
j) str. 102, rys. 5.2, Kryterium wyboru (T/ N) opisano jedynie przy pierwszym bloku
decyzyjnym (obsenvacje odstające), natomiast opis ten pominięto przy pozostałych
trzech blokach decyzyjnych.
k) str. 129, 'na rysunkach numer 6.21 i 622' 'na rysunkach numer 6.24 i 6.25'
l) str. 137, 'obliczono wartości obliczono wartości' 'obliczono wartości'
m) str. 144-155, Oznaczenia osi poziomej na wykresach 6.41-6.44 nie zostały
przetłumaczone na język polski.
n) str. 146, 'poza kryterium lokalizacji na przykładzie chóru'. Czy nie powinno być 'poza
kryterium naturalności na przykładzie chóru'?
o) str. 152, 'wskazywał na to wykres 6.30' 'wskazywał na to wykres 6.39'
p)str. 153, 'Po porównaniu wykresu numer 6.49 i 6.30' 'Po porównaniu wykresu
numer 6.49 i 6.39'
q) str. 158, W tytule rozdziału 7.2 napisano '...usunięcia pogłosu z dźwięku
bezpośredniego', co wydaje się być sprzecznością, gdyż dźwięk bezpośredni nie
zawiera pogłosu.
r) str. 157, 'ale tez' 'ale też'
s) str. 172-178, Bibliografia zawiera błędy literowe.
str. 6 z 6