Psychoakustyka w Pigulce

41
Psychoakustyka w pigułce Aleksander Sęk Ewa Skrodzka Mariusz Marszałkiewicz Instytut Akustyki UAM , 2000 1

Transcript of Psychoakustyka w Pigulce

Page 1: Psychoakustyka w Pigulce

Psychoakustyka w pigułce

Aleksander Sęk Ewa Skrodzka

Mariusz Marszałkiewicz

Instytut Akustyki UAM , 2000

1

Page 2: Psychoakustyka w Pigulce

Spis Treści

1 BUDOWA UKŁADU SŁUCHOWEGO ............................................................................................ 4 1.1 DROGA FALI AKUSTYCZNEJ W UKŁADZIE SŁUCHOWYM .................................................................. 4 1.2 PROCES PRZETWARZANIA ............................................................................................................. 10

1.2.1 Wzmacniacz ślimakowy ........................................................................................................ 10 1.2.2 . Nieliniowość układu słuchowego........................................................................................ 13

1.3 NERW SŁUCHOWY......................................................................................................................... 15

2 PERCEPCYJNA ANALIZA DŹWIĘKU W UKŁADZIE SŁUCHOWYM................................ 18 2.1 PROGI SŁYSZALNOŚCI I PERCEPCJA GŁOŚNOŚCI............................................................................. 18

2.1.1 Progi słyszalności................................................................................................................. 18 2.1.2 Krzywe jednakowej głośności ............................................................................................... 19 2.1.3 Skalowanie głośności............................................................................................................ 20

2.2 SELEKTYWNOŚĆ CZĘSTOTLIWOŚCIOWA ........................................................................................ 21 2.2.1 Istota selektywności częstotliwości ....................................................................................... 21 2.2.2 Wstęga krytyczna, filtry słuchowe......................................................................................... 22 2.2.3 Percepcja barwy................................................................................................................... 28 2.2.4 2.2.4. Zależność pomiędzy selektywnością częstotliwościową a głośnością......................... 29

2.3 PERCEPCJA WYSOKOŚCI ................................................................................................................ 30 2.3.1 Wysokość tonów. Skalowanie wysokości .............................................................................. 30 2.3.2 Teorie percepcji wysokości................................................................................................... 31 2.3.3 Wysokość dźwięków złożonych ............................................................................................. 33

2.4 ROZDZIELCZOŚĆ CZASOWA UCHA ................................................................................................. 36 2.5 LOKALIZACJA DŹWIĘKÓW............................................................................................................. 38

2.5.1 Czynniki lokalizacyjne wynikające z odsłuchów dwuusznych............................................... 38 2.5.2 Rola małżowiny usznej ......................................................................................................... 38 2.5.3 Efekt precedensu................................................................................................................... 39

3 PODSUMOWANIE ........................................................................................................................... 40

4 LITERATURA................................................................................................................................... 41

2

Page 3: Psychoakustyka w Pigulce

Wstęp “Możliwości” ucha ludzkiego są ogromne: potrafi ono odebrać bodźce dźwiękowe,

których częstotliwości mogą wynosić od 20 Hz do 20 000 Hz, a natężenia pozostają w stosunku jak 1: 1000 000 000 000. Oznacza to, że najgłośniejszy dźwięk jaki odbieramy (bez ryzyka uszkodzenia słuchu) ma natężenie 1 bilion razy większe od natężenia najcichszego dźwięku, jaki w ogóle potrafimy zauważyć. Jednak jedną z najważniejszych cech układu słuchowego jest to, że funkcjonuje on w sposób podobny do analizatora częstotliwości, tzn. urządzenia umożliwiającego rozkład złożonego bodźca akustycznego na jego składowe tonalne. Ta cecha układu słuchowego, nazywana rozdzielczością (lub selektywnością) częstotliwościową, umożliwia nam rozłożenie dźwięku złożonego na jego składowe tonalne, co w praktyce sprowadza się do tego, że np. dwa tony odległe w dziedzinie częstotliwości o pół oktawy słyszymy jako dwa oddzielne dźwięki.

Oprócz percepcyjnego rozseparowania dźwięków w dziedzinie częstotliwości układ słuchowy potrafi z jednej strony rozdzielić bodźce występujące po sobie w czasie, co nazywane jest czasową zdolnością rozdzielczą, a z drugiej strony potrafi też kumulować informację/energię niesioną przez bodziec akustyczny, co nazywane jest sumowaniem w czasie. Inną cechą układu słuchowego jest zdolność do uporządkowania dźwięków od najniższego do najwyższego, czyli przypisanie im wysokości. Dzięki zdolności do rozróżnienia barwy dźwięków potrafimy też rozróżnić dwa instrumenty, na których grana jest nuta o tej samej wysokości. Potrafimy również zlokalizować położenie źródła dźwięku.

Wszystkie właściwości układu słuchowego wykorzystywane jednocześnie w pewien spójny sposób stanowią o jakości naszego słuchu i o jego znakomitym przystosowaniu do najróżniejszych bodźców akustycznych. W szczególności nasz słuch potrafi przetworzyć złożony bodziec akustyczny jakim jest mowa tak, że w konsekwencji jest ona interpretowana jako konkretna informacja lingwistyczna.

Nasza wiedza o procesach zamiany dźwięku, a więc fali mechanicznej, na wrażenie słuchowe nie jest niestety pełna i dogłębna. O ile wstępne przetwarzanie sygnału akustycznego w tzw. peryferyjnym układzie słuchowym jest dość dobrze poznane, to sposób interpretacji ciągu impulsów czynnościowych na wyższych piętrach układu słuchowego jest w dalszym ciągu przedmiotem licznych badań.

Praca niniejsza stanowi próbę syntetycznego opisu podstawowych zasad funkcjonowania peryferyjnego układu słuchowego oraz wskazania związków pomiędzy fizycznymi parametrami dźwięku a wrażeniem przez ten dźwięk wywołanym.

3

Page 4: Psychoakustyka w Pigulce

1 Budowa układu słuchowego Rozważanie zasad funkcjonowania układu słuchowego nie jest możliwe bez opisu

anatomicznej struktury tego organu. Toteż zmierzając do odpowiedzi na pytanie: Jak ucho zamienia mechaniczną falę akustyczną na wrażenie słuchowe ? przedstawić należy przede wszystkim zasadnicze elementy anatomii i fizjologii układu słuchowego.

1.1 Droga fali akustycznej w układzie słuchowym Zanim rozchodzące się w czasie zaburzenie ośrodka wywoła wrażenie słuchowe, które

będziemy mogli zidentyfikować jako dźwięk, musi ono przebyć skomplikowaną drogę, wiodącą od ucha zewnętrznego poprzez ucho środkowe, wewnętrzne (elementy wchodzące w skład narządu przedsionkowo-ślimakowego, zwanego dawniej narządem statyczno-słuchowym) i dalej poprzez nerw słuchowy, aż do pól słuchowych znajdujących się w mózgu.

Błona bębenkowa

Okienko okrągłe

Ślimak

Nerw słuchowy

Strzemiączko

półkoliste Kanały KośćMałżowina

Kowadełko

Młoteczek

Kanał słuchowyzewnętrzny

Rys. 1. Peryferyjny układ słuchowy człowieka: ucho zewnętrzne, środkowe i wewnętrzne

Do ucha zewnętrznego zalicza się małżowinę uszną i przewód słuchowy zewnętrzny, których zadaniem jest przewodzenie i wzmacnianie odbieranej fali akustycznej. Możliwe jest to dzięki temu, że przewód słuchowy zewnętrzny wraz z zamykającą go błoną bębenkową tworzą komorę rezonansową wzmacniającą dźwięk w paśmie 2000-3000 Hz. Wartość tego wzmocnienia może dochodzić do 10-20 dB. Odpowiednie kształty i wielkości powyższych elementów mają również istotne znaczenie w lokalizacji źródła dźwięku: gdyby nie ucho zewnętrzne, nie bylibyśmy w stanie zlokalizować dźwięków o częstotliwościach większych od 1500 Hz.

4

Page 5: Psychoakustyka w Pigulce

Małżowina uszna zbudowana jest z chrząstki sprężystej pokrytej skórą. Zewnętrzna jej powierzchnia wykazuje wyniosłości i zagłębienia, których forma szczególnie istotna jest w zagadnieniach związanych z protetyką słuchu. W dolnej swej części małżowina uszna przechodzi w przewód słuchowy zewnętrzny, składający się z części bocznej – chrząstkowej, stanowiącej jedną trzecią całego przewodu, i części przyśrodkowej - kostnej. Skóra wyścielająca przewód słuchowy zewnętrzny zawiera liczne gruczoły łojowe wytwarzające woskowinę. Substancja ta, obok samooczyszczania, zapewnia właściwą sprężystość błonie bębenkowej, która pobudzana do drgań poprzez padającą falę dźwiękową, przenosi zaburzenie do ucha środkowego.

Zasadniczym jego elementem jest jama bębenkowa, będącą nieregularną szczeliną, której kształt przypominaj klepsydrę czy też dwuwklęsłą soczewkę. Jest ona wypełniona powietrzem i zawiera łańcuch kosteczek słuchowych – najmniejszych kości w organizmie ludzkim.

Błona bębenkowa wraz z kosteczkami słuchowymi jest pierwszym elementem układu transmisji dźwięku z powietrza do cieczy zawartych w ślimaku. Jej powierzchnia zewnętrzna jest lejkowato wklęsła w centralnej swej części, nieco uwypuklając się na obrzeżach. Taka budowa, jak i duża elastyczność, która związana jest z występowaniem w środkowej warstwie przebiegających promienisto i okrężnie, przeplatających się wzajemnie włókien elastycznych, umożliwia przenoszenie z prawie całkowitą wiernością docierających dźwięków. Dodatkowo istotną właściwością tej błony jest znaczna wartość współczynnika tłumienia, dzięki któremu może ona przyjmować i przekazywać szybko po sobie następujące pobudzenia.

Na przyśrodkowej ścianie jamy bębenkowej znaleźć można uwypuklenie zwane wzgórkiem, wywołanym zakrętem podstawnym ślimaka. Wzgórek przedziela dwa dołki, w których znajdują się: w górnym – okienko owalne oraz w dolnym - okienko okrągłe, łączące ucho środkowe z wewnętrznym.

Pomiędzy ścianami jamy bębenkowej rozpięty jest łańcuch kosteczek słuchowych, do których należą: młoteczek, przyczepiony swą rękojeścią do błony bębenkowej powodujący jej wciągnięcie do środka jamy oraz kowadełko i strzemiączko, zamykające swą podstawą okienko owalne. Ich zadaniem jest transformowanie ciśnienia akustycznego docierającego z falą dźwiękową rozchodzącą się w powietrzu, na ciśnienie mogące pobudzić do drgań płyny ślimaka, co w efekcie prowadzi do wywołania wrażenia słuchowego.

Jak funkcjonuje ucho środkowe ? Z codziennego doświadczenia wiadomo, że gdy będąc na basenie zanurzymy głowę pod wodę to nie słyszymy głosów osób siedzących na krawędzi basenu. Fizycznie oznacza to, że opór stawiany falom akustycznym przez wodę jest większy od oporu stawianego przez powietrze, lub ściślej - że impedancja wody jest znacznie większa niż impedancja powietrza. Aby fale akustyczne wniknęły do wody należy je przetransformować w taki sposób by istniejąca różnica impedancji przestała mieć znaczenie. Analogiczną sytuację mamy w przypadku organu słuchu: z powietrza dźwięk musi być dostarczony do wypełnionego cieczami ślimaka. Ucho środkowe pełni tu właśnie rolę układu transformującego drgania powietrza na drgania cieczy tak, że pomimo znacznej różnicy impedancji powietrza i cieczy ślimaka dźwięk wytwarza wystarczające drgania cieczy ślimakowych by były one odebrane jako wrażenie słuchowe. Bez jego obecności tylko 0.1% energii fali docierającej bezpośrednio z powietrza do okienka owalnego byłaby transmitowana do ślimaka, co z pewnością nie wywoływałaby wrażenia dźwiękowego.

Transformacja dźwięku dokonywana w uchu środkowym, nazywana też wyrównaniem (dopasowaniem) impedancji, polega przede wszystkim na zwiększeniu ciśnienia wywieranego na płyn ślimakowy przez podstawę strzemiączka w stosunku do ciśnienia, działającego na błonę bębenkową, co odbywa się kosztem zmniejszenia amplitudy ruchu tych struktur. Możliwe jest to m.in. dzięki różnicy powierzchni czynnych błony bębenkowej i podstawy strzemiączka, pozostających w stosunku ok. 35:1, oraz

5

Page 6: Psychoakustyka w Pigulce

mechanizmowi dźwigniowemu, będącego rezultatem różnych długości ramion kowadełka i młoteczka, pozwalającemu na dodatkowe wzmocnienie odbieranej fali rzędu ok. 1.3 razy.

Dopasowanie impedancji przez ucho środkowe jest najlepsze w zakresie średnich częstotliwości (1-4 kHz) i dlatego też w tym właśnie zakresie ucho jest najbardziej czułe, czyli zdolne do spostrzegania (detekcji) najcichszych dźwięków. Charakterystykę przeniesienia ucha środkowego, czyli zależność wzmocnienia sygnału w uchu środkowym od częstotliwości przedstawiono na rys. 2.

Rys.2. Charakterystyka przeniesienia ucha środkowego

Dodatkową funkcją układu kosteczek jest zabezpieczenie delikatnych struktur ślimaka (o których poniżej) przed dźwiękami o zbyt dużym natężeniu i małych częstotliwościach. Dobiegająca do ucha fala dźwiękowa wprawia w drganie błonę bębenkową. Uwypuklanie się błony wraz z rękojeścią młoteczka do środka jamy, powoduje ruch główki młoteczka wokół więzadła osiowego w przeciwnym kierunku, co z kolei przyczynia się do przyciągnięcia trzonu kowadełka i ruchu odnogi długiej do wewnątrz, przez co następuje wciskanie podstawy strzemiączka w okienko owalne. Ruch podstawy strzemiączka jest bardzo złożony i rozłożyć go można na ruch tłokowy, ruch wahadłowy i obrotowy. Ruchliwość tych elementów możliwa jest dzięki istnieniu dwóch stawów, a także wiązadeł, których zadaniem jest ich mocowanie, przez co stają się one osiami obrotu. Jeżeli natężenie odbieranego bodźca jest zbyt duże i może grozić uszkodzeniem układu słuchowego, to proces transmisji dźwięku może być kontrolowany (osłabiony) poprzez dwa mięśnie: mięsień naprężacz błony bębenkowej i mięsień strzemiączkowy, które napinają się i ograniczają ruchy kosteczek słuchowych.

Pierwszy ze wspomnianych mięśni, unerwiany przez nerw trójdzielny (V nerw czaszkowy), przyczepiony do rękojeści młoteczka i w momencie wystąpienia zbyt głośnego bodźca pociąga młoteczek z błoną bębenkową do wewnątrz. Drugi, natomiast, unerwiany przez nerw twarzowy (VII nerw czaszkowy), przyczepiony jest do rękojeści młoteczka, wysuwając przednią część podstawy strzemiączka z okienka przedsionka. W wyniku jednoczesnego działania obu tych mięśni, co ma miejsce w przypadku nadmiernie głośnych sygnałów, następuje ich usztywnienie prowadzące do ograniczenia drgań kosteczek słuchowych i w konsekwencji do zmniejszenia amplitudy przenoszonych drgań. Mechanizm ten, zwany również odruchem strzemiączkowym, jest inicjowany z pewnym opóźnieniem względem początku nadmiernie głośnego dźwięku i w związku z tym nie jest, niestety, skuteczny dla dźwięków impulsowych, takich jak strzał z pistoletu, czy uderzenie młotka. Odruch ten wywoływany jest niezależnie od naszej woli dla sygnałów 70 – 90 dB wyższych od progu słyszalności.

6

Page 7: Psychoakustyka w Pigulce

Aby ucho środkowe mogło prawidłowo funkcjonować w jamie bębenkowej musi panować takie samo ciśnienie jak na zewnątrz organizmu. Możliwe jest to dzięki istnieniu trąbki słuchowej (trąbki Eustachiusza), łączącej jamę bębenkową z gardłem, której światło, ze względu na specyficzną budowę, jest normalnie zamknięte i otwiera się tylko podczas ziewania, połykania, czy też wymawiania takich głosek jak: u, e, i, p, k, wyrównując w ten sposób ewentualną różnicę ciśnień. Niedrożność tego elementu upośledza słuch i może prowadzić do zmian patologicznych, podczas gdy stałe otwarcie przyczynia się do wystąpienie nieprzyjemnego uczucia polegającego na głośnym słyszeniu "w głowie" własnego głosu, co określane jest mianem autofonii.

Przestrzenie jamy bębenkowej stanową złożony układ rezonansowy, mający na celu przede wszystkim tłumienie zarówno dźwięków docierających z zewnątrz, jak i szmerów wewnątrzustrojowych, których źródłem są m.in. przepływająca krew w naczyniach krwionośnych, czy też oddychanie i przełykanie. Powietrze zawarte w tej jamie ma istotne znaczenie w prawidłowej pracy okienek: owalnego i okrągłego stanowiących początek kolejnej części narządu przedsionkowo-ślimakowego - ucha wewnętrznego, zawierającego ślimak oraz narząd przedsionkowy odpowiedzialny za utrzymanie równowagi naszego ciała.

Ucho wewnętrzne tworzone jest przez błędnik kostny znajdujący się w kości skroniowej. Z przedsionka błędnika kostnego wyrasta ku przodowi ślimak a ku tyłowi – kanały półkoliste. W głębi błędnika kostnego znajduje się błędnik błoniasty zbudowany z dwóch pęcherzyków: łagiewki i woreczka, z trzech przewodów półkolistych i z przewodu ślimakowego. Część z kanałami półkolistymi związana jest z narządem równowagi, podczas gdy część ślimakowa – z narządem słuchu, czym dokładniej się zajmiemy.

Ślimak jest zwężającą się, uformowaną z kości czaszki rurką która, zwinięta jest w formie skorupy ślimaka i ma 23/4 zwoja. Za początek ślimaka (tzw. bazę) przyjmuje się zwykle okienko owalne do którego przylega strzemiączko przekazujące drgania z powietrza. Analiza drgań cieczy i błon ślimaka jest dość trudna jeśli dokonuje się jej na „zwiniętym” ślimaku tj. takim jakim jest on w rzeczywistości. Dlatego też drgania te ilustruje się na „rozwiniętym” ślimaku co pozwala na znacznie lepszą wizualizację i pełniejsze zrozumienie procesów tam zachodzących i, co nie mniej ważne, jest całkowicie zgodne z zachowaniem się nierozwiniętego ślimaka.

Przekrój poprzeczny ślimaka przedstawiono na rys.3a, a przekrój podłużny „rozwiniętego” ślimaka przedstawiono schematycznie na rys.3b. Przez całą jego długość biegną dwie błony: podstawna i przedsionkowa (błona Reissnera), dzieląc go na 3 komory (partycje) nazywane odpowiednio schodami ślimaka i bębenka oraz przewodem lub kanałem ślimakowym, które wypełnione są prawie nieściśliwymi cieczami. Górna część – schody ślimaka i dolna – schody bębenka zawierające perylimfę, łączą się ze sobą na końcu ślimaka przez mały otwór – szparę osklepka (helikotremę). Trzecia - środkowa komora - przewód ślimakowy, wypełniona endolimfą, biegnie niezależnie, wzdłuż błędnika błoniastego.

Gdy okienko owalne porusza się „do wewnątrz” ślimaka, to chwilowa gęstość cieczy ślimaka w bezpośrednim sąsiedztwie okienka owalnego wzrasta. To „zaburzenie” ciśnienia rozchodzi się wzdłuż ślimaka w kierunku szpary osklepka i dalej schodami bębenka do okienka okrągłego usytuowanego poniżej okienka owalnego (patrz rys.3b). Z uwagi na dość dużą prędkość fal akustycznych w cieczach, wychylenia okienek owalnego i okrągłego są niemalże w przeciwfazie: ruch okienka owalnego „do wewnątrz” ślimaka powoduje ruch okienka okrągłego „na zewnątrz”. Jest to możliwe dzięki temu, że okienko okrągłe oddziela ciecze ślimaka od powietrza zawartego w jamie bębenkowej a dźwięk dociera do ślimaka tylko poprzez okienko owalne.

Zaburzenie gęstości cieczy, które propaguje się w schodach bębenka i w schodach przedsionka jest przyczyną lokalnych, chwilowych różnic ciśnienia perylimfy po obu stronach błony podstawnej, która z punktu widzenia omawianych zagadnień jest najważniejszym

7

Page 8: Psychoakustyka w Pigulce

elementem ślimaka. Propagujące się różnice ciśnienia, powodują powstawanie fali biegnącej na błonie podstawnej, w wyniku czego błona ta podlega niewielkim odkształceniom, przemieszczającym się wraz z zaburzeniami ciśnienia perylimfy od okienka owalnego do okienka okrągłego (por. rys. 3b). W przypadku, gdy dźwiękiem wymuszającym jest ton (a nie pojedynczy impuls jak na rys. 3b), to cykliczne zagęszczenia i rozrzedzenia perylimfy, propagujące się wzdłuż ślimaka, powodują cykliczne wychylenia znacznych obszarów błony podstawnej. Jednak nie cała błona podstawna drga w jednakowym stopniu: to, która część błony podstawnej wychyla się w największym stopniu zależy od częstotliwości dźwięku, zaś amplituda tych drgań zależy od natężenia dźwięku.

Rys 3a. Przekrój poprzeczny ślimaka ukazujący trzy jego podstawowe partycje, błonę pokrywkową oraz organ Cortiego

Rys. 3b. Podłużny przekrój rozwiniętego ślimaka

8

Page 9: Psychoakustyka w Pigulce

Błona podstawna ma 33-35 mm długości a jej właściwości fizyczne zmieniają się wzdłuż jej długości. U podstawy (tj. blisko okienka owalnego) błona ta jest wąska i sztywna, a w miarę posuwania się w kierunku wierzchołka (sąsiedztwo osklepka) staje się coraz szersza i mniej sztywna. W rezultacie położenie miejsca o największym wychyleniu zależy od częstotliwości tonu: dźwięki o dużych częstotliwościach najsilniej wzbudzają obszary w pobliżu okienka owalnego a dźwięki o małych częstotliwościach – w pobliżu szpary osklepka, co schematycznie zilustrowano na rys.4.

Rys. 4. Obwiednie wychylenia błony podstawnej w zależności od częstotliwości

Błona podstawna dokonuje więc pewnej konwersji częstotliwości sygnału na miejsce jej maksymalnego wychylenia. Mamy tu do czynienia z przyporządkowaniem częstotliwość ↔ miejsce, a sposób tego przyporządkowania jest następujący: tony o małych częstotliwościach wytwarzają maksymalne wychylenie blisko osklepka, a tony o dużych częstotliwościach blisko okienka owalnego. Dzięki temu ślimak zachowuje się tak jak analizator dźwięku: sygnał akustyczny złożony z tonów o różnych częstotliwościach i amplitudach pobudza w różnym stopniu różne obszary błony podstawnej. Ta właściwość ślimaka, pozwalająca nam w konsekwencji na percepcyjne rozseparowanie dwóch tonów o różnej częstotliwości, nazywa się selektywnością częstotliwościową. Warto jednak pamiętać, że analiza dźwięku zachodząca na błonie podstawnej nie jest doskonała: jeśli częstotliwości dwóch tonów są nieznacznie różne to przedstawiony mechanizm analizy nie pozwala na ich percepcyjne rozseparowanie i słyszymy wówczas jeden dźwięk. Warto dodać, że obwiednie drgań błony podstawnej nie zmieniają się jeśli drgania dostarczane są do ślimaka nie za pomocą strzemiączka (tzw. przewodnictwo powietrzne), jak przedstawiono powyżej, ale poprzez kości czaszki (tzw. przewodnictwo kostne).

Zdolność błony podstawnej do rozseparowania dźwięków o różnych częstotliwościach (selektywność częstotliwościowa) przedstawia się często za pomocą tzw. krzywych strojenia błony podstawnej, które są pewnym odpowiednikiem krzywych rezonansowych poszczególnych punktów tej błony. Pojedynczą krzywą strojenia wyznacza się obserwując wychylenie jednego, ustalonego punktu błony podstawnej, pobudzanej tonami o różnych częstotliwościach. Natężenie tonu stymulującego dobiera się każdorazowo w ten sposób, aby amplituda wychylenia badanego punktu błony podstawnej była zawsze taka sama. W poprawnie funkcjonującym układzie słuchowym krzywa strojenia dowolnego punktu błony podstawnej charakteryzuje się bardzo ostro zarysowanym minimum i stromo nachylonymi

9

Page 10: Psychoakustyka w Pigulce

zboczami (tzw. ostre strojenie). Przykład takiej krzywej, uzyskanej dla świnki morskiej, przedstawiono na rys.5 za pomocą kółek.

Rys. 5. Krzywa strojenia błony podstawnej mierzona w punkcie najbardziej wrażliwym na 18 kHz. Krzywa z kółkami obrazuje ostre strojenia błony żywej świnki morskiej. Krzywą z kwadratami

uzyskano po śmierci zwierzęcia

Ta sama krzywa strojenia zmienia znacząco swą postać gdy wyznaczona jest po śmierci zwierzęcia, a więc wówczas gdy ustały wszystkie czynności biologiczne organizmu, co przedstawiono na rys.5 za pomocą kwadratów. Krzywa strojenia charakteryzuje się w tym przypadku znacznie mniej ostro zarysowanym minimum (tzw. szerokie strojenie), które jest przesunięte w kierunku mniejszych częstotliwości. Ta krzywa strojenia odwzorowuje wyłącznie mechaniczne właściwości analizowanego punktu błony podstawnej. Duża czułość błony podstawnej oraz ostre strojenie poprawnie funkcjonującego układu słuchowego nie wynika zatem wyłącznie z mechanicznych właściwości ślimaka, a przypisuje się je biologicznie aktywnemu procesowi nazywanemu często wzmacniaczem ślimakowym. Proces ten, zwiększający najbardziej drgania błony podstawnej o najmniejszych amplitudach, może być źródłem dodatkowej energii dostarczanej do błony podstawnej bądź też może przyczyniać się do wzrostu jej elastycznych właściwości w otoczeniu maksymalnego wychylenia.

1.2 Proces przetwarzania

1.2.1 Wzmacniacz ślimakowy Aby wyjaśnić działanie wzmacniacza ślimakowego należy wniknąć głębiej w budowę

i fizjologię ucha wewnętrznego. Mechaniczne drgania błony podstawnej są zamieniane na potencjały czynnościowe włókien nerwu słuchowego (impulsy neuronowe) w organie Cortiego usytuowanym wzdłuż całej błony podstawnej w środowisku dodatnio naładowanej endolimfy wypełniającej kanał ślimakowy. Przekrój poprzeczny organu Cortiego przedstawiono na rys.6. Zasadniczymi elementami tego organu, z punktu widzenia omawianych zagadnień, są komórki rzęskowe wewnętrzne i zewnętrzne, umieszczone po obu stronach tzw. tunelu Cortiego oraz błona pokrywkowa znajdująca się nad tym organem.

Wewnętrzne komórki rzęskowe u ludzi umieszczone są w jednym rzędzie, po wewnętrznej stronie tunelu Cortiego. Jest ich ok. 3500, a każda z nich ma ok. 40 tzw. rzęsek formujących proste rzędy. Do każdej z tych komórek dochodzi ok. 20 neuronów aferentnych

10

Page 11: Psychoakustyka w Pigulce

przekazujących impulsy elektryczne ze ślimaka na wyższe piętra drogi słuchowej i dalej do mózgu. Rzęski tych komórek nie mają najprawdopodobniej bezpośredniej styczności z błoną

Błona Pokrywkowa

Tunel Cortiego

Włókna eferentne

Komórki

HensenaWewnętrznekomórki rzęskowe

Komórki Deitersa

Błonapodstawna

Tunel Nuela

Włókna aferentne

KomórkiPillars

RzęskiWłókna eferentne Zewnętrzne komórki

rzęskowe

Rys. 6. Przekrój organu Cortiego

pokrywkową, która jest utwierdzona tylko po swej jednej, wewnętrznej stronie. Ruchy błony podstawnej w górę i w dół, przedstawione schematycznie na rys.7a, powodują cykliczne zbliżanie organu Cortiego i błony pokrywkowej oraz powstanie pomiędzy nimi sił ścinających. Dzięki temu bezpośredni kontakt rzęsek wewnętrznych komórek rzęskowych z błoną pokrywkową staje się bardziej możliwy i prowadzi do przeginania rzęsek raz w jedną raz w drugą stronę. Przeginanie to połączone jest z cyklicznym otwieraniem i zamykaniem kanałów znajdujących się w rzęskach, którymi do ujemnie spolaryzowanych komórek rzęskowych mogą napływać dodatnie jony potasu z endolimfy wypełniającej kanał ślimakowy. Na rys.7a,b przedstawiono schematyczne trzy zasadnicze fazy ruchu błony podstawnej z jednoczesnym zaznaczeniem kierunku przegięcia rzęsek oraz proces otwierania i zamykania kanałów jonowych. Choć rysunek ten prezentuje zachowanie komórek rzęskowych zewnętrznych, to w dobrym stopniu oddaje on również funkcję wewnętrznych

Rys. 7a. Trzy fazy ruchu błony podstawnej i ich wpływ na przegięcie rzęsek

11

Page 12: Psychoakustyka w Pigulce

komórek rzęskowych. Wywoływane w ten sposób chwilowe zmiany potencjału komórek rzęskowych odbierane są przez synapsy włókien neuronowych i w postaci impulsów transmitowane do wyższych pięter układu słuchowego. Panuje powszechne przekonanie, że znakomita większość informacji o bodźcu akustycznym jaka dostępna jest na różnych piętrach drogi słuchowej pochodzi wyłącznie z wewnętrznych komórek rzęskowych.

Rys. 7b. Komórka rzęskowa

Zewnętrzne komórki rzęskowe uporządkowane są w pięciu rzędach (u ludzi), umieszczonych po zewnętrznej stronie tunelu Cortiego. Jest ich ok. 25 000 a każda z nich ma ok. 140 rzęsek uformowanych w kształcie litery V. Do komórek tych dochodzi ok. 1800 neuronów eferentnych tj. takich, które przekazują sygnały z mózgu. Organ Cortiego odpowiedzialny jest więc zarówno za transmisję informacji o fali dźwiękowej do mózgu jak i za zwrotną transmisję ”rozkazów” mózgu do ucha wewnętrznego. Ponadto komórki te charakteryzują się kurczliwością pod wpływem zmiany potencjału: jeśli zwiększymy potencjał takiej komórki (która w normalnych warunkach jest spolaryzowana ujemnie) to ulegnie ona skróceniu. To właśnie kurczliwość oraz specyficzny sposób unerwienia zewnętrznych komórek rzęskowych odpowiedzialne są za wysoką czułość i dobrą selektywność częstotliwościową słuchu normalnego (wzmacniacz ślimakowy), co zilustrowano za pomocą krzywych strojenia (por. rys.5).

Mechanizm ten funkcjonuje następująco. Jak już powiedziano, ruchy błony podstawnej w górę i w dół powodują zbliżanie się organu Cortiego i błony pokrywkowej oraz powstanie sił ścinających na styku tych organów. Siły te powodują m.in. przeginanie rzęsek zewnętrznych komórek rzęskowych raz w jedną raz w drugą stronę. Przeginanie to powoduje cykliczne otwieranie i zamykanie kanałów znajdujących się w rzęskach, którymi mogą napływać dodatnie jony potasu do ujemnie spolaryzowanych komórek rzęskowych. Ruch błony podstawnej ku górze (por. rys.7.) połączony jest z otwarciem kanałów jonowych dzięki czemu jony potasu, których znaczące stężenie obserwuje się w endolimfie, napływają do zewnętrznych komórek rzęskowych. Jony te powodują wzrost potencjału komórek, a w związku z ich kurczliwością – również ich skrócenie. Skrócenie to jest największe w szczytowym wychyleniu błony podstawnej, kiedy to kanały jonowe są maksymalnie otwarte, co ilustruje dolna część rys.7. Z rys.6 łatwo wywnioskować, że skrócenie zewnętrznych komórek rzęskowych prowadzi do lepszego wzajemnego zbliżenia się wewnętrznych komórek rzęskowych (a właściwie całego organu Cortiego) i błony pokrywkowej, a więc do znacznie bardziej intensywnego stymulowania ich. W konsekwencji obserwuje się też zwiększenie liczby impulsów czynnościowych neuronów unerwiających te komórki. Jak

12

Page 13: Psychoakustyka w Pigulce

wynika z najnowszych badań kurczliwość zewnętrznych komórek rzęskowych ma zasadnicze znaczenie zwłaszcza w przypadku najcichszych dźwięków, bowiem to właściwie dzięki temu mechanizmowi możemy je w ogóle usłyszeć. Gdyby zatem kurczliwość zewnętrznych komórek rzęskowych nie istniała, wówczas wygenerowanie impulsu we włóknach dochodzących do wewnętrznych komórek rzęskowych wymagałoby znacznie większego wychylenia błony podstawnej, a więc i większego natężenia dźwięku. Widać stąd, że zewnętrzne komórki rzęskowe odgrywają w słyszeniu bardzo istotną rolę a ich uszkodzenie może prowadzić do upośledzenia czułości słuchu. Ich zdolność do kurczenia się pod wpływem zmiany potencjału uważana jest za zasadniczy element wzmacniacza ślimakowego.

1.2.2 . Nieliniowość układu słuchowego Jednym z dowodów na istnienie wzmacniacza ślimakowego jest przebieg krzywej

strojenia przedstawionej na rys.5. Gdy błona podstawna jest w dobrej kondycji fizjologicznej, krzywa strojenia jej dowolnego punktu jest znacznie bardziej selektywna (ostra) niż w przypadku ustania funkcji motorycznej zewnętrznych komórek rzęskowych. Innym argumentem na korzyść funkcjonowania takiego wzmacniającego procesu jest nieliniowość charakterystyki dynamicznej błony podstawnej.

Charakterystyka dynamiczna lub tzw. funkcja wejścia-wyjścia, opisuje dynamiczne właściwości badanego układu. Jest to zależność amplitudy sygnału na wyjściu układu od amplitudy sygnału wejściowego, przy stałej częstotliwości. Dla układu liniowego zależność ta jest liniowa. Nie wnikając w szczegółową definicje układu liniowego zapamiętajmy tylko, że jeśli amplitudy sygnału wejściowego i wyjściowego wyrazi się w mierze logarytmicznej (dB), to charakterystyka jest linią prostą o kącie nachylenia 450.

Na rys.8 przedstawiono charakterystyki dynamiczne punktu błony podstawnej dającego maksymalne wychylenie dla częstotliwości 9 kHz, pobudzanego do drgań sygnałami o częstotliwościach 1 i 9 kHz, wyznaczone w różnych momentach czasowych od chwili podania furosemidu, leku wytwarzającego chwilowe zaburzenie czynności zewnętrznych komórek rzęskowych. Wypełnione kwadraty ilustrują funkcję wejścia-wyjścia analizowanego miejsca błony podstawnej przed podaniem leku, dla częstotliwości sygnału 9 kHz. Funkcja ta charakteryzuje się znaczną nieliniowością o charakterze kompresji: duży zakres poziomu sygnału wejściowego odwzorowany jest w znacznie mniejszy zakres amplitudy prędkości drgań błony podstawnej (zmianie sygnału wejściowego o 95-20=75 dB SPL odpowiada zmiana prędkości drgań błony podstawnej od40 do 9000 m/s co jest równoważne 47 dB).

Największą nieliniową kompresję obserwuje się dla średnich poziomów dźwięku (40-80 dB SPL). Jednak po 15 min od podania furosemidu funkcja wejścia-wyjścia (wypełnione trójkąty skierowane do góry) jest równoległa do funkcji liniowej przedstawionej na tym rysunku za pomocą linii bez żadnych punktów. Zatem furosemid spowodował zanik nieliniowych właściwości błony podstawnej oraz znacznie ograniczył funkcjonowanie wzmacniacza ślimakowego: aby teraz wywołać określoną reakcję obserwowanego punktu błony podstawnej (w tym przypadku prędkość drgań) należy zastosować znacznie większe poziomy dźwięku; tak funkcjonowałby nasz słuch gdyby funkcje zewnętrznych komórek rzęskowych były trwale uszkodzone. Nieliniowej kompresji nie stwierdzono jednak w przypadku gdy obserwowano punkt błony podstawnej nastrojony na częstotliwość 9 kHz a częstotliwość sygnału pobudzającego była równa 1 kHz, co dowodzi, że nieliniowość drgań błony podstawnej występuje wyłącznie w otoczeniu jej maksymalnego wychylenia. Wydaje się zatem, że wzmacniacz ślimakowy funkcjonuje w ten sposób, że wzmacnia w największym stopniu drgania błony podstawnej wywołane bardzo cichymi dźwiękami (do ok. 40 dB). Powyżej tego poziomu, tj. dla dźwięków o poziomach 40-80 dB, udział tego procesu staje się coraz mniej efektywny co prowadzi do mniejszego nachylenia (kompresji) charakterystyki

13

Page 14: Psychoakustyka w Pigulce

dynamicznej błony podstawnej. Dla dużych poziomów (powyżej 70 dB) udział tego mechanizmu jest niezauważalny dzięki czemu charakterystyka dynamiczna staje się znowu funkcją liniową.

Rys. 8. Charakterystyki dynamiczne punktu błony podstawnej o częstotliwości

charakterystycznej 9 kHz. Opis w tekście.

Jedną z najistotniejszych cech układu liniowego jest to, że w sygnale wyjściowym z takiego układu mogą występować tylko sygnały o częstotliwościach równych częstotliwościom sygnałów podanych na wejście. Jeśli w sygnale wyjściowym obecne będą takie sygnały, których nie ma w sygnale wejściowym, to układ jest nieliniowy. Peryferyjny układ słuchowy człowieka jest w ogólności układem nieliniowym a najbardziej spektakularną demonstracją tej nieliniowości jest możliwość dość łatwego usłyszenia zniekształceń intermodulacyjnych (tzw. tonów kombinacyjnych). Jeśli słuchamy dwutonu o częstotliwościach np. 1 i 1.2 kHz, to na skutek nieliniowości naszego układu słuchowego, we wrażeniu słuchowym obecny jest także sygnał o częstotliwości ok. 0.8 kHz. Nie jest to bynajmniej efekt psychologiczny: ton o częstotliwości 0.8 kHz został wygenerowany przez ślimak. Obecność tej dodatkowej składowej (a więc tonu kombinacyjnego o częstotliwości 0.8 kHz) nie jest jednak oczywista bowiem dopiero zdudnienie jej poprzez dodanie do dwutonu 1 i 1.2 kHz tonu o częstotliwości nieznacznie różniącej się od 800 Hz (np. 804 Hz) pozwala stwierdzić obecność tej składowej, która nie występuje w sygnale.

Innym przejawem istnienia aktywnych procesów biologicznych wpływających na właściwości mechaniczne ślimaka jest generowanie bardzo cichych dźwięków przez ucho. Jeżeli ucho zostanie pobudzone impulsem o niewielkim poziomie, to za pomocą mikrofonu wprowadzonego do zewnętrznego przewodu słuchowego można zarejestrować dźwięk będący reakcją ucha na sygnał pobudzający. Początkowa jego część jest wynikiem odbicia podawanego dźwięku od ucha środkowego. Jednak dalsza część tego sygnału pojawia się z opóźnieniem 5-60 ms od momentu zaprezentowania impulsu. Opóźnienia te są zbyt duże, aby można wiązać je z odbiciem od ucha środkowego. Dlatego też z dużą pewnością sądzi się, że są one rezultatem biologicznej aktywności ślimaka. Dźwięki te znane są w literaturze pod pojęciem wywołanej emisji otoakustycznej. Nazywane są także “echami ślimaka” lub “echami Kempa”, od nazwiska odkrywcy tego zjawiska.

Kemp zasugerował, że dźwięki te są generowane przez pewien mechanizm przewodzeniowy lub przez pewne punkty błony podstawnej, bowiem pobudzanie sygnałem szerokopasmowym prowadziło do generowania sygnałów emisji otoakustycznych o ściśle określonych częstotliwościach. Odpowiedź układu słuchowego jest nieliniowa, ponieważ natężenie emisji otoakustycznych nie jest proporcjonalne do natężenia dźwięku

14

Page 15: Psychoakustyka w Pigulce

wywołującego te emisje. Charakter tej nieliniowości można wykorzystać do rozróżnienia odpowiedzi pochodzącej ze ślimaka od odpowiedzi pochodzącej z ucha środkowego, bowiem ucho środkowe zachowuje się w sposób liniowy. Ponadto, dla danej częstotliwości energia rejestrowanego dźwięku może być większa od energii obecnej w impulsie wejściowym. Ten fakt pozwolił Kempowi i innym autorom zasugerować, że emisja otoakustyczna odzwierciedla aktywny biologicznie proces wzmocnienia.

Emisje otoakustyczne są dla danego osobnika bardzo stabilne zarówno co do kształtu przebiegu jak i składu widmowego. Każde ucho ma swoją własną charakterystyczną odpowiedź (emisję). Emisje otoakustyczne są największe dla częstotliwości z przedziału 500-2500 Hz prawdopodobnie dlatego, że zwrotna transmisja sygnału ze ślimaka przez ucho środkowe jest najefektywniejsza w tym właśnie zakresie częstotliwości. Jedną z najważniejszych jej cech jest to, że występują one wyłącznie w uszach będących w dobrym stanie fizjologicznym. Uszy z niewielkimi nawet zmianami patologicznymi pochodzenia ślimakowego nie wytwarzają tych sygnałów. Emisje nie pojawiają się również w uszach poddanych uprzednio działaniu dźwięków o dużym natężeniu lub środków farmakologicznych, które negatywnie wpływają na czynności ślimaka. W przypadku ekspozycji dźwięku o dużym natężeniu emisje mogą pojawić się ponownie po pewnym czasie, po którym układ słuchowy odzyskuje swe pierwotne zdolności. Oznacza to, że emisje otoakustyczne są związane z procesami fizjologicznymi, które łatwo ulegają zaburzeniom, czy też całkowitej degradacji, podobnie jak to ma miejsce z procesem odpowiedzialnym za ostrość krzywych strojenia i czułość błony podstawnej. Pomiary tych sygnałów mogą być zatem wykorzystywane jako bardzo czuły wskaźnik do monitorowania stanu fizjologicznego ślimaka.

Pomimo braku jakichkolwiek sygnałów wymuszających wiele uszu emituje dźwięki, które mogą być rejestrowane w zewnętrznym kanale słuchowym. Takie sygnały nazywane są spontaniczną emisją otoakustyczną. Ich występowanie wskazuje po raz wtóry na istnienie wewnątrz ślimaka jakiegoś źródła energii, które może generować dźwięki.

1.3 Nerw słuchowy Jak już wcześniej wspomniano zasadnicza część informacji o sygnale akustycznym

dostępna w nerwie słuchowym pochodzi z komórek rzęskowych wewnętrznych. Do każdej z tych komórek dochodzi ok. 20 neuronów aferentnych i każdy z nich dochodzi wyłącznie do jednej komórki. Dzięki temu informacja o aktywności poszczególnych wewnętrznych komórek rzęskowych transmitowana jest do wyższych pięter układu słuchowego za pomocą 25-30 tys. neuronów stanowiących niezależne kanały informacji, co schematycznie ilustruje górna część rys. 9. Warto jednak pamiętać, że nawet w odpowiedzi na ton, będący sygnałem monochromatycznym, dość znaczna liczba komórek rzęskowych wykazuje aktywność, jako że pobudzenie błony podstawnej nie jest w takich sytuacjach „punktowe” (por. krzywe strojenia, rys.5). W ślad za tym można więc oczekiwać, że wiele neuronów dochodzących do pobudzonych komórek rzęskowych będzie również wykazywało pewną aktywność, wyrażaną zazwyczaj liczbą impulsów czynnościowych na sekundę. Zatem, w pierwszym przybliżeniu, informacja o częstotliwości dźwięku zamieniana jest (kodowana) na pobudzenie określonej grupy neuronów dochodzących do komórek rzęskowych znajdujących się w określonych obszarach błony podstawnej, podczas gdy informacja o natężeniu dźwięku zawarta jest przede wszystkim w liczbie impulsów czynnościowych neuronu na sekundę, czyli częstotliwości jego wyładowań. Nie ma jednak prostej zależności pomiędzy natężeniem, a liczbą impulsów czynnościowych w jednostce czasu: wzrost natężenia prowadzi bowiem w ogólności do wzrostu częstotliwości wyładowań neuronów, ale również do wzrostu liczby aktywnych neuronów. Wzrost poziomu dźwięku począwszy od bardzo małych wartości prowadzi do

15

Page 16: Psychoakustyka w Pigulce

wzrostu liczby wyładowań neuronów. Rozkład aktywności neuronów pod wpływem sygnału o niewielkim natężeniu (do ok. 40-50 dB SPL) ilustruje układ najgrubszych pionowych kresek w lewej dolnej części rys.9. Dla średnich wartości poziomu pewna liczba neuronów słuchowych osiąga stan nasycenia: dalszy wzrost poziomu dźwięku (powyżej 50 dB) nie wywołuje zmiany aktywności tych neuronów. Wzrost poziomu natężenia sygnalizowany jest więc w tym przypadku przez tzw. nienasycone neurony po obu stronach (w skali częstotliwości) względem nasyconych neuronów oraz przez wzrost liczby aktywnych neuronów, co schematycznie ilustruje układ najcieńszych pionowych kresek w lewej donej części rys.9.

Liczba impulsów czynnościowych na sekundę w poszczególnych neuronach (typach neuronów) nie jest jednak jedyną informacją o bodźcu dostępną w nerwie słuchowym. Dla częstotliwości bodźca akustycznego mniejszych od 5 kHz czasowy przebieg wyładowań neuronów odzwierciedla strukturę czasową bodźca, co zilustrowano w prawej dolnej części rys.9. Wyładowania te mają tendencję do występowania dla ściśle określonej fazy bodźca akustycznego, choć nie muszą występować w każdym okresie bodźca. Zjawisko to nazywane jest synchronicznością fazową. Zatem interwały czasowe między kolejnymi wyładowaniami są całkowitymi wielokrotnościami okresu bodźca. Odstępy te zawierają jednoznaczną informację o częstotliwości sygnału. Wydaje się, że dokonując określenia częstotliwości sygnału nasz układ słuchowy może bazować na informacji o tym które z neuronów są aktywne (każdy aferentny neuron dochodzi tylko do jednej wewnętrznej komórki rzęskowej) oraz na odstępach czasowych pomiędzy impulsami w aktywnych neuronach. Warto też podkreślić, że synchroniczność fazowa ma również znaczenie dla kodowania informacji o natężeniu dźwięku. Natężenie, do poziomów ok. 40-50 dB, kodowane jest poprzez częstotliwość wyładowań neuronów. Powyżej tego natężenia liczba impulsów w nasyconych neuronach jest stała i zmiany częstotliwości wyładowań obserwuje się tylko w mniej licznej grupie neuronów nienasyconych. Jednak dalszy wzrost natężenia powoduje wzrost liczby aktywnych neuronów. Biorąc pod uwagę fakt, że synchroniczność fazową obserwuje się niezależnie od nasycenia neuronów można stwierdzić, że wzrost natężenia (powyżej 40-50 dB) prowadzi do powiększania regularności wyładowań neuronowych obserwowanych w nerwie słuchowym. Wzrost tej regularności może być wykorzystywany przez wyższe piętra układu słuchowego do dyskryminacji natężenia.

W przypadku bodźca złożonego synchroniczność fazowa jest zdeterminowana przez najefektywniejsze składowe. Zatem czasowe przebiegi wyładowań różnych neuronów mogą zawierać informacje o względnych amplitudach składowych bodźca (i o różnych częstotliwościach składowych) nawet wtedy, gdy poziom bodźca powoduje nasycenie większości neuronów.

16

Page 17: Psychoakustyka w Pigulce

ft 1min =∆

Czas

Liczba impulsów /s

Częstotliwość , lub numer kanału transmisji

20-30 tys. 'niezależnych' kanałów informacji. Każdy kanał transmituje informację o 'innej' częstotliwości.

Neurony aferentne, ok. 20 neuronów na każdą komórkę. Razem ok.25-30 tys. włókien.

Wewnętrzne komórki rzęskowe

Błona podstawna

Wewnętrzne komórki rzęskowe, ok. 3500, w jednym rzędzie

HELIKOTREMA BAZA Błona pokrywkowa

Rys.9. Schemat transmisji sygnału akustycznego w nerwie słuchowy Rys.9. Schematyczne przedstawienie procesu przetwarzania drgań mechanicznych na impulsy neuronowe oraz rozkładu aktywności neuronów w czasie

17

Page 18: Psychoakustyka w Pigulce

2 Percepcyjna analiza dźwięku w układzie słuchowym

2.1 Progi słyszalności i percepcja głośności

2.1.1 Progi słyszalności Próg słyszalności (próg absolutny, próg detekcji sygnału) jest najmniejszym

poziomem natężenia dźwięku, który wywołuje zaledwie spostrzegane wrażenie słuchowe wobec braku innych dźwięków. Jest niezwykle istotnym, aby przy podawaniu wartości progu słyszalności określić sposób pomiaru natężenia progowego bodźca.

W jednej z szeroko stosowanych metod dźwięki prezentuje się słuchaczom za pomocą słuchawek, a pomiaru natężenia dokonuje się za pomocą małego mikrofonu sondującego umieszczonego w kanale słuchowym. Najlepiej, gdy pomiaru dokonuje się bardzo blisko błony bębenkowej. Próg określony w ten sposób nazywany jest zaledwie spostrzeganymi zmianami ciśnienia akustycznego. W innej metodzie dźwięk prezentowany jest przez głośniki, zazwyczaj w dużej kabinie bezechowej, a pomiaru poziomu dźwięku dokonuje się w tym miejscu pola dźwiękowego, w którym uprzednio usytuowany był środek głowy słuchacza. Próg wyznaczony w ten sposób nazywany jest progiem w polu swobodnym.

Rys. 10. Krzywe jednakowej głośności. Parametrem jest wartość poziomu głośności w fonach. Warto też dodać, że w audiologii progi słyszalności przedstawia się zazwyczaj na tzw.

audiogramie tj. wykresie ilustrującym ubytki słuchu względem słuchu normalnego

Rezultaty uzyskiwane w oparciu o dwie opisane metody różnią się nieco, ponieważ zarówno głowa, małżowina uszna, a także przewód słuchowy zewnętrzny mają wpływ na pole dźwiękowe. Przykładowy próg słyszalności uzyskany w warunkach odsłuchu w polu swobodnym przedstawiono na rys.10 (najniższa krzywa). Jak widać z tego rysunku czułość (wrażliwość) słuchu zmienia się znacząco ze zmianą częstotliwości Jesteśmy stosunkowo mało wrażliwi na dźwięki o bardzo małych i bardzo dużych częstotliwościach. Toteż, aby wywołać wrażenie słyszalne za pomocą takich dźwięków należy zastosować dość znaczne

18

Page 19: Psychoakustyka w Pigulce

wartości ich natężenia. Największa czułość słuchu przypada na zakres częstotliwości od 500 do 5000 Hz i wynika w pewnym stopniu z charakterystyki przeniesienia ucha środkowego. Warto pamiętać, że na ten właśnie zakres częstotliwości przypada nasza mowa, co nie pozostaje bez wpływu na jej zrozumiałość.

Krzywa położona najniżej na rys.10 ilustruje średni próg w polu swobodnym uzyskany dla zdrowych, dorosłych słuchaczy. Należy jednak podkreślić, że krzywa ta przedstawia rezultaty uśrednione, uzyskane dla dużej grupy słuchaczy o słuchu normalnym. Dlatego indywidualne progi wyższe lub niższe o 20 dB w dalszym ciągu są uznawane za mieszczące się w normie. U ludzi starszych progi słyszalności zazwyczaj podwyższają się, szczególnie w zakresie dużych częstotliwości, większych od 4000 Hz.

2.1.2 Krzywe jednakowej głośności Omawiając głośność dźwięków wygodnie jest posługiwać się pewną skalą, która

wiąże poziom natężenia dźwięku z jego głośnością i która umożliwia porównanie głośności dźwięków o różnej częstotliwości. Najłatwiejszym krokiem prowadzącym do utworzenia takiej skali jest skonstruowanie tzw. krzywych jednakowej głośności dla tonów o różnych częstotliwościach. Jako standard wybiera się w tym celu ton o częstotliwości 1000 Hz, którego poziom natężenia jest stały, a zadanie postawione słuchaczowi polega na tym, że ma on dopasować poziom drugiego tonu (np. o częstotliwości 2000 Hz) tak, aby oba dźwięki były w jego odczuciu jednakowo głośne. Wyznaczona w ten sposób miara głośności tego dopasowanego tonu nazywana jest poziomem głośności. Jeśli powtórzymy to zadanie dla wielu różnych częstotliwości drugiego tonu to dopasowany poziom tego tonu, wykreślony w funkcji częstotliwości, utworzy krzywą jednakowej głośności. Jeśli zadanie to powtórzymy dla różnych poziomów tonu standardowego (o częstotliwości 1000 Hz) to otrzymamy rodzinę krzywych jednakowej głośności, tak jak na rys.10.

Poziom głośności tonu standardowego o częstotliwości 1000 Hz jest liczbowo równy jego poziomowi ciśnienia akustycznego. Zatem poziom głośności dowolnego tonu jest równy poziomowi ciśnienia akustycznego tonu standardowego (o częstotliwości 1000 Hz), z którym jest on jednakowo głośny.

Jednostką poziomu głośności jest fon: dany dźwięk ma tyle fonów ile decybeli (SPL) ma ton o częstotliwości 1 kHz, który jest jednakowo głośny z analizowanym dźwiękiem. Parametrem krzywych na rys.10 jest wartość poziomu głośności w fonach. Dla niskich poziomów głośności krzywe jednakowej głośności są zbliżone kształtem do krzywej progowej, a dla wysokich poziomów głośności stają się bardziej płaskie. Oznacza to, że tempo wzrostu głośności wraz ze wzrostem poziomu natężenia jest różne dla tonów o różnej częstotliwości. Na przykład, próg absolutny tonu o częstotliwości 100 Hz jest o ok. 20 dB wyższy od progu tonu o częstotliwości 1000 Hz (odpowiednie progi absolutne są równe 24 i 4 dB SPL). Ale tony o częstotliwościach 100 i 1000 Hz i o poziomie głośności 100 fonów mają poziomy ciśnienia akustycznego prawie takie same (102 i 100 dB SPL). Aby osiągnąć tę samą zmianę poziomu głośności tj. od progu do 100 fonów, poziom ciśnienia akustycznego sygnału o częstotliwości 1000 Hz należy zwiększyć o 97 dB SPL, podczas gdy poziom tonu o częstotliwości 100 Hz należy zwiększyć o 79 dB. Dlatego też szybkość wzrostu poziomu głośności wraz ze wzrostem natężenia jest większa dla małych częstotliwości (oraz w pewnym stopniu dla bardzo dużych częstotliwości) niż dla średnich wartości częstotliwości. Zatem w przypadku dźwięku złożonego można oczekiwać, że jego głośność będzie w znacznym stopniu zależała od częstotliwości jego poszczególnych składowych zwłaszcza wówczas, gdy dźwięk będzie miał niewielkie natężenie. Można też powiedzieć, że jeśli wszystkie składowe takiego dźwięku będą miały te same amplitudy, to „udział” najniższych składowych (poniżej 500 Hz) w całkowitej głośności tego dźwięku będzie znacznie mniejszy

19

Page 20: Psychoakustyka w Pigulce

niż składowych o średnich wartościach częstotliwości. Z uwagi na to, mierniki poziomu ciśnienia akustycznego dokonują ważenia poziomów dźwięku w różnych pasmach częstotliwości po to, by fizyczny pomiar poziomu dźwięku był jak najbliższy odczuwanej głośności. Ważenia tego dokonuje się wg tzw. krzywych korekcyjnych, które liniami przerywanymi przedstawiono na rys.10. Wyróżnia się krzywe korekcyjne A, stosowane powszechnie i opisujące hałas o niewysokim poziomie, wychodzące z użycia krzywe korekcyjne B, a także C i D, wykorzystywane przy pomiarach hałasu impulsowego i lotniczego. Poziom dźwięku mierzony za pomocą takich mierników podaje się zwykle w decybelach łącznie z zastosowaną krzywą korekcyjną. Dany poziom może być podany jako 55 dB(A), co oznacza, że wskazanie miernika korygującego odczyt zgodnie z krzywą korekcyjną A wyniosło 55 dB.

Mierniki poziomu dźwięku nie są niestety wolne od wad. Przede wszystkim nie dostarczają odpowiedniego sposobu sumowania głośności składowych w znacznie rozseparowanych pasmach częstotliwości, czyli głośności dźwięków złożonych. Ponadto nie odzwierciedlają one w należytym stopniu głośności dźwięków zmieniających się w czasie (np. dźwięków impulsowych, czy transjentowych). Jednak pomimo tych i wielu innych ograniczeń mierniki tego typu są szeroko używanym instrumentem pomiarowym, szczególnie przy pomiarach hałasów

2.1.3 Skalowanie głośności Skale głośności tworzy się w celu wyznaczenia zależności wiążących fizyczną miarę

dźwięku jaką jest natężenie i jego subiektywną ocenę. Istnieje wiele metod wyznaczania głośności, które zazwyczaj sprowadzają się do tego, aby słuchacz podał bezpośrednio liczbę odpowiadającą w jego odczuciu głośności wywoływanej przez prezentowany mu dźwięk. W jednej z tych metod, nazwanej metodą szacowania wielkości, słuchaczowi można zaprezentować dźwięk porównawczy, a po nim serię dźwięków o różnych natężeniach. Słuchacz proszony jest o ocenę każdego z tych dźwięków względem dźwięku porównawczego, któremu arbitralnie przypisuje się pewną liczbę, np. 100 jednostek. Jeśli słuchacz ocenia prezentowany dźwięk jako dwa razy głośniejszy od dźwięku porównawczego to przypisuje się mu 200 jednostek, jeśli oceniany dźwięk jest 10 razy cichszy od dźwięku porównawczego - otrzymuje 10 jednostek itp.

W oparciu o wyniki uzyskane w opisany sposób Stevens zasugerował, że percypowana głośność L jest potęgową funkcją natężenia I, tzn.

gdzie k jest stałą zależną od słuchacza i zastosowanych jednostek.

Innymi słowy głośność danego dźwięku jest proporcjonalna do natężenia podniesionego do potęgi 0.3. W przybliżeniu oznacza to, że dwa dźwięki z których jeden oceniany jest jako dwa razy głośniejszy od drugiego różnią się fizycznie o 10 dB.

3.0kIL =

Stevens zaproponował by jednostką głośności dźwięku był son. Głośność jednego sona jest wielkością przyjętą arbitralnie i jest to głośność tonu o częstotliwości 1000 Hz o poziomie 40 dB SPL. Ton o częstotliwości 1000 Hz i poziomie 30 dB SPL jest zazwyczaj oceniany jako dwukrotnie cichszy od tonu 40 dB i ma głośność 0,5 sona, a dźwięk o poziomie 60 dB SPL ma głośność 4 sonów. Ta prosta zależność nie obowiązuje dla poziomów niższych od 30-40 dB.

Związek pomiędzy natężeniem i głośnością sygnałów opisany prawem potęgowym był wielokrotnie potwierdzony eksperymentalnie. Jednak mimo to skalowanie głośności poddawano krytyce, bowiem żadna ze stosowanych metod badawczych nie wydaje się być

20

Page 21: Psychoakustyka w Pigulce

wolna od efektów ubocznych. Wśród czynników, które mogły mieć wpływ na ostateczne rezultaty, najczęściej wymienia się duże różnice międzyosobnicze i sposób prowadzenia eksperymentu. Kwestionuje się też samą ideę pytania słuchacza o ocenę samego wrażenia. To, co robimy na co dzień, to ocena głośności źródła dźwięku. Zależy ona od odległości od źródła i kontekstu w jakim dźwięk jest słyszany (np. czy zawiera jakąś zrozumiałą informację lingwistyczną). Innymi słowy, w wielu realnych sytuacjach próbujemy dokonać oceny właściwości źródła dźwięku a nie samego dźwięku. Próba oceny wielkości wrażenia może być nienaturalnym i trudnym procesem.

2.2 Selektywność częstotliwościowa

2.2.1 Istota selektywności częstotliwości Gdy słuchaczowi prezentuje się sygnał sinusoidalny o określonej częstotliwości, to

odbiera on (percypuje) wrażenie tonalne o czystej, wyraźnej barwie. Wysokość tego tonu jest związana z jego częstotliwością a głośność z natężeniem. Gdy słuchaczowi zaprezentuje się jednocześnie dwa tony, to ich percepcyjne rozdzielenie, a więc usłyszenie ich jako oddzielnych dźwięków, zależeć będzie od tego jak odległe są one od siebie w dziedzinie częstotliwości. Jeśli tony te są dość odległe, tzn. mają częstotliwości równe np.100 Hz i 1000 Hz, to słuchacz wyraźnie usłyszy dwa oddzielne tony. Zatem ucho ludzkie może zachowywać się jak analizator rozkładający dźwięk złożony (w tym przypadku dwuton) na składowe tonalne. Naszą zdolność do takiego percepcyjnego rozłożenia dźwięku na składowe nazywa się rozdzielczością lub selektywnością częstotliwościową. Jeśli jednak składowe dwutonu mają zbliżone częstotliwości np. 1000 Hz i 1030 Hz, to słuchacz odbierze pewien dźwięk pośredni, będący mieszaniną dwóch tonów składowych. W tym przypadku rozdzielczość częstotliwościowa ucha jest niewystarczająca do rozdzielenia składowych dźwięku złożonego.

Gdy dwa tony są odległe w dziedzinie częstotliwości o kilka herców, to brzmią jak pojedynczy ton o fluktuującej głośności. U podstaw tych fluktuacji, nazywanych dudnieniami, leży zjawisko fizyczne polegające na wzmacnianiu i wygaszaniu amplitudy dwóch sinusoid, które nakładają się na siebie z różnymi fazami. Liczba dudnień występujących w czasie jednej sekundy jest równa różnicy częstotliwości tonów. Zatem w miarę wzrostu odstępu częstotliwości między tonami liczba dudnień wzrasta. Gdy odstęp ten jest większy od 20 Hz dudnienia przestają być słyszalne, a zamiast nich słychać „chropowaty”, niezbyt przyjemny dźwięk. Gdy odstęp częstotliwości w dwutonie jest nadal zwiększany, to wrażenie chropowatości najpierw nasila się, a następnie maleje. Przy dużej różnicy częstotliwości słyszalne stają się oba tony składowe. Najmniejszy odstęp częstotliwości dwóch tonów, przy którym stają się one słyszalne oddzielnie jest zależny od ich częstotliwości średniej (tzw. częstotliwości środkowej) i jest ściśle związany z selektywnością częstotliwościową. Jeśli częstotliwość środkowa wynosi np. 500 Hz – odstęp ten wynosi 35 Hz, gdy częstotliwość środkowa wynosi 5000 Hz – odstęp wynosi 700 Hz. Można więc na tej podstawie stwierdzić, że rozdzielczość częstotliwościowa nie jest stała i pogarsza się ze wzrostem częstotliwości środkowej dwóch tonów.

Gdy słuchamy dźwięku składającego się z wielu składowych, to znacznie trudniej jest nam usłyszeć wszystkie składowe, niż w przypadku dwutonu. Np. dla częstotliwości środkowej wielotonu równej 500 Hz, odstęp składowych umożliwiający usłyszenie każdej z nich jako oddzielnej wynosi 80 Hz, a dla częstotliwości środkowej równej 5000 Hz – odstęp ten wynosi 800 Hz.

21

Page 22: Psychoakustyka w Pigulce

Rozdzielczość częstotliwościowa jest fundamentalną właściwością naszego słuchu i przejawia się we wszystkich niemal aspektach percepcji dźwięku. Warto dodać, że nasz wzrok nie posiada zdolności do analizy światła: światło białe jest dla nas światłem białym, a nie zbiorem barw z których się ono składa.

2.2.2 Wstęga krytyczna, filtry słuchowe Z codziennego doświadczenia wiemy, że niekiedy pewne dźwięki dochodzące do nas

mogą być zagłuszane przez inne dźwięki. Zjawisko to nazywamy maskowaniem. Np. muzyka z radioodbiornika, jeśli jest odpowiednio głośna, może maskować cichą rozmowę. Miarą maskowania jest różnica pomiędzy poziomem dźwięku na progu jego słyszalności w warunkach maskowania i poziomem tego dźwięku na progu słyszalności wobec braku dźwięków zakłócających. Jedna z koncepcji tłumaczących zjawisko maskowania zakłada, że błona podstawna zachowuje się podobnie do analizatora dźwięku. Każdy jej punkt jest najbardziej wrażliwy na określoną częstotliwość dźwięku co pozwala stwierdzić, że zachowuje się on jak filtr pasmowoprzepustowy o określonej częstotliwości środkowej, paśmie przepuszczania i nachyleniu zboczy. Jeżeli więc sygnał maskowany i maskujący przypadają na ten sam filtr (a więc mają zbliżone częstotliwości) to by sygnał maskowany był słyszany musi mieć poziom bliski sygnałowi maskującemu. Jednak gdy częstotliwości sygnałów maskowanego i maskującego są znacząco różne, tak że przypadają na różne filtry, to niewielki poziom sygnału maskowanego, znacznie niższy niż poziom sygnału maskującego, wystarcza by go usłyszeć. Właściwości tych filtrów, nazywanych powszechnie filtrami słuchowymi, można wyznaczać w badaniach fizjologicznych (krzywe strojenia błony podstawnej) bądź też w badaniach psychofizycznych.

Większość psychofizycznych metod wyznaczania charakterystyk (lub kształtów) filtrów słuchowych bazuje na założeniu, że w przypadku maskowania tonu szerokim pasmem szumu słuchacz opiera swoją ocenę o filtr, w którym (i) stosunek mocy tonu do mocy szumu (tzw. stosunek sygnału do szumu) jest największy i że (ii) detekcja tonu na tle szumu następuje wtedy, gdy stosunek ten przekroczy pewną ustaloną wartość.

Wyznaczeniu kształtu filtru słuchowego, czyli jego charakterystyki, poświęcono wiele uwagi. Pierwsza hipoteza dotycząca kształtu filtru słuchowego pochodzi z lat czterdziestych a zaproponowana została przez Fletchera. Założył on, że filtr słuchowy ma kształt prostokąta. Filtr taki przepuszcza, bez wprowadzania jakichkolwiek modyfikacji, wszystkie składowe sygnału przypadające na jego pasmo przepustowe, natomiast składowe znajdujące się poza tym pasmem całkowicie tłumi. Fletcher mierzył próg detekcji sygnału sinusoidalnego w obecności pasma szumu maskującego o częstotliwości środkowej równej częstotliwości tonu. Gęstość widmowa mocy szumu, czyli innymi słowy poziom mocy szumu w każdym jego paśmie częstotliwości o tej samej szerokości, była jednakowa co oznacza, że w miarę zwiększania szerokości pasma szumu wzrastała całkowita moc szumu. Strukturę widmową sygnałów oraz rezultaty tego eksperymentu przedstawiono schematycznie na rys.11.

Na osi pionowej odłożono wartości progu detekcji tonu, a na osi poziomej - szerokość pasma szumu maskującego. Z rysunku tego widać, że początkowemu zwiększaniu szerokości pasma szumu towarzyszy wzrost progu detekcji. Jednak począwszy od pewnej szerokości pasma próg detekcji ustala się na pewnym poziomie i dalsze zwiększanie szerokości pasma, co wiąże się również ze wzrostem mocy sygnału maskującego, nie powoduje już zwiększenia progu detekcji tonu. Powyższy rezultat można zinterpretować w oparciu o założenie istnienia prostokątnych filtrów słuchowych: (i) słuchacz dokonuje detekcji tonu na tle szumu, wykorzystując filtr o częstotliwości środkowej zbliżonej do częstotliwości tonu, (ii) dopóki pasmo szumu maskującego mieści się w filtrze słuchowym, szum ten wpływa na próg

22

Page 23: Psychoakustyka w Pigulce

detekcji sygnału. Gdy szerokość pasma szumu wzrasta, lecz w dalszym ciągu nie przekracza szerokości filtru słuchowego o częstotliwości środkowej równej częstotliwości sygnału

Rys. 11. Schemat eksperymentu Fletchera: struktura widmowa sygnałów i uzyskany rezultat

zaproponowana została przez Fletchera. Założył on, że filtr słuchowy ma kształt prostokąta.

maskowanego, wzrasta również próg detekcji sygnału. Jednak gdy tylko szerokość pasma szumu przekroczy szerokość tego filtru słuchowego, to część szumu, która znalazła się poza filtrem przestaje wpływać na detekcję tonu i próg detekcji tonu przyjmuje stałą wartość. Na maskowanie tonu ma wpływ szum który „wypełnił” filtr i nie ma wpływu ta część szumu, która znalazła się poza filtrem. Zatem dalsze zwiększanie szerokości pasma szumu, pomimo że związane jest ze wzrostem całkowitej mocy szumu, nie powoduje wzrostu progu detekcji tonu. Szerokość pasma szumu o częstotliwości środkowej równej częstotliwości tonu przy której próg detekcji tonu przestaje wzrastać nazywa się wstęgą krytyczną. Wstęga krytyczna odpowiada szerokości prostokątnego filtru słuchowego.

Koncepcja prostokątnych filtrów słuchowych dość dobrze wyjaśnia rezultaty eksperymentów dotyczących maskowania tonów przez sygnały szerokopasmowe. Jednak w odniesieniu do innych typów sygnałów maskujących nie sprawdza się. Dowodem na to jest przebieg tzw. audiogramów maskowania przedstawionych na rys.12, ilustrujących progi maskowania tonu za pomocą pasma szumu o częstotliwości środkowej 410 Hz, szerokości spektralnej 90 Hz i o różnych poziomach natężenia.

Rys. 12. Audiogramy maskowania. Parametrem jest poziom pasma szumu maskującego

23

Page 24: Psychoakustyka w Pigulce

Próg detekcji tonu maskowanego pasmem szumu jest najwyższy gdy częstotliwość tonu jest zbliżona do częstotliwości środkowej maskującego pasma szumu. Audiogramy maskowania mają zaokrąglone wierzchołki i zbocza nachylone pod pewnymi kątami. Taki przebieg audiogramów maskowania wyklucza wykorzystywanie przez słuchacza jednego prostokątnego filtru słuchowego. Gdyby filtry słuchowe były prostokątne, to audiogramy maskowania musiałyby mieć zupełnie inny kształt: efekt maskowania byłby obserwowany tylko wówczas, gdy pasmo częstotliwości obejmowane przez sygnał maskujący pokrywałoby się, choć częściowo, z pasmem przepustowym (prostokątnego) filtru słuchowego o częstotliwości środkowej równej częstotliwości tonu. W przypadku gdy zachodzenie na siebie tych pasm nie występuje próg maskowania powinien być równy progowi słyszalności przy braku jakichkolwiek innych dźwięków maskujących.

Należy zauważyć, że dla wyższych poziomów sygnału maskującego nachylenie audiogramów maskowania po stronie dużych częstotliwości zmniejsza się. Oznacza to, że pasmo szumu maskującego zawierające małe częstotliwości o dość dużych poziomach może efektywnie maskować tony o dużych częstotliwościach. Np. pasmo szumu o szerokości 90 Hz i częstotliwości środkowej 410 Hz oraz o poziomie 80 dB, zastosowane w opisanym eksperymencie, maskuje tony o częstotliwościach dochodzących do 3000 Hz. Zjawisko to nazywane jest poszerzeniem maskowania na duże częstotliwości. Audiogramy maskowania uzyskane przy użyciu tonalnych sygnałów maskujących są podobne do przedstawionych na rys.12, lecz rezultaty są zaburzone przez dudnienia które występują wtedy, gdy częstotliwości sygnału maskującego i maskowanego są zbliżone. W tym przypadku słuchacz nie słyszy sygnału maskowanego jako takiego, lecz percypuje dudnienia, a w audiogramie maskowania obserwuje się lokalne minimum w otoczeniu częstotliwości sygnału maskowanego. Aby uniknąć tego problemu stosuje się wąskie pasmo szumu jako sygnał maskujący ponieważ zewnętrzne fluktuacje amplitudy takiego pasma szumu wykluczają wykorzystanie dudnień jako czynnika umożliwiającego detekcję.

Niezależnie od dość znacznego uproszczenia kształtu filtru słuchowego i związanych z tym konsekwencji, koncepcja wstęg krytycznych jest w dalszym ciągu szeroko stosowana, a wyznaczeniu szerokości wstęg krytycznych poświecono w latach 1950-70 wiele uwagi. Ich podsumowaniem jest zależność zaproponowana przez Scharfa przedstawiona na rys.15 linią przerywaną. Wstęgi krytyczne mają szerokość stałą (równą 100 Hz) dla częstotliwości środkowych mniejszych od 500 Hz. Dla częstotliwości większych od 500 Hz szerokość wstęgi krytycznej wzrasta ze wzrostem częstotliwości: przyjmuje się, że szerokość ta jest równa ok. 17 % częstotliwości środkowej.

Rys. 13. Psychofizyczne krzywe strojenia. Współrzędne kropek opisują częstotliwość i

poziom maskowanych tonów. Linią przerywaną zaznaczono próg absolutny

24

Page 25: Psychoakustyka w Pigulce

Choć audiogramy maskowania przedstawione na rys.12 dają pewne wyobrażenie o rzeczywistym kształcie filtru słuchowego, nie można ich wykorzystać do dokładnego wyznaczenia kształtu tego filtru ponieważ w rzeczywistości dla każdej częstotliwości sygnału maskowanego ocena słuchacza oparta była o filtr o innej częstotliwości środkowej, a kształt tego filtru może zmieniać się wraz ze zmianą częstotliwości. Aby ominąć tę trudność stosuje się metodę polegającą na wyznaczeniu tzw. psychofizycznych krzywych strojenia. W celu wyznaczenia krzywej strojenia ustala się poziom tonu maskowanego, zazwyczaj bardzo niski, wynoszący np. 10 dB powyżej progu słyszalności tego sygnału dla danego słuchacza i dla każdej z kilku częstotliwości sygnału maskującego (zazwyczaj wąskie pasmo szumu) dobiera się jego poziom tak, by zaledwie maskować ton. Ponieważ poziom tonu jest bardzo niski to zakłada się, że ton ten pobudza tylko jeden filtr słuchowy o częstotliwości środkowej równej częstotliwości tonu. Zakłada się także, że na progu detekcji tonu sygnał maskujący wywołuje stałą odpowiedź tego filtru, wystarczającą by maskować stały ton. Zatem psychofizyczne krzywe strojenia wskazują jaki powinien być poziom sygnału maskującego w funkcji częstotliwości, aby wywołać stałą odpowiedź filtru słuchowego. Zazwyczaj charakterystykę filtru określa się odwrotnie tzn. wykreślając zależność sygnału wyjściowego od sygnału wejściowego o zmiennej częstotliwości i ustalonym poziomie. W przypadku filtru liniowego obie metody dają ten sam rezultat. Dlatego przyjmując założenie liniowości, kształt filtru słuchowego można uzyskać poprzez odwrócenie psychofizycznej krzywej strojenia. Przykładowe psychofizyczne krzywe strojenia przedstawiono na rys.13.

Charakterystykę prostokątnego filtru słuchowego zaproponowanego przez Fletchera wyczerpująco opisywała jedna liczba wyrażająca szerokość jego pasma przepustowego (albo szerokość wstęgi krytycznej). Kształtu filtru słuchowego wyznaczonego na podstawie psychofizycznej krzywej strojenia nie można opisać w podobny sposób, ponieważ nie wiadomo na jakiej wysokości charakterystyki zmierzyć szerokość. Szerokość tę mierzy się często pomiędzy punktami na charakterystyce filtru, w których odpowiedź filtru zmniejsza się o 3 decybele, względem swojego maksimum. Tak wyznaczoną szerokość pasma przepustowego filtru nazywa się czasem szerokością pasma trzydecybelowego. Pasmo trzydecybelowe filtrów słuchowych stanowi kilkanaście procent częstotliwości środkowej filtru i bywa dość rzadko stosowaną wielkością.

Alternatywną metodę wyznaczenia charakterystyki filtru słuchowego opisał Patterson. Oparta jest ona o wyznaczenie progów maskowania tonu za pomocą sygnału maskującego złożonego z dwóch pasm szumu, co schematycznie przedstawiono na rys.14a. Ton maskowany (zaznaczony grubą pionową linią) ma stałą częstotliwość, a sygnałem maskującym jest szum pasmowozaporowy, którego częstotliwość środkowa jest równa częstotliwości sygnału. Odstęp częstotliwości pomiędzy każdym ze zboczy szumu a częstotliwością środkową pasma zaporowego jest oznaczony przez ∆f. Zmieniając szerokość pasma zaporowego wyznacza się próg detekcji sygnału jako funkcję szerokości zaporowego szumu. Ponieważ pasmo zaporowe jest usytuowane symetrycznie względem częstotliwości sygnału, to metoda ta nie pozwala na wykrycie ewentualnej asymetrii filtru słuchowego, a w dalszej analizie zakłada się, że filtr jest symetryczny w liniowej skali częstotliwości. Założenie to nie jest pozbawione podstaw, przynajmniej dla szczytowej części filtru i dla średnich poziomów dźwięku, ponieważ psychofizyczne krzywe strojenia są symetryczne w obrębie swoich maksimów. Dla sygnału usytuowanego w środku symetrii pasma zaporowego szumu, optymalny stosunek sygnału do szumu uzyskuje się na wyjściu tego filtru słuchowego, którego częstotliwość środkowa jest równa częstotliwości sygnału, co pokazano na rys. 14a.

25

Page 26: Psychoakustyka w Pigulce

Rys. 14. Schemat metody Pattersona wyznaczania kształtu filtru słuchowego oraz przykładowa charakterystyka

takiego filtru

Gdy szerokość zaporowego pasma szumu wzrasta, to przez filtr słuchowy przechodzi coraz mniej szumu i dlatego próg detekcji sygnału maleje. Ilość szumu przechodzącego przez filtr słuchowy jest proporcjonalna do powierzchni zawartej pod krzywą kształtu filtru w zakresie częstotliwości obejmowanych przez szum. Na rys.14 ilustrują to zakreskowane obszary. Jeśli założy się, że próg odpowiada stałemu ilorazowi sygnału do szumu na wyjściu filtru słuchowego, to zmiana progu detekcji sygnału ze zmianą szerokości pasma zaporowego będzie wyrażona poprzez zmianę powierzchni pod krzywą filtru w zależności od ∆f. Typowy filtr słuchowy otrzymany za pomocą metody szumu pasmowozaporowego przedstawiono na rys.14b. Filtr ten ma zaokrąglony wierzchołek i dość strome zbocza. W odróżnieniu od filtru prostokątnego, nie można opisać go za pomocą jednej liczby. Można jednak posłużyć się opisanym przy psychofizycznych krzywych strojenia pasmem trzydecybelowym. Pasma

Rys. 15. Zależność szerokości wstęg krytycznych od częstotliwości. Linia przerywana

przedstawia„tradycyjne” szerokości wstęg, linia ciągła – ekwiwalentne szerokości prostokątne (ERB) filtru słuchowego

trzydecybelowe filtrów słuchowych wyznaczonych za pomocą metody Pattersona mają zwykle szerokość od 10 do 15 % częstotliwości środkowej. Szerokość filtru słuchowego wyraża się dość często za pomocą tzw. ekwiwalentnej szerokości prostokątnej, ERB. Jest ona liczbowo równa szerokości idealnego prostokątnego filtru o wartości transmitancji równej maksymalnej transmitancji filtru słuchowego, przy czym moc przechodzącego szumu przez

26

Page 27: Psychoakustyka w Pigulce

ten filtr jest równa mocy szumu przechodzącego przez filtr słuchowy. Przebieg zależności ekwiwalentnej szerokości filtrów słuchowych od częstotliwości jest opisany za pomocą następującej zależności:

)137.4(7.24 += FERBgdzie F jest częstotliwością środkową filtru wyrażoną w kHz, i jest w pełni udokumentowany w przedziale częstotliwości od 80 do 12000 Hz, a zilustrowano go na rys. 15 linią ciągłą.

Zasadnicza różnica pomiędzy szerokościami wstęg krytycznych a ekwiwalentnymi szerokościami filtrów słuchowych dotyczy częstotliwości mniejszych od 500 Hz. Wstęgi krytyczne są ok. trzykrotnie szersze niż ekwiwalentna szerokość filtrów słuchowych dla częstotliwości 100-120 Hz. Różne przebiegi szerokości wstęg krytycznych i filtrów słuchowych w zależności od częstotliwości sugerują, że w tym zakresie częstotliwości modele te nie są zgodne. Dla częstotliwości większych niż 500 Hz szerokości wstęg krytycznych są generalnie większe niż ekwiwalentna szerokość filtrów słuchowych. Jednak w przedziale częstotliwości 500-5000 Hz iloraz tych miar szerokości filtru słuchowego jest w przybliżeniu stały i osiąga wartość ok. 1.22-1.5 co pozwala stwierdzić, że w tym przedziale częstotliwości oba modele są zgodne. Warto pamiętać, że zarówno wstędze krytycznej jak i ekwiwalentnej szerokości prostokątnej filtru słuchowego odpowiada stały odcinek na błonie podstawnej o długości ok. 1 mm.

Metodę Pattersona można rozszerzyć na przypadek, w którym pasmo zaporowe szumu nie jest symetryczne względem częstotliwości sygnału. Pozwala to na pomiar dowolnej asymetrii filtru słuchowego, choć analiza uzyskanych w ten sposób rezultatów jest trudniejsza. Z tego powodu pominiemy dokładny opis. Wyniki badań pokazują, że filtry słuchowe są względnie symetryczne dla średnich poziomów dźwięku ale stają się coraz bardziej niesymetryczne dla wysokich poziomów: po stronie małych częstotliwości są mniej strome niż po stronie dużych częstotliwości. Kształt filtru słuchowego o częstotliwości środkowej 1 kHz dla poziomów dźwięku od 20 do 90 dB SPL przedstawiono na rys. 16.

Rys. 16. Kształt filtru słuchowego o częstotliwości 1 kHz dla poziomów ciśnienia

akustycznego 20 (wewnętrzna krzywa), 30, 40, 50, 60, 70, 80 i 90 dB (zewnętrzna krzywa)

Przedstawione dotychczas rozważania dotyczyły analizy funkcjonowania słuchu na przykładzie wykorzystania jednego filtru. Choć zakładano, że każdorazowo decyzja słuchacza oparta jest o jeden filtr, to w rzeczywistości korzystamy zazwyczaj z wielu filtrów słuchowych jednocześnie. Przykładem bodźców, które wywołują aktywność wielu filtrów słuchowych może być np. muzyka czy mowa, które są sygnałami o paśmie znacznie szerszym

27

Page 28: Psychoakustyka w Pigulce

niż jedna wstęga krytyczna. Ponadto percepcja barwy dźwięku wydaje się zależeć, przynajmniej częściowo, od rozkładu aktywności różnych filtrów słuchowych a detekcja sygnału w warunkach maskowania często zależy od wyniku porównania sygnałów wyjściowych z różnych filtrów słuchowych.

Innym nasuwającym się pytaniem jest to, czy istnieje skończona liczba sąsiadujących ze sobą wstęg krytycznych, czy też ciąg nakładających się na siebie takich wstęg. Scharf np. przedstawił tablicę, w której zawarł 24 następujące po sobie wstęgi krytyczne. Górna częstotliwość graniczna każdej wstęgi była jednocześnie dolną częstotliwością graniczną następnej wstęgi krytycznej o większej częstotliwości środkowej, co sugerować może istnienie skończonej liczby wstęg krytycznych. Pomimo, że taka metoda prezentacji wyników jest bardzo wygodna, to wydaje się jednak dość pewne, że wstęgi krytyczne mają charakter ciągły, a nie dyskretny. Nie istnieje bowiem żaden dowód eksperymentalny na istnienie nieciągłości lub przerwy pomiędzy wstęgami krytycznymi. Dlatego możemy mówić o wstędze krytycznej wokół dowolnej częstotliwości z zakresu słyszalnego.

Obliczając progi dla najgłośniejszych składowych dźwięku maskowanego dość często można przewidzieć, czy sygnał złożony prezentowany na tle szumu szerokopasmowego będzie spostrzegany czy też nie. Znając kształty filtrów słuchowych o częstotliwościach środkowych równych częstotliwościom składowych sygnału można wyliczyć stosunek sygnału do szumu na wyjściu każdego z takich filtrów. Jeśli stosunek ten dla dowolnego filtru przekroczy pewną wartość krytyczną, to sygnał zostanie spostrzeżony. Dla średnich częstotliwości krytyczna wartość stosunku sygnału do szumu wynosi 1:2,5 lub -4 dB. Dzięki temu można obliczyć poziomy różnych sygnałów ostrzegawczych tak, by z jednej strony były one wyraźnie słyszane, a z drugiej nie utrudniały komunikowania się.

2.2.3 Percepcja barwy Barwa może być zdefiniowana jako ten atrybut wrażenia dźwiękowego, który

umożliwia rozróżnienie głosów różnych osób lub tych samych nut granych na różnych instrumentach. W odróżnieniu od wysokości i głośności, które są jednowymiarowe, barwa jest wielowymiarowa; nie istnieje jedna skala względem której można by porównywać barwę różnych dźwięków. Barwa dźwięku określona w podany sposób zależy od kilku fizycznych cech tego dźwięku wśród których należy wymienić rozkład jego energii w dziedzinie częstotliwości, zmiany tego rozkładu w czasie oraz charakter dźwięku tzn. czy jest periodyczny i wytwarza wrażenie tonu o częstotliwości z zakresu słyszalnego, lub czy jest to dźwięk nieregularny wytwarzający wrażenie szumu. Zasadnicze znaczenie dla barwy dźwięku, zwłaszcza w odniesieniu do instrumentów muzycznych, ma sposób prezentacji dźwięku tzn. czy jest on prezentowany w sposób ciągły czy z przerwami oraz sposób włączania i wyłączania dźwięku: szybkie narastanie dźwięku w początkowej jego fazie ma zupełnie inną barwę niż narastanie powolne.

Dla ciągłych dźwięków periodycznych można przytoczyć uściśloną definicję barwy podaną przez Amerykańską Organizację Normalizacyjną mówiącą, że „barwa dźwięku jest tym atrybutem wrażenia słuchowego względem którego słuchacz może ocenić dwa stałe w czasie dźwięki złożone o tej samej głośności, wysokości i czasie trwania jako niepodobne”. Barwa zdefiniowana w ten sposób zależy głównie od względnych amplitud poszczególnych składowych widmowych dźwięków złożonych. Np. dźwięki zawierające głównie duże częstotliwości mają „ostrą” barwę a dźwięki w których dominują częstotliwości małe brzmią „głucho”. Rozróżnianie barwy jest kolejnym dowodem na to, że ucho działa jak analizator widmowy. Składowe dźwięku złożonego są częściowo rozdzielane przez filtry słuchowe, a rozkład aktywności tych filtrów w funkcji ich częstotliwości środkowej determinuje barwę.

28

Page 29: Psychoakustyka w Pigulce

2.2.4 2.2.4. Zależność pomiędzy selektywnością częstotliwościową a głośnością Od dość dawna wiadomo, że gdy całkowite natężenie dźwięku złożonego jest stałe, to

wrażenie głośności jakie ten dźwięk wywołuje zależy od zakresu częstotliwości na jaki przypadają jego składowe. Rozważmy jako przykład szum, którego całkowite natężenie jest stałe a szerokość pasma zmienia się. Głośność tego szumu można określić pośrednio, prosząc słuchacza o dopasowanie głośności tonu o częstotliwości równej częstotliwości środkowej pasma szumu tak, aby oba dźwięki były jednakowo głośne. Gdy szerokość pasma szumu jest mniejsza od szerokości filtru słuchowego, to głośność tego dźwięku jest w przybliżeniu niezależna od szerokości pasma. Dźwięk ten jest oceniany jako jednakowo głośny z tonem o takim samym natężeniu i o częstotliwości równej częstotliwości środkowej pasma tego dźwięku. Jeśli jednak szerokość pasma szumu będzie zwiększana ponad szerokość pasma przepustowego filtru słuchowego, to głośność dźwięku złożonego zacznie wzrastać. Efekt ten przedstawiono na rys.17; parametrem krzywych jest natężenie pasma szumu. Wzrost głośności towarzyszący poszerzaniu pasma szumu można wyjaśnić gdy założy się, że jeśli pasmo szumu rozciąga się na więcej niż jeden filtr słuchowy to następuje sumowanie głośności ze wszystkich filtrów które zajmuje sygnał.

Rys. 17. Poziom głośności (w fonach) pasma szumu o częstotliwości środkowej 1 kHz

wykreślony jako funkcja szerokości jego pasma. Dla każdej z krzywych całkowity poziom dźwięku (podany w dB SPL nad każdą krzywą) był stały. Linia przerywana wskazuje, że początek wzrostu

głośności przypada dla tej samej szerokości pasma bodźca dla wszystkich poziomów (z wyjątkiem najniższego poziomu, dla którego nie zaobserwowano wzrostu głośności)

Rozważmy pasmo szumu o szerokości równej szerokości pasma przepustowego filtru słuchowego o częstotliwości środkowej równej częstotliwości środkowej pasma szumu. Poszerzmy to pasmo dwukrotnie utrzymując przy tym stałą wartość natężenia. W tym przypadku szum pokryje dwa filtry słuchowe, a natężenie w każdym z tych filtrów będzie równe połowie natężenia wyjściowego. Zgodnie z prawem Stevensa, L kI= 0 3. , zmniejszenie natężenia o połowę prowadzi do zmniejszenia głośności do 0,81 jej wartości początkowej. Całkowita głośność pochodząca od dwóch filtrów będzie 2 x 0,81 = 1,62 razy większa od głośności szumu pokrywającego jeden filtr. Zatem zwiększanie szerokości pasma szumu ponad szerokość filtru słuchowego prowadzi do zwiększenia głośności. Dla małych poziomów prawo Stevensa przestaje obowiązywać; głośność zmienia się w przybliżeniu

29

Page 30: Psychoakustyka w Pigulce

proporcjonalnie do natężenia dźwięku i prawie nie obserwuje się zmiany głośności dla zwiększającej się szerokości pasma szumu, co widać na rys.17.

2.3 Percepcja wysokości

2.3.1 Wysokość tonów. Skalowanie wysokości Wysokość definiuje się jako ten atrybut wrażenia słuchowego względem którego

dźwięki można uporządkować na skali muzycznej. Innymi słowy zmiany wysokości wywołują wrażenie melodii. Ponieważ wysokość jest atrybutem subiektywnym, to nie można jej mierzyć bezpośrednio. Przyporządkowanie pewnemu dźwiękowi wysokości rozumiane jest jako wskazanie częstotliwości tonu mającego subiektywnie taką samą wysokość co rozpatrywany dźwięk. Dla sygnałów sinusoidalnych (tonów) wysokość jest ściśle związana z ich częstotliwością: im większa jest częstotliwość tym większa jest wysokość.

Poprzez analogię do skalowania głośności podejmowano próby skalowania wysokości dźwięków i zaproponowano by jednostką wysokości był mel. Pierwszą skalę tego typu wprowadził Stevens w 1937 roku przyjmując za dźwięk odniesienia ton o częstotliwości 1000 Hz i przypisując mu arbitralnie wysokość 1000 meli. Wysokość innych dźwięków określano w odniesieniu do tego dźwięku odniesienia. Np. dźwięk dwa razy wyższy ma 2000 meli, dźwięk o połowę niższy - 500 meli. Skonstruowaną w ten sposób skalę przedstawiono linią ciągłą na rys.18. Nachylenie krzywej wyrażającej wysokość tonu w melach do osi odciętych (częstotliwości) jest mniejsze niż nachylenie powszechnie stosowanej skali muzycznej (linia przerywana na rys. 18). Np. pasmo obejmujące trzy oktawy 200-1600 Hz (o stosunku częstotliwości jak 1:8) ma stosunek najmniejszej do największej wysokości (w melach) jak

Rys.18. Porównanie skali meli (linia ciągła) i skali muzycznej (linia przerywana)

1:4,3. Wysokość wyrażona w melach wzrasta w ogólności ze wzrostem częstotliwości do ok. 5000 Hz, przy czym interwał oktawy dla małych częstotliwości jest percepcyjnie mniejszy niż interwał oktawy dla dużych częstotliwości. Np. dla oktawy (100-200) Hz różnica wysokości wynosi 300-160=140 meli, a dla oktawy 1-2 kHz różnica ta wynosi 1550-1000=550 meli.

Zwicker zaproponował inną skalę meli w której przyjął, że tonowi o częstotliwości 125 Hz odpowiada 125 meli. Zakres tej skali wynosi 2400 meli tak, że każdym 100 melom odpowiada jedna wstęga krytyczna. Przyjęcie tych wartości miało na celu powiązanie wysokości z danymi fizjologicznymi dotyczącymi położenia maksimum drgań błony

30

Page 31: Psychoakustyka w Pigulce

podstawnej. Ponieważ każda wstęga krytyczna odpowiada stałemu odcinkowi błony podstawnej, to w ten sposób próbowano połączyć wysokość dźwięku z odległością miejsca maksymalnego pobudzenia od okienka owalnego. Jednak o ile szerokość wstęgi krytycznej koresponduje z jej częstotliwością środkową (czy też z odległością od okienka owalnego) to związek pomiędzy wysokością a odległością na błonie podstawnej nie jest tak oczywisty i ma charakter bardziej spekulatywny.

Wyrażanie wysokości w melach poddawano krytyce głównie ze względu na to, że jednostki te są nieprzydatne w określaniu wysokości dźwięków muzycznych. Z jednej strony różnym oktawom przypisuje różne wartości wysokości w melach, podczas gdy w rzeczywistości relacje między interwałami muzycznymi nie zależą od wysokości oktawy. Z drugiej strony kontrast percepcyjny między tonami o częstotliwościach 200 i 1000 Hz jest oceniany jako większy od kontrastu miedzy tonami o częstotliwościach 200 i 100 Hz, co z resztą poprawnie opisuje wysokość wyrażona w melach. Paradoks ten można wyjaśnić przyjmując, że wysokość dźwięku jest dwuwymiarowa. Jednym z jej wymiarów jest wysokość tonalna, a drugim wysokość muzyczna. Jest oczywiste, że opis wysokości dźwięków za pomocą meli znajduje zastosowanie tylko w odniesieniu do wysokości tonalnej i że nie może być stosowany do wysokości muzycznej.

2.3.2 Teorie percepcji wysokości Klasyczne teorie percepcji dźwięku opisują mechanizm leżący u podstaw percepcji

wysokości i detekcji zmian częstotliwości. Jedna z tych teorii, tzw. teoria miejsca (lub tzw. teoria lokalizacyjna) postuluje, że wysokość jest związana z rozkładem aktywności różnych punktów błony podstawnej i wynikającym z tego rozkładem aktywności włókien nerwowych nerwu słuchowego o różnych częstotliwościach charakterystycznych. Ton o ustalonej częstotliwości wywołuje maksymalną aktywność tych włókiem nerwowych, które unerwiają komórki rzęskowe w najaktywniejszych miejscach błony podstawnej. Zakłada się, że „położenie” tego maksimum określa wysokość całego dźwięku. Zmiany częstotliwości są wykrywane w oparciu o te miejsca w których aktywność ta zmienia się najbardziej. Teoria miejsca napotyka znaczne trudności w wyjaśnieniu wysokości bardzo głośnych dźwięków. W rzeczywistości wysokość ta nieznacznie tylko zależy od poziomu (głośności) dźwięku. Jednak bezpośrednie obserwacje wychylenia błony podstawnej świadczą o tym, że położenie punktu maksymalnego jej wychylenia przesuwa się dla bardzo głośnych dźwięków aż o pół oktawy w kierunku małych częstotliwości. Przyjmując zatem teorię miejsca, można by oczekiwać znaczącej zmiany wysokości dźwięków wywołanej wzrostem ich natężenia. Takiego przesunięcia wysokości nie obserwuje się jednak psychofizycznie.

Alternatywą do przedstawionej teorii miejsca jest tzw. teoria czasowa sugerująca, że wysokość bodźca akustycznego ma związek z czasowym przebiegiem impulsów neuronowych wywołanych przez ten bodziec. Wyładowania neuronów mają tendencję do pojawiania się dla ściśle określonej fazy fali pobudzającej, choć nie występują dla każdego okresu fali pobudzającej. Zatem interwały czasowe pomiędzy kolejnymi impulsami w neuronie są całkowitymi wielokrotnościami okresu fali wymuszającej (zjawisko to nazywa się synchronicznością fazową). W przypadku, gdy sygnałem jest ton zakłada się, że na pewnym piętrze drogi słuchowej określany jest najczęściej powtarzający się przedział czasu pomiędzy impulsami. Odwrotność najkrótszego z tych powtarzających się przedziałów czasu wskazuje na częstotliwość tonu. Warto jednak dodać, że mechanizm związany z synchronicznością fazową jest powolny w pewnym sensie: aby dostarczył on precyzyjnej informacji dotyczącej częstotliwości sygnału trzeba by sygnał był stały (nie zmieniał częstotliwości) w pewnym przedziale czasu.

31

Page 32: Psychoakustyka w Pigulce

Rys. 19. Wartość progów różnicowych częstotliwości dwóch tonów w zależności od ich

częstotliwości środkowe Teoria czasowa nie znajduje potwierdzenia dla sygnałów sinusoidalnych o bardzo

dużej częstotliwości ponieważ synchroniczność fazowa nie występuje dla częstotliwości większych od 5 kHz. Nie stanowi to jednak poważniejszego problemu ponieważ dźwięki wytwarzane przez instrumenty muzyczne, ludzki głos oraz większość dźwięków spotykanych w codziennym życiu mają częstotliwości podstawowe mniejsze od 5 kHz.

Podstawowym zadaniem dla każdej teorii słyszenia jest wyjaśnienie niezwykle dobrej zdolności do rozpoznawania tonów różniących się częstotliwością, czyli niezwykle małych wartości tzw. progów różnicowych częstotliwości (lub progów dyskryminacji częstotliwości), których przebiegi pokazano rys.19.

Dwa tony prezentowane kolejno po sobie, trwające 500 ms każdy, których częstotliwości są zbliżone do 1 kHz i których poziomy ciśnienia dźwięku wynoszą 60-70 dB SPL są rozróżniane, gdy różnica ich częstotliwości wynosi ok. 2-3 Hz. Teoria lokalizacyjna nie potrafi wyjaśnić tego faktu w oparciu o selektywność filtrów słuchowych (jest ona zbyt mała, aby pozwoliła na rozseparowanie tonów różniących się częstotliwością o kilka herców). Z rys.19 wynika również, że dyskryminacja zmian częstotliwości pogarsza się znacznie dla tonów o częstotliwościach większych od 4-5 kHz. Również tego faktu nie można wyjaśnić w oparciu o teorię miejsca. Małe wartości progów różnicowych częstotliwości i pogorszenie dyskryminacji częstotliwości dla częstotliwości większych od 4-5 kHz można natomiast wyjaśnić w oparciu o teorię czasową. Jeśli czas trwania każdego z rozróżnianych tonów nie jest zbyt krótki, to informacja zawarta w odstępach czasowych pomiędzy impulsami w neuronach słuchowych stanowi bardzo dobrą podstawę do rozróżniania tych sygnałów. Dlatego też tam, gdzie synchroniczność fazowa dostarcza precyzyjnej informacji o częstotliwości dźwięku progi dyskryminacji częstotliwości są bardzo małe. Natomiast dla częstotliwości większych od 5 kHz impulsy neuronów nie są już zsynchronizowane z fazą tonu w związku z czym informacja o częstotliwości jest niejednoznaczna. Progi różnicowe osiągają w związku z tym większe wartości.

Badania dotyczące percepcji interwałów muzycznych również wskazują na to, że mechanizm odpowiedzialny za dyskryminację częstotliwości zmienia się po zwiększeniu częstotliwości ponad 4-5 kHz. Dla częstotliwości mniejszych od 4 kHz sekwencja tonów wywołuje wrażenie melodii; dla częstotliwości większych od 4-5 kHz wrażenie melodii zanika choć zmiany częstotliwości są w dalszym ciągu słyszalne.

32

Page 33: Psychoakustyka w Pigulce

Oba opisane mechanizmy, czasowy i miejsca, nie wykluczają się wzajemnie. Wydaje się, że mechanizm lokalizacyjny obowiązuje w całym zakresie częstotliwości słyszalnych, a mechanizm synchroniczności fazowej (teoria czasowa) „wspomaga” go znacząco w zakresie częstotliwości do 4-5 kHz.

2.3.3 Wysokość dźwięków złożonych W ogólności każdy dźwięk złożony, którego częstotliwość powtarzania leży w

zakresie częstotliwości 20-20000 Hz może mieć wysokość. O ile w przypadku tonów wysokość związana jest z ich częstotliwością, to w przypadku dźwięków złożonych wysokość związana jest z częstotliwością powtarzania fali dźwiękowej. W przypadku periodycznego dźwięku złożonego odpowiada jego częstotliwości podstawowej. Określenie wysokości dźwięku złożonego polega na przyporządkowaniu mu tonu mającego tę samą wysokość co dźwięk złożony. Teorie opisujące wysokość dźwięków złożonych zmieniały się znacznie na przestrzeni lat i stawały się coraz bardziej złożone. Przed ich przedstawieniem warto jednak zapoznać się z tymi podstawowymi właściwościami dźwięków złożonych, które są istotne dla określenia ich wysokości. Dźwięki periodyczne mogą być rozłożone na składowe sinusoidalne zawierające składową podstawową i szereg składowych harmonicznych, których częstotliwości są wielokrotnościami składowej podstawowej. Np. krótki impuls powtarzający się 200 razy w ciągu jednej sekundy ma składową podstawową o częstotliwości 200 Hz i harmoniczne o częstotliwościach 400, 600, 800, ..., itd. Hz. Wysokość takiego dźwięku jest podobna do wysokości tonu o częstotliwości 200 Hz, co ilustruje górny wiersz rys.20. Zatem która z fizycznych cech tego dźwięku ma największe znaczenie w wywoływaniu wrażenia wysokości? Nasuwająca się w pierwszej chwili myśl, że jest to składowa o częstotliwości 200 Hz, nie jest poprawna. Można mianowicie składową tę usunąć (odfiltrować) lub zamaskować odpowiednio dobranym szumem, a wysokość takiego dźwięku pozostanie niezmieniona (patrz drugi od góry wiersz na rys.20). Zjawisko to nazywa się słyszeniem nieobecnej składowej podstawowej, ponieważ pomimo braku składowej o częstotliwości 200 Hz (a więc składowej podstawowej) wysokość tego odfiltrowanego dźwięku w dalszym ciągu jest taka jak tonu o tej częstotliwości. Wrażenie wysokości pozostaje prawie niezmienione nawet wtedy, gdy dźwięk zostanie odfiltrowany w ten sposób, że pozostanie w nim tylko kilka składowych harmonicznych o dużych częstotliwościach np. 800, 1000 i 1200 Hz, co przedstawia trzeci od góry wiersz na rys.20. Koncepcja, według której wysokość zależy od odstępu częstotliwościowego harmonicznych jest również niepoprawna. Można to wykazać przesuwając częstotliwości składowe, które pozostały po odfiltrowaniu, o stałą wartość, np. o 10 Hz, tak aby harmoniczne miały częstotliwości 810, 1010 i 1210 Hz. Wysokość takiego dźwięku jest inna (mniej jednoznaczna, zwykle wyższa w odczuciu słuchaczy) niż wysokość dźwięku rozpatrywanego poprzednio, choć odległości między składowymi obu dźwięków w dziedzinie częstotliwości są nadal takie same.

Rozważmy teraz możliwość, że wysokość jest związana ze strukturą czasową bodźca. Pamiętajmy, że każdy dźwięk dochodzący do ucha zostaje poddany w uchu działaniu mechanizmu filtrującego, w wyniku którego efektywny sygnał dochodzący do każdego z neuronów nerwu słuchowego jest pasmowo przefiltrowanym sygnałem wejściowym. Szerokość pasma przepustowego filtru słuchowego wzrasta wraz ze zwiększeniem jego częstotliwości środkowej, lecz częstotliwościowy odstęp składowych pozostaje stały. Harmoniczne dźwięku złożonego o małych częstotliwościach zostaną przez taki układ filtrów rozseparowane i każda z tych składowych pobudzi inny filtr słuchowy. Jednak składowe o większych częstotliwościach (od 6000 do 8000 Hz) nie zostaną całkowicie rozdzielone i będą

33

Page 34: Psychoakustyka w Pigulce

0.2 0.6 1.0 1.4 1.8 2.2 2.6 ....... f, kHz

0.8 1.0 1.2 f, kHz

Amplituda

0.2 0.6 1.0 1.4 1.8 2.2 2.6 ....... f, kHz

min

1T

f∆

=Odstępy czasowe, w mil

d

F= 800 Hz ∆T= 1.25 2F=1000 Hz ∆T= 1.00 2F=1200 Hz ∆T= 0.83 1

Rys.20. Ilustracja zjawiska wysokości wirtualnej. Górna część rysunku prezentuje schwysokości a dolna – impulsy i odstępy czasowe pomiędzy nimi jakie

WYSOODPOWI

200

WYSOODPOWI

200

WYSOODPOWI

200

isekundach, obsela tonów o różnyc

.50 3.75 5.00

.00 3.00 4.00

.66 2.50 3.33

ematycznie widm można zaobserw

KOŚĆ ADAJĄCA Hz

KOŚĆ ADAJĄCA

Hz

Wysokość Wirtualna

KOŚĆ ADAJĄCA

Hz|

rwowane pomiędzy impulsami neuronowymi h częstotliwościach:

6.25 7.50 8.75 ..... 5.00 7.00 8.00 ..... 4.16 5.00 5.83 ......

200 Hz

a sygnałów harmonicznych i odpowiadające im ować w neuronach.

34

Page 35: Psychoakustyka w Pigulce

uaktywniać te same filtry. Przebiegi drgań błony podstawnej odpowiadające wyższym harmonicznym nakładają się częściowo na siebie, a fala propagująca się na błonie podstawnej jest wynikiem superpozycji wielu harmonicznych i cechuje ją taka sama periodyczność jak falę wejściową (w naszym przykładzie jest to 200 Hz). Struktura czasowa impulsów neuronowych związanych z tymi obszarami odpowiada częstotliwości repetycji oryginalnej fali wejściowej. Niestety, również i ta próba interpretacji nie jest satysfakcjonująca. Jeśli bowiem dźwięk złożony zostanie odfiltrowany w ten sposób, że pozostaną w nim tylko niemożliwe do rozdzielenia harmoniczne wyższego rzędu (od dziesiątej), wrażenie wysokości słyszanej przed odfiltrowaniem utrzyma się, lecz będzie słabsze i bardziej niejednoznaczne. Widać stąd, że niższe harmoniczne, możliwe do rozseparowania przez filtry słuchowe, są najważniejsze w kształtowaniu wrażenia wysokości.

Nowsze teorie percepcji wysokości zakładają, że tworzenie wrażenia wysokości jest procesem dwustopniowym. W pierwszym etapie analizowane są niskie harmoniczne. Ten etap analizy zależy od działającego w uchu mechanizmu filtrującego, lecz ważna jest również struktura czasowa wyładowań neuronowych będących reakcją na sygnały wyjściowe z filtrów słuchowych. W drugim etapie ma miejsce analiza pobudzenia filtrów słuchowych i określenie częstotliwości składowej podstawowej tak, aby jej harmoniczne pasowały do składowych bodźca. Odczuwana wysokość odpowiada częstotliwości tej składowej. W jednym z modeli tego typu wysokość jest określana na podstawie podharmonicznych składowych obecnych w dźwięku. Układ słuchowy „znajduje” podharmoniczne wszystkich składowych obecnych w dźwięku złożonym. Wysokość dźwięku złożonego jest równa częstotliwości tej podharmonicznej, która jest podharmoniczną największej liczy składowych dźwięku. Aby zilustrować funkcjonowanie tego modelu rozważmy przykład dźwięku złożonego z trzech składowych o częstotliwościach 800, 1000 i 1200 Hz, który przedstawiono w tabeli I. Każda z tych składowych ma swoje „własne” podharmoniczne. Zauważmy jednak, że podharmoniczna o częstotliwości 200 Hz występuje największą liczbę razy, tj. dla każdego z analizowanych tonów; to właśnie ta podharmoniczna określa wysokość rozważanego dźwięku złożonego.

Oczywiście zasadnym wydaje się w tym momencie postawienie pytania: w jaki sposób układ słuchowy „znajduje” częstotliwości podharmonicznych w odniesieniu do każdego tonu w wielotonie. Wydaje się, że jest to możliwe w oparciu informacje zawarte w synchroniczności fazowej: wyładowania neuronowe przypadają zawsze dla tej samej fazy sygnału pobudzającego, co ilustruje dolna lewa część rys.20. Jednak odstępy pomiędzy nimi odpowiadają zawsze całkowitej wielokrotności okresu tego tonu. Zatem najmniejszy odstęp pomiędzy impulsami w danym neuronie odpowiada częstotliwości tonu, a każda kolejna całkowita wielokrotność tego odstępu (inne odstępy nie są obecne) odpowiada kolejnym podharmonicznym tego tonu. Odstępy czasowe pomiędzy kolejnymi impulsami neuronowymi jakie można zaobserwować w neuronach o częstotliwościach charakterystycznych 800 1000 i 1200 Hz przedstawiono w dolnej prawej części rys.20. Warto zauważyć, że dla w/w częstotliwości najmniejszym powtarzającym się przedziałem czasu jest 5 ms który odpowiada częstotliwości 200 Hz , a więc percypowanej wysokości.

Model ten wyjaśnia również niewielką zmianę wysokości obserwowaną w przypadku, gdy częstotliwości wszystkich składowych dźwięku zostają zwiększone o pewną wartość. „Dopasowanie” częstotliwości podharmonicznych jak również przedziałów czasowych pomiędzy impulsami neuronowymi nie jest dokładne ponieważ dźwięk przestaje być harmoniczny. W tym przypadku ta podharmoniczna, która jest najbliższa podharmonicznym wszystkich składowych dźwięku odpowiada percypowanej wysokości (lub innymi słowy: taki przedział czasu który jest najbliższy odstępom związanym z poszczególnymi składowymi dźwięku determinuje wysokość).

35

Page 36: Psychoakustyka w Pigulce

Tabela I. Częstotliwości podharmonicznych tonów o częstotliwościach 800, 1000 i 1200 Hz

CZĘSTOTLIWOŚĆ SKŁADOWEJ, [Hz] 800 1000 1200

400 500 600 266.7 333.3 400 200 250 300 160 200 240 133.3 166.7 200

W podsumowaniu należy powiedzieć, że najnowsze teorie zakładają, że percepcja

wysokości dźwięków złożonych jest swego rodzaju procesem analizy pobudzenia opartym na wstępnej analizie składowych dźwięku. Analiza ta może zależeć zarówno od informacji dotyczących „miejsca” jak i informacji czasowej. Gdy w dźwięku obecne są tylko jego wysokie harmoniczne, wysokość jest w dalszym ciągu percypowana, lecz wrażenie jest słabsze. W tym przypadku składowe dźwięku nie mogą być rozdzielone przez filtry słuchowe i wrażenie wysokości powstaje głównie w oparciu o informacje czasową.

2.4 Rozdzielczość czasowa ucha Zmienność sygnałów akustycznych w naszym środowisku jest czymś naturalnym i na

co dzień nie uświadamiamy sobie tego. Warto jednak pamiętać, że znakomita większość informacji zawarta jest w zmiennej części sygnałów (mowa, muzyka) a nie w stałych ich porcjach. Nie stanowi to jednak dla nas większego problemu bowiem nasz układ słuchowy jest szczególnie dobrze przystosowany do detekcji zmian dźwięków w czasie. Ograniczenia tej zdolności odzwierciedlają tzw. czasową rozdzielczość ucha. Pomiar rozdzielczości czasowej ucha polega na wyznaczeniu progów detekcji przerw (interwałów ciszy) w długotrwałych dźwiękach. W wielu eksperymentach dotyczących detekcji przerw wykorzystywano jako bodziec szum szerokopasmowy, ponieważ wprowadzenie przerw czasowych do takiego sygnału nie zmienia jego składu widmowego. Dzięki temu jedynym czynnikiem umożliwiającym spostrzeganie takich przerw jest czas ich trwania. Rezultaty tych eksperymentów wykazały, że najkrótszy interwał ciszy jaki potrafimy spostrzec w takich warunkach trwa 2-3 ms.

Wykorzystanie szumu szerokopasmowego do określenia czasowej zdolności rozdzielczej nie pozwala na uchwycenie wpływu filtrowania peryferyjnego na ten proces. Można bowiem spodziewać się, że ponieważ właściwości filtrów słuchowych zmieniają się wraz z ich częstotliwością środkową, to będzie to miało zasadniczy wpływ na czasową zdolność rozdzielczą w różnych pasmach częstotliwości. W szczególności wspomnieć tu należy, że czas wybrzmiewania filtrów (w tym również i filtrów słuchowych) zależy od ich szerokości: wąskie filtry mają znacznie dłuższy czas wybrzmiewania niż filtry szerokie. Ponieważ szerokość filtrów słuchowych wzrasta wraz ze wzrostem częstotliwości środkowej, to można się spodziewać, że rozdzielczość czasowa układu słuchowego powinna zdecydowanie zmieniać się wraz z częstotliwością: dla małych częstotliwości rozdzielczość ta powinna być gorsza.

Weryfikacji tej hipotezy dotyczyły eksperymenty w których wyznaczano progi detekcji interwałów ciszy w zależności od częstotliwości środkowej pasm szumu. Wiadomo

36

Page 37: Psychoakustyka w Pigulce

jednak, że nagłe włączanie i wyłączanie szumu, czyli wprowadzanie do pasma szumu interwału ciszy, zmieniają jego widmo. Energia sygnału rozkłada się wówczas w szerszym paśmie częstotliwości niż w przypadku tego samego sygnału nie zawierającego interwału ciszy. Ten rozkład energii w szerszym paśmie stanowi bardzo efektywny czynnik umożliwiający spostrzeganie interwału ciszy. Aby temu zapobiec sygnały prezentowane są zazwyczaj na tle innych dźwięków (zwykle szumu) dobranych tak, by maskowały niepożądane poszerzenie widma. Szum stosowany do maskowania niepożądanych składowych widma oddziałuje jednak na pasmo częstotliwości w którym zawarty jest sygnał utrudniając tym samym detekcję interwału ciszy. Dlatego też poziom oraz widmo szumu maskującego muszą być dobrane bardzo starannie tak, by maskowanie niepożądanego poszerzenia widma było maksymalne przy minimalnym wpływie na sygnał testowy. Rezultaty takiego eksperymentu przedstawiono na rys.21.

Wartość progu detekcji interwału ciszy w sygnale wąskopasmowym wzrasta monotonicznie wraz ze zmniejszaniem się częstotliwości środkowej pasma szumu. Dla dużych częstotliwości środkowych wartość progu detekcji interwału ciszy jest zbliżona do wartości tego progu uzyskiwanych dla sygnałów szerokopasmowych co sugeruje, że podczas detekcji przerw w sygnale szerokopasmowym słuchacze wykorzystują przede wszystkim składowe o dużych częstotliwościach. Zwiększenie progu detekcji dla małych częstotliwości środkowych może być związane z odpowiedzią czasową filtru słuchowego. Gdy sygnał wejściowy do filtru wąskopasmowego (a więc o stosunkowo długim wybrzmiewaniu) zostanie nagle przerwany, filtr wybrzmiewa jakiś czas po wyłączeniu sygnału. Wybrzmiewanie filtrów słuchowych może częściowo wypełniać interwał ciszy w sygnale, powodując zwiększenie progu detekcji przerw. W ogólności, im węższy filtr, tym dłuższy jest czas jego wybrzmiewania. Zatem zwiększenie progu detekcji interwału ciszy dla małych częstotliwości można wyjaśnić w oparciu o zmniejszenie szerokości filtru słuchowego dla tych częstotliwości.

Rys. 21. Próg detekcji przerw w paśmie szumu w zależności od częstotliwości środkowej tego

pasma składowe o dużych częstotliwościach

37

Page 38: Psychoakustyka w Pigulce

2.5 Lokalizacja dźwięków

2.5.1 Czynniki lokalizacyjne wynikające z odsłuchów dwuusznych Niewielkie różnice dźwięków dochodzących do obu uszu są zwykle wykorzystywane

jako czynniki pomocne przy lokalizacji dźwięku. Międzyuszne różnice czasu i międzyuszne różnice natężenia są dwoma zasadniczymi czynnikami lokalizacyjnymi. Np. dźwięk docierający do nas z lewej strony dociera najpierw do ucha lewego a po chwili do ucha prawego. Ponadto jego natężenie w uchu lewym jest większe niż w uchu prawym. Dla sygnałów sinusoidalnych różnica czasów ich dotarcia do obu uszu jest równoważna różnicy faz tych dźwięków. Jednak wykorzystanie różnicy faz w całym zakresie częstotliwości słyszalnych nie jest możliwe. W eksperymentach, w których odsłuchów dokonywano za pomocą słuchawek nausznych wykazano, że jedynie dla dźwięków o częstotliwości nie przekraczającej 1500 Hz różnice fazy pomiędzy dźwiękami docierającymi do obydwu uszu mogą być spostrzegane i wykorzystane do oceny położenia źródła dźwięku. Staje się to jasne jeśli uświadomimy sobie, że dla dużych częstotliwości długość fali sinusoidalnej staje się porównywalna z wymiarami głowy. W takim przypadku słuchacz nie jest w stanie określić, który cykl fali z lewego ucha odpowiada danemu cyklowi fali z ucha prawego. Zatem dla większych częstotliwości różnice fazy stają się niejednoznacznymi czynnikami lokalizacyjnymi. Z drugiej strony, dla małych częstotliwości zdolność słuchacza do detekcji międzyusznych różnic czasu jest zaskakująco dobra. Jesteśmy w stanie spostrzec różnice czasu rzędu 10-20 µs, co odpowiada zmianie kąta padania dźwięku w płaszczyźnie horyzontalnej o ok. 1-20.

Międzyuszne różnice natężenia są czynnikami lokalizacyjnymi użytecznymi szczególnie dla dużych częstotliwości. Dzieje się tak dlatego, że dźwięki o małych częstotliwościach uginają się na głowie w związku z czym międzyuszne różnice natężenia są niewielkie i nie zmieniają się znacząco wraz ze zmianą położenia źródła dźwięku. Dla dużych częstotliwości głowa jest źródłem znacznego cienia akustycznego i dla częstotliwości większych od 2-3 kHz międzyuszne różnice natężenia stają się użytecznymi czynnikami lokalizacyjnymi. W przypadku dźwięków złożonych, zawierających szeroki zakres częstotliwości, duży wpływ na lokalizację mogą mieć różnice widmowe dźwięków dochodzących do obu uszu. Koncepcja mówiąca, że lokalizacja źródła dźwięku o małych częstotliwościach odbywa się w oparciu o międzyuszne różnice czasu, a źródła dźwięku o dużych częstotliwościach w oparciu o międzyuszne różnice natężenia nosi nazwę teorii dupleksowej i zapoczątkowana została przez Lorda Rayleigha. I choć sprawdza się ona dość dobrze dla tonów, to nie jest wystarczająco ścisła dla dźwięków złożonych. Dźwięki złożone o odpowiedniej strukturze czasowej, zawierające tylko duże częstotliwości (większe od 1500 Hz) mogą być jednak lokalizowane w oparciu o międzyuszną różnicę czasu. Np. pojedynczy trzask może być lokalizowany w ten sposób, niezależnie od swojego składu widmowego. W oparciu o międzyuszne różnice czasu mogą być również lokalizowane dźwięki periodyczne zawierające jedynie wysokie harmoniczne, pod warunkiem, że częstotliwość powtarzania ich obwiedni jest mniejsza od 600 Hz. Większość dźwięków jakie napotykamy w codziennym życiu ma częstotliwości powtarzania obwiedni mniejsze od 600 Hz i dlatego międzyuszne różnice czasu są wykorzystywane do ich lokalizacji w większości sytuacji.

2.5.2 Rola małżowiny usznej Istnienie różnic pomiędzy sygnałami docierającymi do lewego i prawego ucha nie

wyjaśnia wyczerpująco naszej zdolności do lokalizowania dźwięków. Np. różnice czasu lub natężenia nie istnieją gdy dźwięk dociera do nas z przodu lub z tyłu, albo z dołu lub z góry a

38

Page 39: Psychoakustyka w Pigulce

mimo to potrafimy dość precyzyjnie określić kierunek źródła dźwięku. W ostatnich latach wykazano jak ważną rolę w lokalizacji pełnią małżowiny uszne. Stwierdzono bowiem że, małżowiny uszne dokonują znacznych zmian widm dźwięków dochodzących do błon bębenkowych. Zmiany te zależą w znacznym stopniu od kierunku padania dźwięku i określa się je jako tzw. filtrowanie przestrzenne. To filtrowanie przestrzenne jest ważnym czynnikiem umożliwiającym lokalizację źródeł dźwięków w przestrzeni. Rola małżowiny usznej nie ogranicza się jedynie do filtrowania tego typu, lecz odgrywa ona również ważną rolę w ocenie, czy źródło dźwięku usytuowane jest wewnątrz głowy, czy też na zewnątrz niej. Dźwięk jest oceniany jako docierający do nas z zewnątrz jedynie wtedy gdy zostanie on przetransformowany widmowo przez małżowiny. Dlatego źródło dźwięku odtwarzanego przez słuchawki jest oceniane jako leżące wewnątrz głowy - małżowiny uszne, a także głowa nie wywierają na taki dźwięk żadnego wpływu. Jednak dźwięki odtwarzane za pomocą słuchawek można spreparować tak, aby brzmiały tak jak dźwięki dochodzące z zewnątrz. W tym celu należy je zarejestrować przy użyciu tzw. sztucznej głowy (czyli wiernego modelu głowy ludzkiej) lub przetworzyć syntetycznie w oparciu o tzw. funkcję przeniesienia głowy. Funkcja ta stanowi charakterystykę przeniesienia układu jaki stanowią głowa i małżowiny uszne a wyznacza się ją eksperymentalnie dla każdego słuchacza, jako że jej przebiegi charakteryzują się znaczną zmiennością międzyosobniczą. Odpowiednie przetworzenie dźwięku może wywołać wrażenie, że dźwięk prezentowany przez słuchawki pochodzi z różnych kierunków. Choć zmiany widma wywoływane przez małżowinę dotyczą częstotliwości większych od 6 kHz, to jednak dla częstotliwości znacznie mniejszych od 6 kHz może również następować modyfikacja widma bodźca ponieważ głowa, podobnie jak małżowina, może wpływać na widmo. Wpływ głowy na widmo obserwowano dla częstotliwości z przedziału od 500 Hz do 16 kHz.

2.5.3 Efekt precedensu W normalnych warunkach akustycznych dźwięk ze źródła, np. głośnika, dochodzi do

naszych uszu wieloma drogami. Część tego dźwięku dociera drogą bezpośrednią, a część dochodzi do uszu po jednym lub wielu odbiciach od powierzchni pomieszczenia. Jednak zazwyczaj nie zdajemy sobie sprawy z tych odbić i wydaje się, że mają one niewielki wpływ na ocenę kierunku źródła dźwięku. Powodem tego jest tzw. efekt precedensu (zjawisko Haasa). Jeśli interwał czasu pomiędzy kilkoma następującymi po sobie dźwiękami jest wystarczająco krótki, to są one słyszane jako pojedynczy dźwięk. Jego położenie jest całkowicie zdeterminowane przez położenie dźwięku bezpośredniego tj. tego który, dociera jako pierwszy. Wynika stąd, że odbicia mają niewielki wpływ na percepcję kierunku, choć oczywiście mogą wpływać na barwę, głośność i ogólną jakość dźwięku.

Zjawisko precedensu występuje jedynie dla dźwięków nieciągłych lub transjentowych, takich jak mowa czy muzyka. Zjawisko to zanika, gdy odbicia są znacznie opóźnione lub mają natężenie porównywalne z natężeniem dźwięku bezpośredniego. W normalnych warunkach efekt ten odgrywa jednak ważną rolę w lokalizacji i identyfikacji dźwięków w pomieszczeniach pogłosowych. Jest to zjawisko binauralne. Gdy jedno z uszu zostanie zatkane, odbicia od ścian pomieszczenia są łatwiej zauważalne, a dźwięki wydają się bardziej huczące.

39

Page 40: Psychoakustyka w Pigulce

3 Podsumowanie Głównym zagadnieniem omawianym w tej pracy jest mechanizm filtrowania

peryferyjnego i związana z nim selektywność częstotliwościowa, które przejawiają swe funkcjonowanie we wszystkich niemal aspektach percepcji słuchowej i pełnią zasadniczą rolę w naszym słuchu. Selektywność częstotliwościowa odgrywa ważną rolę w percepcyjnym rozseparowaniu dźwięków prezentowanych jednocześnie, w detekcji sygnału na tle szumu maskującego, w identyfikacji barwy mowy i dźwięków muzycznych, w spostrzeganiu wysokości dźwięków złożonych oraz w spostrzeganiu zmian dźwięków w czasie.

Podstawowe cechy selektywności częstotliwościowej można wyjaśnić jeśli rozważy się peryferyjny układ słuchowy jako zbiór nakładających się na siebie pasmowoprzepustowych filtrów, których częstotliwości środkowe pokrywają cały zakres częstotliwości słyszalnych. Szerokość pasma przepustowego filtrów słuchowych jest rosnącą funkcją ich częstotliwości środkowych. Warto pamiętać, że podstawą tego mechanizmu jest błona podstawna ślimaka, która dokonuje konwersji częstotliwości dźwięku na drganie ściśle określonego jej miejsca i impulsy ściśle określonych neuronów. Proces ten jest w sposób zasadniczy wspierany przez zewnętrzne komórki rzęskowe, przyczyniające się do znacznego wzrostu selektywności częstotliwościowej błony podstawnej i całego układu słuchowego.

Mechanizm analizy częstotliwościowej działa na poziomie nerwu słuchowego. Informacje o częstotliwości, natężeniu i składzie widmowym bodźca przenoszone są zarówno w postaci rozkładu aktywności włókien nerwowych jak i w czasowym przebiegu wyładowań tych włókien. Czasowe przebiegi wyładowań odgrywają szczególnie ważna rolę w percepcji wysokości.

W ogólności selektywność układu słuchowego ma charakter wielowymiarowy. Oprócz selektywności częstotliwościowej możemy również mówić o selektywności w dziedzinie czasu i przestrzeni. Mechanizm analizy dźwięku w naszym organie słuchu jest niezwykle wrażliwy fizjologicznie. Jego czasowe uszkodzenie mogą wywołać niektóre środki farmakologiczne czy też przebywanie w środowisku nadmiernie głośnych dźwięków. Warto pamiętać, że nasz organizm nie posiada zdolności zregenerowania tego mechanizmu co w konsekwencji oznacza trwałą bezpowrotną utratę czułości słuchu.

Zagadnienia które przedstawiono w niniejszej pracy sygnalizują jedynie zasadnicze kierunki badań układu słuchowego bowiem zamiarem autorów było jedynie przybliżenie zasadniczych aspektów funkcjonowania organu słuchu i percepcji słuchowej.

40

Page 41: Psychoakustyka w Pigulce

4 Literatura Hartmann W.M. (1997). Signals, Sound, and Sensation, Woodbury, New York. Kemp D.T. (1978). Stimulated acoustic emissions from within the human auditory system. J.Acoust. Soc.Am. 64, 1386-1391. Moore B.C.J. (1999). Wprowadzenie do psychologii słyszenia, PWN, Poznań. Patterson R.D. (1976). Auditory filter shapes derived with noise stimuli. J.Acoust. Soc.Am. 59, 640-654. Pickles J.O. (1988). An Introduction to the Physiology of Hearing, second Edition, Academic Press, London. Rugero M.A., Robles L., Rich N.C. and Costalupes J.A. (1986). Basilar membrane motion and spike initiation in the cochlear nerve. W Auditory Frequency Selectivity pod red. B.C.J.Moore’a i R. Pattersona, Plenum, New York. Scharf B. (1970). Critical bands. W Foundations of Modern Auditory Theory, Vol.1 (pod red. J.V. Tobiasa), Academic Press, New York. Stevens S.S., Davis H. (1983). Hearing: Its psychology and physiology. Acoustical Society of America, New York. Zwicker E., Fastl H. (1990). Psychoacoustics. Facts and models. Springer-Verlag, Berlin.

41