PODSTAWOWE POJĘCIA
CO TO JEST DŹWIĘK? Dźwięk jest oczywiście pojęciem fizycznym (z zakresu akustyki). Bardzo często mówi się o tym, że dźwięk jest falą akustyczną, ale nie jest tak do końca. Dźwięk jest WRAŻENIEM SŁUCHOWYM, który jest powodowany przez bardzo szybko przemieszczającą się falę akustyczną. Upraszczając jest to po prostu wibrujące powietrze. Powietrze wibruje ponieważ coś je wprowadza w drgania - zatem jest to wibrujące powietrze wprowadzone w drgania przez jakiś wibrujący obiekt (np. struny głosowe człowieka, struny gitary, głośnik). Czyli: owo wibrujące powietrze musi mieć jakąś prędkość, ciśnienie (dzieje się z nim coś w czasie, przestrzeni; dzieje się także coś z jego siłą). Interesuje nas dźwięk, który jest w stanie wychwycić a) ludzkie ucho, b) mikrofony (dźwięk słyszalny). Wibrujące powietrze wpada w ucho oraz w kapsułę mikrofonu (w jednym i drugim znajdują się określone "przyrządy", które w określony sposób przetwarzają owe drgania). Mikrofon konwertuje falę akustyczną w elektroniczne naprzemienne napięcie, które karta dźwiękowa przekształca w określony format (przelicza ja niejako). Częstotliwość Częstotliwość (częstość) określa liczbę cykli zjawiska okresowego występujących w jednostce czasu. Czyli: wibrujące powietrze wibruje z jakąś częstotliwością (robi to w cyklach/cyklicznie). Musimy pamiętać o tym, że mamy czas. Jednostką częstotliwości jest herc (Hz, kHz = 1000 Hz). Częstotliwość 1 herca odpowiada występowaniu jednego zdarzenia (cyklu) w ciągu 1 sekundy. Upraszczając jest to prędkość, z jaką wibruje dźwięk. To ile razy dźwięk zawibruje w ciągu jednej sekundy, to właśnie częstotliwość Dźwięki zazwyczaj nie są pojedynczą falą, która wibruje z pewną częstotliwością, ale raczej jest ich zbiorem, które wibrują nie tylko z różną prędkością, ale także z różnym natężeniem. Ludzie ucho jest w stanie wychwycić (słyszeć) dźwięki o określonej jedynie częstotliwości (od 20 Hz do ponad 20,000 Hz). W rzeczywistości większość z nas jest w stanie słyszeć jedynie około 15,000 Hz. Częstotliwość głosu ludzkiego mieści się pomiędzy 300 Hz a 3000 Hz. W praktyce, “20-20″ oznacza albo osobę obdarzoną wyjątkowym słuchem, albo po prostu dziecko, którego słuch nie został jeszcze “stępiony”. Wraz z wiekiem słyszymy coraz węższy przedział. Dla przykładu (różne źródła podają oczywiście różne wartości, chodzi mi tylko o ukazanie pewnej skali): Osoba w wieku “-nastu” lat : 30Hz – 18kHz. Osoba w wieku “-dziestu” lat: 40Hz – 16kHz lub czasem 60Hz-14kHz. 1
Osoba w wieku “-dziesięciu” lat: 100Hz – 8kHz, potem zakres ten może się zawęzić nawet do 200Hz – 4kHz. Najpierw należy wiedzieć, czemu właściwie odpowiadają te częstotliwości. Dźwięk w muzyce podzielony jest na oktawy. Oktawa: Otóż jest to zakres wartości począwszy od danej liczby (częstotliwości) a skończywszy na jej dwukrotności. Czyli między 20 a 40Hz jest jedna oktawa, podobnie jak między 10 a 20kHz. oktawa 1 16…32Hz – należą do niej najniższe dźwięki, jakie (teoretycznie) może słyszeć człowiek; jedyny instrument jaki wydaje tak niskie dźwięki to duże organy, a i tak są one bardziej odczuwane jako drżenie otoczenia niż jako rzeczywisty dźwięk oktawy 2-5 32…512Hz – tu należą dźwięki muzyczne, w tym niski i wysoki bas oraz “dolny środek”; 32Hz uznaje się za “rozsądną granicę ludzkiego słuchu” ale typowy najniższy dźwięk w muzyce to najgrubsza struna gitary basowej, czyli 40Hz; 440Hz to “średni” ton używany do strojenia instrumentów oktawy 6 i 7 512…2048Hz – w tym zakresie leży ludzka mowa a także wysokie dźwięki w muzyce (w tym perkusja), jest to niejako “górny środek”; 1kHz to pisk telewizora na tablicy kontrolnej, która się pokazuje kiedy nic nie jest nadawane oktawy 8 i 9 2048…8192Hz – ten zakres odpowiada za barwę i naturalność głosu, znajdują się tu również harmoniczne odpowiadające za barwę instrumentów muzycznych; tu kończy się “wysoki środek” a zaczyna “góra” dźwięku; rozpoczyna się tu “wybrzmienie” odpowiadające m.in. za charakterystykę studia nagraniowego oktawa 10 – 8192…16000Hz – tu znajdują się jedynie harmoniczne i wybrzmienie różnych instrumentów muzycznych, nadające dźwiękowi “blasku”, powodujące że jest czysty i wyraźny a nie “zduszony i nijaki”… jakkolwiek – w sumie – da się bez tego obejść; znajduje się tu również świszczące ludzkie “s”; niektóry słyszą “pisk lampy kineskopowej” o częstotliwości nieco poniżej 16kHz
2
Z powyższych informacji wynika, że człowiek tony rozróżnia w sposób logarytmiczny, czyli 40 a 80Hz to duża różnica, podczas gdy 10000Hz i 10040Hz to żadna różnica dla ucha. Odtwarzacze mają na wyjściu filtry, przepuszczające jedynie częstotliwości 20Hz – 20kHz. Jest to o tyle ważne, że ani mniej ani więcej – nawet teoretycznie – człowiek nie słyszy. Powód tego – poza zakresem ludzkiego słuchu – jest następujący. Poniżej 20Hz znajdują się tylko fale mechaniczne – np. tupot nóg, uderzenie w mikrofon podczas nagrania etc. Natomiast powyżej 20kHz znajduje się – przynajmniej dla dźwięku nagranego z próbkowaniem 44.1kHz (czyli typowe CD-Audio) – jedynie całkowicie “niemuzyczny” szum wynikający z ograniczonego próbkowania. Poza tym rzeczywisty zakres muzyczny zawiera się (nie licząc “sztucznych” dźwięków) w zakresie 40Hz (gitara basowa) – 4kHz (bardzo wysoka perkusja). 4…16kHz to tylko harmoniczne i wybrzmienie.
Głośność (loudness), natężenie (volume), amplituda, poziom, współczynnik wzmocnienia (gain) Pojęcie głośności, natężenia, amplitudy oraz poziomu oznaczają mniej więcej to samo, aczkolwiek nie są tym samym. głośność (loudness): cecha wrażenia słuchowego, która umożliwia odróżnianie dźwięków cichszych i głośniejszych. Jest pojęciem psychoakustycznym i nie może być utożsamiana z parametrami fizycznymi. Wrażenie głośności określa się przez poziom głośności w fonach lub przez głośność w sonach. głośność/natężenie dźwięku (volume): związana z amplitudą, ciśnieniem oraz dynamiką Im większe natężenie (volume) dźwięku tym więcej siły zostanie użytej do jego wytworzenia i będzie głośniejszy. Kiedy reguluje się natężenie dźwięku, współczynnik wzmocnienia pokazuje poziom dźwięku (zmiejszający lub wziększający się). Ta wartość może być przedstawiana w procentach lub na skali decybeli (dB). Ludzkie ucho może słyszeć dość szeroki zakres dźwięków od bardzo niskich po wysokie. Jednakże nie wychwytuje różnic w proporcjach siły. W celu uchwycenia sposobu, w jaki słyszymy stosuje się skalę decybeli. Kiedy obniża się poziom natężenia dźwięku do 6dB oznacza to, że redukujemy amplitudę o ½ a siłę o ¼. Ludzki słuch nie jest jednakowo czuły na wszystkie częstotliwości. Częstotliwości skrajne (najniższe i najwyższe) są słyszane “ciszej” niż częstotliwości średnie. Zależność ta, przedstawiona jako “krzywe jednakowej głośności “, wygląda tak:
3
Na skali x mamy częstotliwość – od 10Hz do 100kHz, przy czym wykres obejmuje częstotliwości 20Hz – 20kHz (tak naprawdę do 16kHz). Na skali y znajduje się poziom ciśnienia dźwięku w dB SPL (decybelach poziomu ciśnienia dźwięku. Kolorowymi kreskami zaznaczona jest trzecia skala. Skala głośności, podana w jednostkach odczuwalnej głośności – w fonach. Ale gdzie nasza głośność? Już wyjaśniam. Najpierw należy wybrać jedną z linii, np. skupmy się teraz na 40 fonach. Odpowiada to głośności mowy słyszanej z odległości 1 metra. Czerwona linia odpowiada “nowemu” modelowi czułości ludzkiego słuchu. Niebieska jest pozostawiona w formie “ciekawostki” – należy ona do “starego” modelu. Teraz patrzymy na obie skale. Aby dźwięk o częstotliwości 1kHz słyszany był z głośnością 40 fonów musi on mieć moc akustyczną 40dB. Ale co z basem? Weźmy pod uwagę 60Hz – odczytujemy 60dB. Oznacza to że dla głośności 40 fonów bas musi być “podbity” o 20dB (sic!), żeby był słyszalny równie dobrze co “środek”. Podobnie “góra”. 40 fonów przy 10kHz wymaga około 55dB. Analizując powyższy wykres stwierdzić można, iż “im głośniej, tym równiej słyszymy”. Ale… dochodzimy w ten sposób do 100 fonów. To zdecydowanie za dużo jak na słuchanie muzyki. Może przeanalizujmy poziom ciśnienia dźwięku (ogólnikowo): 0dB – próg czułości słuchu (ciśnienie 20uPa przy 2kHz) 10dB – szelest liści na wietrze, cichy oddech 30dB – poziom głośności w spokojnym pokoju, w ciągu dnia 40dB – poziom głośności spokojnej rozmowy z odległości 1 metra 4
60dB – typowy telewizor z odległości 1 metra 80dB – komunikacja miejska 90dB – ruchliwa ulica z odległości 10 metrów 100dB – młot pneumatyczny z odległości 1 metra 120dB – startujący odrzutowiec, próg bólu Najmniejsza różnica głośności, rozróżniana przez ludzkie ucho, to około 1…2dB. W praktyce uznaje się że dopiero skok o 3dB daje “zauważalną zmianę głośności”. Kolejno 6dB to podwojenie głośności, a 20dB to dziesięciokrotna zmiana głośności. A jak to się ma do uszkodzenia słuchu? Długotrwała ekspozycja na 85dB i więcej powoduje nieodwracalne uszkodzenie słuchu. Oznacza to, że przebywając na co dzień na ulicy – stopniowo – głuchniemy. Smutne, ale prawdziwe. Zaś przekroczenie progu bólu (definiowanego na poziomie 100…140dB) powoduje najczęściej natychmiastowe uszkodzenie słuchu – w różnym stopniu oczywiście. Można oczywiście mieć szczęście i nie ogłuchnąć. Jako ciekawostkę podam, że najgłośniejszy dźwięk jaki może się rozlegać w atmosferze to 194dB. Najgłośniejszym dotychczas “naturalnym” dźwiękiem, jaki mieli okazję słyszeć ludzie, był wybuch wulkanu Krakatau. Z odległości 100 kilometrów miał on miażdżące 180dB, a słyszalny był z odległości ponad 3000 kilometrów. Trzecia uwaga – odtwarzacze, słuchawki, equalizer mają dlatego odpowiednio podbite “górę i dół” (czyli “kontur”) a nie są “płaskie”. Jest tak aby zrekompensować różnicę odczuwalnej głośności dla niskich, średnich i wysokich częstotliwości. Oczywiście w różnych przypadkach zrobione jest to tak albo inaczej. Dlatego też jedne słuchawki uznawane są za “zbasowane”, inne za “dobrze zbalansowane”, a jeszcze inne za “płaskie”.
Dynamika Z głośnością nieodłącznie łączy się dynamika. Dynamika to różnica głośności dźwięku najgłośniejszego i najcichszego. Dla ludzkiego słuchu wynosi ona 120dB (od progu słyszalności do progu bólu). Nie oznacza to oczywiście, że w jednym momencie można słuchać oddechu (10dB) i młota pneumatycznego (100dB). W jednym momencie człowiek “ogarnia” około 40…60dB. Teoretyczna dynamika “typowej” muzyki, zapisanej z rozdzielczością 16-bit (np. CD-Audio) to około 96dB. Niestety – ponownie – tyle jeśli chodzi o teorię. W praktyce jest zupełnie inaczej.
5
Nagrania muzyki klasycznej czy dobrze nagrany jazz faktycznie mogą się poszczycić dynamiką 40dB i więcej. Oznacza to że wykorzystują pełen zakres głośności, na jaką pozwala nam w danym momencie typowe ucho bez groźby ogłuszenia. Jednakże nagrania muzyki “popularnej” (pop, rock) mają ostatnio tendencję do maksymalnego wykorzystania “typowych warunków odsłuchu”. Objawia się to maksymalnym wysterowaniem dźwięku, na jakie pozwala standard CD-Audio, oraz kompresją dynamiki dźwięku. W takim przypdku zakres cichy-głośny zmniejsza się z 40dB (100-krotna różnica głośności) do nieraz zaledwie 12…6dB (2-4 krotna różnica głośności). W praktyce oznacza to, że np. “uderzenie gitar i perkusji” wcale nie jest zadowalająco głośniejsze niż mające miejsce tuż wcześniej “cichutkie granie”, a wokalista “krzyczący” i “szepczący” brzmi właściwie tak samo. Tylko słychać że raz się drze a raz mówi spokojnie. Ale o jakie warunki chodzi? Typowe warunki to np. zwyczajne słuchawki nie będące w ogóle w stanie zapewnić takiej dynamiki, hałas otoczenia jak komunikacja miejska, ulica, samochód etc. oraz typowy słuchacz, który nie siedzi każdego wieczoru w “prywatnej kapliczce dźwięku” Wszystko to składa się na sytuację, kiedy typowy słuchacz wciska przycisk “zwiększ głośność”, gdyż nie jest w stanie usłyszeć cichszych partii utworu. A to że – gdy tylko skończy się “cicha partia” – boli, to już inna sprawa. Zwykle głośność ustawia się tak, żeby muzyka była równie głośna lub nieco głośniejsza niż szum otoczenia. Weźmy pod uwagę ulicę, czyli około 80dB. W takich warunkach poziom muzyki ma zwykle ma 83dB (różnica co najmniej 3dB jest konieczna, żeby można było powiedzieć że “muzyka jest głośniejsza niż szum otoczenia”). Ale to jest załóżmy najcichszy dźwięk. A co zgłośnym? 83dB + 40dB (dynamika) daje 123dB. Przekroczony został próg bólu. To jest nie do przyjęcia z dwóch powodów. Po pierwsze, to jest za głośno a ludzie zwykle wychodzą z założenia iż “co nie jest zabronione to jest dozwolone” (w znaczeniu: skoro producent odtwarzacza pozwala na tak głośne słuchanie, to nie może być to szkodliwe dla uszu). Z tego samego powodu do młota pneumatycznego dostaje się – w standardzie – mocno tłumiące nauszniki. Po drugie, najczęściej odtwarzcz nie pozwala na tak wysoki poziom głośności. Zwłaszcza ostatnio w europie… Co wcale nie oznacza, że jest to niemożliwe. I to – często – oznacza że “cicha muzyka jest zbyt cicha” nawet mimo tego, że “głośna jest wystarczająco głośna”. Czyli mamy tu na uwadze osoby słuchające jednocześnie muzyki jazz i pop. Między innymi dlatego, dynamika w nagraniach muzyki popularnej zostaje ograniczona – ułatwia to odbiór muzyki poza “cichym otoczeniem”… 6
… utrudniając jednocześnie pełne jej docenienie w “odpowiednich warunkach”, gdzie tak wspaniale brzmi wyżej wymieniona klasyka czy jazz. Częściowo przychodzą tu z pomocą słuchawki zamknięte – np. słuchawki dokanałowe. Częściowo tłumią one szum otoczenia (nawet o 20dB, czyli w naszym przykładzie z 83dB na 63dB), jednocześnie obniżając o tyle “wymagany poziom komfortowego słuchania” ratując jednocześnie nasz słuch od niepotrzebnej ekspozycji na zbyt głośne dźwięki.
CYFROWE NAGRYWANIE AUDIO Dźwięk jest rejestrowany mikrofonami, które wysyłają go do kart dźwiękowych (rekorder, komputer), które konwertują go w serię cyfr (liczby te można sobie wyobrazić jako coś, co naciska na powierzchnię mikrofonu w różnych punktach w określonym czasie). Proces konwertowania dźwięku w serię numerów jest nazywane samplingowaniem (próbkowaniem). Częstotliwość próbkowania (Sample Rate) Tempo próbkowania to ilość razy, w których amplituda jest konwertowana w cyfrę na sekundę. Np. w nagraniu o jakości audio CD komputer zapamiętuje 44100 cyfr na sekundę, z czego każda reprezentuje amplitudę w ściśle określonym punkcie czasu. Przewodnik po tempie próbkowania: 6000 – bardzo niskiej jakości 8000 – jakość telefoniczna 11025 – średnia jakość (np. dyktowanie) 22050 – dobra jakość (uzywana w multimediach) 44100 – jakość cd Wyższa częstotliwość próbkowania (48000, 88200, 96000 i nawet 192000) są czasem używane przez inżynierów dźwięku, ale nie są one słyszalne (poprawa jakości dźwięku nie jest wychwytywana przez ludzkie ucho) Wskazówka: zawsze należy nagrywać pliki dźwiękowe w takiej częstotliwości próbkowania, w jakim chcemy je użyć na końcu (każda konwersja powoduje bowiem utratę jakości), np. jeśli chcemy zmajstrować cd należy użyć na samym początku 44100, jeśli ma to być na uzytek telefonii 8000. Kanały stereo i mono Stereofonia, stereo – elektroakustyczna metoda odbierania, zapisywania, transmitowania i odtwarzania dźwięku, tak aby u słuchającego wywołać wrażenie przestrzennego rozmieszczenia jego źródeł. Zapis dźwięku odbywa się za pomocą co najmniej dwóch niezależnych mikrofonów, 7
osobno dla kanału lewego i prawego, transmisja zaś poprzez dwa oddzielne kanały do dwóch oddzielnych głośników. Monofonia - najstarszy sposób zapisu i odtwarzania nagrań audio. W systemie Mono stosuje się tylko jeden kanał. Do jego odtworzenia wystarczy jeden głośnik oraz wzmacniacz monofoniczny. Dźwięk zapisany w ten sposób nie jest dźwiękiem przestrzennym. System monofoniczny jest powszechnie stosowany w systemach nagłośnienia przemysłowego, w radiofonii wykorzystującej fale radiowe średnie i krótkie (AM). Był stosowany w telewizji niemal do końca XX w. Ten sposób odtwarzania stosowany jest jeszcze w najtańszych konstrukcjach, tzw. "radiach kuchennych", oraz w krótkofalówkach, CB Radiach. Dźwięk nagrany w systemie mono można odtworzyć również na sprzęcie stereo, ale dźwięk ten jest wówczas monofoniczny. Większość systemów przesyłu dźwięku stereo umożliwia ich proste odtwarzanie za pomocą odbiornika monofonicznego, wówczas odtworzony dźwięk jest monofoniczny. Wskazówki: mono używamy wówczas, gdy nagrywamy wywiady (o ile nie zależy nam na kontekście dźwiękowym rozmowy). Wszystko inne nagrywamy w stereo. Field recordist zawsze używa stero. Nagrywanie binauralne (z łac. bi – podwójny, auris – ucho) – metoda nagrywania dźwięku z użyciem specjalnego mikrofonu. Mikrofon ten zwany jest zwykle "sztuczną głową". Składa się on z makiety głowy z małżowinami usznymi, wewnątrz których – w miejscach w których znajdują się błony bębenkowe, lub na wejściu do kanału słuchowego – umieszczone są wysokiej klasy mikrofony pojemnościowe. Mikrofony te rejestrują dokładnie taki sam dźwięk, jaki docierałby do uszu słuchacza – który znajdowałby się w miejscu, w którym umieszczona jest sztuczna głowa. Przy użyciu cyfrowego zapisu, urządzenia odtwarzającego oraz słuchawek pozwala na realistyczną i precyzyjną symulację (lub odtworzenie) dźwięków pochodzących z otoczenia słuchacza. Bywa mylone ze stereofonią. Nagrania binauralne wykorzystują naturalną zdolność ludzi i zwierząt do precyzyjnego lokalizowania źródła dźwięku odbieranego przez narząd słuchu. Efekt binauralny był wielokrotnie używany przez twórców muzyki popularnej (m.in. Rogera Watersa, zespół Pearl Jam). Do prawidłowego odbioru efektu binauralnego konieczne są słuchawki (odsłuch przy pomocy głośników skutkuje niemożnością przestrzennej lokalizacji dźwięku). 8/16/24/32 bitów Liczba bitów jest podobna do częstotliwości próbkowania. To wskaźnik jakości dźwięku zapisanego w postaci danego pliku. Im więcej bitów tym lepsza jakość. Warto używać 32 bitów. Najmniejszą znośną jednostką jest 16 bitów (najczęściej uzywana). Bit: Jest to najmniejsza jednostka informacji używana w odniesieniu do sprzętu komputerowego a oznaczana jest za pomocą „b”. Szybkość transmisji danych i przepustowość kanału transmisji mierzy się w bitach na sekundę (bps, b/s, bit/s), kilobitach na sekundę (Kb/s), megabitach na sekundę (Mb/s) czy w gigabitach na sekundę (Gb/s). Kompresja plików audio oraz kodeki Problemem związanym z dobrą jakością dźwięku jest jego wielkość. W celu jego zmniejszenia stosuje się kompresję za pomocą określonych kodeków. Jest ich bardzo wiele. Program, którego będziemy się uczyć oferuje niewielką liczbę kodeków, ale są one absolutnie podstawowe (wav, mp3, mva, ogg).
8