Oma kotistudio osa 3/3 – Digitaalinen ääni

Kotistudio -blogissa tarjotaan vinkkejä oman musiikin tekemisen alkutaipaleelle. Artikkelisarjan kolmannessa osassa annetaan nyrkkisääntöjä miksaamiseen sekä digitaalisen äänen tallentamiseen ja muokkaamiseen.

Kotistudio.fi -blogin artikkelisarjassa on tähän mennessä esitelty oman musiikin tekemiseen tarvittavia välineitä sekä ohjelmistoja. Artikkelisarjan kolmannessa osassa käsitellään digitaalisen äänen perusteita, sekä annetaan muutama helposti muistettava nyrkkisääntö musiikin tuottamista silmällä pitäen.

Algoritmeista, signaalinkäsittelystä yms. nörtteilystä kiinnostuneet löytävät varmasti muualta netistä valtavan määrän aiheeseen liittyvää informaatiota, sekä vielä enemmän erilaisia mielipiteitä ja uskomuksia digitaalisen ja analogisen äänen toistosta ja tallennuksesta. Tämän artikkelin tavoite on teoretisoinnin ja jossittelun sijaan antaa mahdollisimman selkeä vastaus kaikkia aloittelijoita todennäköisesti askarruttavaan kysymykseen: ”Kuinka saan biisini kuulostamaan teknisesti mahdollisimman hyvältä?”

5 nyrkkisääntöä digitaaliseen kotistudioon:

  1. Vältä häviöllisiä formaatteja
  2. CD-tasoinen ääni on tehty musiikin levitykseen, ei musiikin tuottamiseen
  3. Tallenna ja nauhoita digitaalisesti aina 32-bittisenä (analogiset nauhoitukset 24-bittisinä)
  4. Muokkaa soundi halutun kaltaiseksi mahdollisimman aikaisessa vaiheessa
  5. Vältä turhaa prosessointia – lyhyt signaalitie on hyvä tavoite myös digitaalisessa studiossa

1 – Vältä häviöllisiä formaatteja

Digitaalista ääntä voidaan karkeasti ottaen tallentaa kahdellla tapaa: häviöttömästi (eng. ”lossless”) tai häviöllisesti (eng. ”lossy”). Näiden kahden menetelmän ero on helppo muistaa: häviöttömästi tallennettu ääni voidaan aina palauttaa alkuperäisen kaltaiseksi, häviöllisesti tallennettua ei.

Musiikin digitaalisessa levityksessä käytetään valitettavasti useimmiten häviöllisiä formaatteja. Joskus tämä johtuu tietämättömyydestä, mutta useimmiten siitä syystä, että tiedostokoko halutaan saada mahdollisimman pieneksi. MP3 on varmasti kaikkein tunnetuin häviöllinen formaatti. Muita ovat muun muassa AAC, WMA sekä OGG.

Jos aihe kiinnostaa, Sound On Soundin artikkeli on erinomainen katsaus äänen pakkaamiseen: Lost in Translaton – What data compression does to your music

Harva pääsee enää kuulemaan digitaalista ääntä pakkaamattomana

Olet ehkä huomannut, että monet SoundCloudin tai YouTuben kautta saatavilla olevat biisit ja miksaukset kuulostavat latteilta ja elottomilta? Tämä saattaa johtua siitä, että matkalla studiosta kuuntelijan korviin ne on useimmiten pakattu useita kertoja häviöllisiä formaatteja käyttäen. Tyypillinen skenaario voi olla esimerkiksi seuraavanlainen:

Studio (wav) –> Beatport (MP3) –> SoundCloud (MP3) –> Bluetooth (AptX) –> Kuulokkeet tai kotistereo

Häviöllinen pakkaaminen toimii vain kerran

Jos muunnat wav-muotoisen äänitiedoston mp3-muotoon, ja purat sen takaisin waviksi, menetetät prosessin tuloksena n. 30-50% alkuperäisestä informaatiosta. Menetetyn informaation määrä riippuu mp3-tiedostolle asetetusta bitratesta, mutta lopputulos on silti käytännössä sama: ilman alkuperäistä tiedostoa et koskaan saa kuulla miltä tallennetu ääni alun perin kuulosti. Jos pakkaat äsken purkamasi wavin uudestaan mp3:ksi, menetät yhä enemmän alkuperäisestä informaatiota jne. jne.

Kuvankäsittelyssä sama asia tapahtuu, jos esimerkiksi tallennat ottamasi valokuvan JPG-muotoon, avaat tallennetun tiedoston ja tallennat sen uudestaan JPGnä useita kertoja.

Häviöllisiä formaatteja käytettäessä lähdetiedoston tulisi siis aina olla alkuperäisessä, häviöttömässä muodossa.

Häviöttömistä formaateista tärkeimpiä ovat WAV ja AIFF, jotka ovat edustavat digitaalista ääntä ”puhtaimmillaan” – nämä tiedostomuodot ovatkin digitaalisen äänen tuotannossa standardikamaa.

Häviöttömyys ei kuitenkaan tarkoita, etteikö tiedostojen kokoa voisi optimoida. Esimerkiksi wav ja aiff tiedostoja voidaan tarvittaessa pakata pienempään tilaan ilman, että tiedostojen äänenlaatu heikkenee lainkaan. Tämä onnistuu esimerkiksi pakkaamalla wav-tiedosto ZIP-paketin sisälle. Yleisimmin käytetään kuitenkin tätä tarkoitusta varten suunniteltuja ääniformaatteja, joista yleisimpiä ovat kaikille varmaankin entuudestaan tutut  FLAC, ALAC ja APE.

Kotistudiossa tulisi siis tallentamiseen käyttää aina häviöttömiä formaatteja. Mutta millä tarkkuudella nämä tiedostot tulisi tallentaa?

2 – CD-tasoinen ääni ei ole suunniteltu musiikin tuottamiseen

Useimmille musiikin harrastajille käsite ”CD-tasoinen ääni” on varmasti tuttu. Tällä tarkoitetaan digitaalista PCM-enkoodattua stereoääntä, jonka bittisyvyys on 16 ja näytteenottotaajuus 44100 hertsiä. Jos esimeriksi rippaat  CD-levyn koneellesi, tai ostat lossless-muodossa olevaa musiikkia vaikkapa BandCampista, toimitetaan se sinulle useimmiten CD-tasoisena. Yksi minuutti pakkaamatonta CD-tason ääntä vie tilaa noin 10 megatavua, ja tiedoston bitrate on noin 1400 kilobittiä sekunnissa (vrt. mp3-formaatin maksimi 320).

CD:n ääniformaatti on suunniteltu nimen omaan kuluttajia varten, eli musiikin levitystä silmälläpitäen. Musiikin tuottajan näkökulmasta tarvitaan kuitenkin suurempaa tarkkuutta musiikin tallentamista ja käsittelyä varten. Tämä johtuu yksinkertaisesti siitä, että äänitiedostoja tullaan tallennuksen jälkeen aina käsittelemään jollakin tavoin – esimerkiksi miksaamalla niitä muiden ääniraitojen kanssa sekvensserissä, tai lisäämällä ääniraitojen päälle erilaisia efektejä.

Bitit ja hertsit – dynamiikka ja tarkkuus

Digitaalisen äänen ”laatua” eli informaatiomäärää mitataan kahdella akselilla: äänenvoimakkuutta eli resoluutiota bitteinä, ja tarkkuutta eli näytteenottotaajuutta hertseinä.

Bitit voidaan ajatella äänitiedostossa Y-akseliksi, ja hertsit X-akseliksi: bittien määrä (vertikaalinen Y) kuvaa kuinka monta eri äänenvoimakkuuden tasoa tiedoston sisälle on mahdollista tallentaa, ja hertsit (horisontaalinen X) kertoo puolestaan kuinka moneen osaan äänitiedosto on pilkottu (kuinka usein siitä otetaan ”näytteitä” sekunnissa).

CD-tasoinen ääni on pilkottu horisontaalisesti 44100 osaan sekunnissa, ja pystysuunnassa 0-65,536 (2^16) eri äänenvoimakkuuden tasoon.

Digitaalisessa tuottamisessa tulee aina käyttää niin suurta tarkkuutta, että mahdolliset nauhoituksessa tai editoinnissa tapahtuneet muutokset ja vääristymät jäävät kauas suunnitellun levitysformaatin toistoalueen ulkopuolelle. Musiikin tapauksessa kohdeformaatti on useimmiten CD-tasoinen ääni, joten tallennus ja editointi on parasta aina tehdä tätä korkeammalla resoluutiolla.

Haluan vielä tähdentää, että tässä ei ole kyse ”hifistelystä”: korkean resoluution käyttämisen tarkoituksena ei ole havaittavasti paremman kuuloinen soundi, vaan ainoastaan erittäin tarkasti tallennettu äänitiedosto.

3 – nauhoita aina 32-bittisenä ja vähintään 44.1 kilohertsin tarkkuudella

Suositeltavinta on tallentaa tiedostot aina 32-bittisenä, jotta vältetään edes teoreettinen mahdollisuus digitaalisen särön (eng. digital clipping) syntymiseen.

Tämä nyrkkisääntö koskee nimenomaan tietokoneen sisällä tapahtuvaa tallentamista. Jos esimerkiksi haluat tallentaa  VST-instrumenttiraidan sekvensserissä uudelle audioraidalle jatkokäsittelyä varten, tulisi se aina tallentaa 32-bittisenä! Akustisten instrumenttien nauhoituksessa äänikortin kautta riittää 24-bittinen tarkkuus, sillä A/D -muunnoksessa ei tätä korkeampaa tarkkuutta voida käyttää.

Testaa itse sekvensserillä tai editorilla:

  1. Suojaa korvasi: lisää master-kanavalle limitteri ja madalla äänentoistolaitteidesi äänenvoimakkuutta reilusti.
  2. Tuo uudelle raidalle virheetön (särötön ja normaalisti tallennettu) wav-tiedosto
  3. Nosta raidan äänenvoimakkuutta reilusti (+ 20-30 dB). Jos haluat korostaa efektiä, ohjaa ulostulo uudelle ääniraidalle ja nosta tämän uudenkin raidan tasoa + 20-30dB
  4. Ohita master-kanavan limitteri, ja tallenna (export/bounce/render) projekti kolmella eri resoluutiolla: 16, 24 ja 32 bittisenä
  5. Tuo tiedostot takaisin ohjelmaan, ja madalla äänenvoimakkuutta kuuntelukelpoiselle tasolle. Huomaat varmasti mikä tiedostoista on 32-bittinen…

Entäpä sitten näytteenottotaajuus? Yleensä 44.1 kilohertsiä on riittävä tarkkuus, mutta hyvä käytäntö on nauhoittaa 2 x korkeammalla näytteenottotaajuudella kuin mihin lopputulokseen tähtäät. Eli, jos olet vaikkapa saanut viikonlopuksi lainaan kaverisi huippukalliin analogisynan, tai bändinne solisti ehtii studiolle vain kerran vuodessa, kannattaa alkuperäistallennukset tehdä 88.2 kilohertsin tarkkuudella. Jatkossa voit sitten tehdä näistä näistä ”master-nauhoista” 44k versiot, jos koneesi teho tai kovalevytila eivät mahdollista koko projektin läpiviemistä 88k tarkkuudella.

Korkeampia taajuuksia käytettäessä etuna on myös se, että jos aiot muokata tallennettuja äänitiedostoja radikaalisti useilla erilaisilla digitaalisilla efekteillä, säilyy äänenlaatu parempana jos koko prosessi tapahtuu alusta loppuun saakka korkealla näytteenottotaajuudella.

Varmista että käyttämäsi ohjelmisto on asetettu käyttämään haluttua bittisyvyyttä aina kun tallennat tiedostoja. Esimerkkinä FL Studio 12 (asetus tehdään kohdassa ”WAV bit depth”)

Bittisyyden pienentäminen

LISÄYS ARTIKKELIIN 2.12.2016: Asiantuntevan lukijapalautteen perusteella haluan mainita tässä yhteydessä myös ditheröinnin käsitteen.

Yleisesti ottaen aina kun tiedoston bittisyvyyttä muutetaan pienemmäksi, täytyy tallennettavaan tiedostoon lisätä keinotekoista häiriötä havaittavan äänenlaadun säilyttämiseksi.

Ideaalitilanteessa tämä on ajankohtaista vasta siinä vaiheessa, kun teet biisistäsi 16-bittisen version (ns. mixdownin) digitaalista levitystä varten. Yleensä sekvensserisi hoitaa ditheröinnin automaattisesti, mutta toimenpiteen tarpeellisuus on syytä mainita tässä yhteydessä.

Bittisyvyyttä kasvatettaessa dither ei ole tarpeen – voit siis huoletta tuoda vaikka 8-bittisiä sampleja 32-bittiseen projektiin.

4 – Muokkaa soundi halutun kaltaiseksi mahdollisimman aikaisessa vaiheessa

Viimeiset kaksi nyrkkisääntöä koskevat enemmän miksaamista, mutta liittyvät myös digitaaliseen äänenkäsittelyyn.

Puuttuuko kitarasta alapään muhkeutta, tai VST-syntikasta kirkautta ja heleyttä? Onko bassorummun perustaajuus väärällä korkeudella biisin sävellajiin nähden? Digitaalisen kotistudion etuna on useimmiten se, että Sinulla itselläsi on mahdollisuus päästä vaikuttamaan biisin kaikkiin instrumentteihin ja niiden soundiin jo alusta pitäen. Tästä kannattaa ottaa kaikki hyöty irti.

Sen sijasta, että nauhoitat soundit ensin koneelle ja muokkaat niistä vasta jälkeenpäin oikean kuuloisia, kannattaa äänellinen tasapaino ja oikea fiilis hoitaa kuntoon heti nauhoitusvaiheessa. Vaikka modernit digitaaliset työkalut ovat hämmästyttävän tehokkaita, eivät hyvätkään efektit koskaan korvaa laadukasta alkuperäistä tallennetta.

Tämä nyrkkisääntö on erityisen helppo ottaa käyttöön, jos teet omaa musiikkia pelkästään VST-instrumentteja käyttäen: syntikan filtterin, envelopen tai  sisäänrakennettujen efektien käyttäminen on usein tehokkain tapa saavuttaa juuri sellainen dynamiikka ja balanssi, jota biisissäsi tarvitset. Joskus soundia ei tarvitse muokata tämän jälkeen enää lainkaan!

Moderneissa VST-syntikoissa on yleensä erinomaiset säädöt äänen muokkaamiseen. Esimerkkinä Linplug Spectral
Moderneissa VST-syntikoissa on yleensä erinomaiset säädöt äänen muokkaamiseen, sekä runsaasti laadukkaita efektejä. Esimerkkinä Linplug Spectral

5 – Vältä turhaa prosessointia

Digitaalinen teknologia tarjoaa rajattomasti mahdollisuuksia, mutta yllättävän usein hyvä soundi on mahdollista saavuttaa varsin pienellä kikkailulla ja efektoinnilla.

Jos huomaat omissa projekteissasi, että käytät joka ikisellä raidalla useita efektejä, riskinä on että biisin soundi kärsii liiallisesta prosessoinnista. Tämä on vääjäämätön seuraus digitaalisesta signaalinkäsittelystä: jokainen pienikin muutos signaaliketjuun tuo aina mukanaan ei-toivottuja muutoksia alkuperäiseen soundiin. Näitä muutoksia on mahdollista minimoida ja ennaltaehkäistä käyttämällä korkeaa resoluutiota (32bit/88200 Hz), mutta täysin niitä ei koskaan ole mahdollista eliminoida. Lyhyt signaalitie on siis hyvä tavoite myös digitaalisessa studiossa!

Yksittäisten raitojen muokkaamisen sijasta useimmiten on suositeltavaa yhdistää saman tyyliset instrumentit (esimerkiksi rummut, syntikat, laulut, bassot) erikseen omille kanavilleen (eng. ”bus” tai ”bus track”), ja lisätä tarvittavia efektejä vain näille ryhmäkanaville (eng. ”group bus” tai ”group”). Lopputuloksena on useimmiten luonnollisempi soundi sekä alentunut prossukuorma.

Tämä seikka on itselleni tullut vastaan erityisesti kaupallisia samplekirjastoja käytettäessä: niiden mukana toimitettavat bassorummut, syntikat sekä muut efektit on yleensä jo niin hyvin käsitelty, ettei niitä ole enää tarvetta lainkaan prosessoida yksitellen. Ja jos valitsemasi sample ei oikein istu senhetkiseen projektiin, on se aina helpompaa vaihtaa uuteen kuin muokata sopivaksi efektien avulla…

Laadukasta digitaalisen äänen vuotta 2016!

Toivottavasti sinulle on hyötyä tämän artikkelin vinkeistä, ja voit paremmin keskittyä siihen tärkeimpään eli oman musiikin tekemiseen.

Vuosi on jo ehtinyt vaihtua Kotistudio.fi -bloginkin elinaikana. Toivotan siis kaikille menestyksekästä ja tuotteliasta vuotta 2016, sekä tietysti antoisia hetkiä blogin parissa!

Tulevissa artikkeleissa tullaan käsittelemään tarkemmin miksaamista, VST-efektien käyttöä sekä musiikin tekemistä yleisesti. Pysy kuulolla!

Riittääkö 44 kilohertsiä?

Millä resoluutiolla sinä tallennat omat biisisi? Ärtsyttääkö häviöllisesti pakatun musiikin kasvava rooli musiikin levityksessä?

Voit jättää kommentin ja kertoa omat vinkkisi äänenlaadun maksimointiin musiikin tekemisessä.

8 kommenttia artikkeliin “Oma kotistudio osa 3/3 – Digitaalinen ääni”

  1. Tsemppiä blogaukseen, hyviä pointtejahan tässä on tullut esille.

    Tuosta bittisyydestä kuitenkin: minkään AD-muuntimen dynamiikka-alue ei ole niin laaja, että analogisen äänen tallentamisessa olisi hyötyä 32-bit float -formaatista. ”Normaali” 24-bit fixed point -formaatti riittää kyllä. DAWit toisaalta prosessoivat nykyään signaaleja sisäisesti yleensä float-muodossa, joten sikälikään lähdeformaatilla ei ole niin suurta merkitystä. Alle 24 bitin näytteistystä ei ole oikein mitään syytä käyttää, tällä olisi jo merkitystä lopputuloksen kannalta.

    Digitaalisesti tuotetun äänen kanssa tilanne on vähän toinen, kun ei ole tuota AD-muunnosta kärsittävänä.

    Ja ei muuta kuin lisää tekstejä eetteriin!

    1. Kiitokset kommentista & tarkennuksesta!

      Minua kiinnostaa bittisyvyyden kanssa lähinnä se, voidaanko antaa esimerkkejä tilanteista joissa 32-bittisyydestä olisi haittaa? Jos muutaman megan heitto tiedostojen koossa ei aiheuta yöunien menetystä, niin käytännössähän suurempi tarkkuus on aina etu eikä haitta? En halua tällä kyseenalaistaa kommenttiasi, vaan ainoastaan saada selvyyttä siihen miksi 24-bittisyyttä ”puolustetaan” monessa yhteydessä.

      Tämä artikkeli on herättänyt toistaiseksi eniten keskustelua (niin blogissa kuin sen ulkopuolellakin), mikä on ollut itselleni yllättävää – kirjoitin tämän lähinnä siksi, että saadaan ”tylsät perusjutut” alta pois. Pitänee jatkossakin sivuta hieman ”nörtimpiä” aiheita aina tilaisuuden tullen…

      1. No, suuremmat tiedostot tuossa lähinnä ovat haittana. Halusin vain tähdentää, että analogisesti tallennetun äänen kohdalla ei saavuteta lisätarkkuutta käyttämällä 32 bit float -formaattia, koska koko AD-muuntimen tuottama dynamiikka-alue tulee jo katetuksi 24-bittisenäkin signaalina.

        Esim. wikipediasta (https://en.wikipedia.org/wiki/Audio_bit_depth):
        ”24-bit audio could theoretically encode 144 dB of dynamic range, but based on manufacturer’s datasheets no ADCs exist that can provide higher than ~125 dB”

        Lähinnä hain tällä sitä, että kotistudiossakin kannattaa mielestäni tutustua näihin perusasioihin ja tehdä informoituja päätöksiä, vaikkei varman päälle pelaamisesta mitään merkittävää haittaa olisikaan. On myös hyvä ymmärtää fixed- ja floating point -formaattien ero.

        1. OK, kiitokset tarkennuksesta ja tuosta alkuperäisestä huomiosta A/D muunnokseen liittyen.
          Tuotan itse kaikki soundit digitaalisesti, joten äänitykseen liittyvät asiat eivät ole mulle tuttuja.

          Tämän tyyppiset kommentit ovat siis jatkossakin tervetulleita =)

  2. Tuosta häviöllisyydestä sen verran, että musiikin jakeluun häviöllinen pakkaus kyllä sopii mitä parhaiten ja kykenee varsin hyvin replikoimaan alkuperäisen äänitteen. Mp3-tiedostoja ei voi ihmiskorvin erottaa alkuperäisestä, nimenomaan ihmiskuulon toiminnan ymmärtäminen on mp3-pakkauksen mullistava idea. Riivitään pois sellainen info, jota ei pystytä havaitsemaan (ihmiskorvin). Mitä väliä, jos jollain analysaattorisoftalla voidaan huomata pois maskatun informaation puute?

    Onhan se useissa tuplasokkotesteissä todistettu, että häviöllisesti pakattua ääntä ei kertakaikkiaan pysty erottamaan alkuperäisestä edes parhaissa mahdollisissa kuunteluolosuhteissa.

    Muuten ei pahempia asiavirheitä.

    1. Kiitos kommentista!

      Häviöllinen pakkaus toimii tosiaan mainiosti jos se tehdään suoraan alkuperäisestä tiedostosta. Nykyään ongelmana on usein se, että tiedostoa luotaessa ei kukaan osaa sanoa mihin kanaviin ja formaatteihin biisi lopulta muunnetaan. Siksi en musiikin tuottajan näkökulmasta näe mitään syytä häviöllisten formaattien käytölle – parempi on varmistaa oman musiikin mahdollisimman korkea tekninen taso niin pitkälle kuin siihen vain on itse mahdollista vaikuttaa.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *