Bankovní institut vysoká škola, a.s.

Katedra matematiky, statistiky a informačních technologií

Současné formáty pro záznam zvuku

Bakalářská práce

Autor: Viktor Čapek

Informační technologie, MPIS

Vedoucí práce: Ing. Bohuslav Růžička, CSc.

Praha Leden, 2012

Prohlášení:

Prohlašuji, že jsem bakalářskou zpracoval samostatně a v seznamu uvedl veškerou použitou literaturu. Svým podpisem stvrzuji, že odevzdaná elektronická podoba práce je identická s její tištěnou verzí, a jsem seznámen se skutečností, že se práce bude archivovat v knihovně BIVŠ a dále bude zpřístupněna třetím osobám prostřednictvím interní databáze elektronických vysokoškolských prací.

V Bavorově dne 8.1.2012 Viktor Čapek

Poděkování:

Chtěl bych poděkovat vedoucímu práce panu Ing. Bohuslavu Růžičkovi, CSc. za jeho pomoc a trpělivost při zpracování této bakalářské práce.

Anotace:

Cílem této práce je seznámit čtenáře se základními principy převodu z analogového na digitální signál a základními principy ztrátových i bezeztrátových kompresních algoritmů. Součástí práce je uvedení nejpoužívanějších zvukových formátů a jejich srovnání.

Annotation:

The aim of this paper is to acquaint the reader with the basic principles of converting from analog to digital signal and the basic principles of the loss and algorithms. The work putting the most used audio formats and their comparison.

Současné formáty pro záznam zvuku

Obsah

Úvod ...... 3

1. Zvuk a jeho vlastnosti ...... 4 1.1. Lidské ucho a zvuk ...... 6 1.2. Binaurální slyšení ...... 7 2. Číslicová modulace ...... 9 2.1. Modulace PCM ...... 10 2.1.1. Vzorkování ...... 10 2.1.2. Kvantování ...... 11 2.1.3. Kódování ...... 13 2.2. DPCM ...... 14 2.3. DSD ...... 14 2.4. Datová sběrnice I2S ...... 15 2.5. DVD – Audio ...... 17 2.6. SACD ...... 18 3. Komprese zvukových souborů ...... 20 3.1. Bitrate ...... 21 3.2. Ztrátová komprese ...... 22 3.3. Sub-Band Coding ...... 23 3.4. Spectral Band Replication...... 24 3.5. Psychoakustický model ...... 28 3.5.1. Křivka slyšitelnosti ...... 28 3.5.2. Frekvenční maskování ...... 29 3.5.3. Časové maskování ...... 30 3.6. Bezeztrátová komprese ...... 31 4. Zvukové formáty ...... 33 4.3. Ztrátové formáty zvuku ...... 33 4.3.1. MPEG-1 Layer3 ...... 33 4.3.2. WMA ...... 35

1 Současné formáty pro záznam zvuku

4.3.3. AAC ...... 36 4.3.4. OGG Vorbis ...... …36 4.3.5. ATRAC ...... 38 4.3.6. Dolby Digital ...... 39 4.4. Shrnutí ...... 41 4.5. Bezeztrátové formáty zvuku ...... 43 4.5.1. FLAC ...... 43 4.5.2. ...... 44 4.5.3. Monkey`s audio ...... 45 4.5.4. WavPack ...... 45 4.5.5. MLP ...... 46 4.5.6. Shrnutí ...... 47

Závěr ...... 49

2 Současné formáty pro záznam zvuku

Úvod

Jak již vyplývá z názvu práce, cílem je seznámit čtenáře se současnými formáty zvuku a jejich použitím, protože v dnešním „digitálním světě“ je potřeba zvuk zaznamenávat, upravovat a reprodukovat. V kapitole 1 jsem se zaměřil na popis zvuku, jeho charakteristiky a šíření a také na vlastnosti lidského ucha a jeho možnosti slyšení a lokalizace zvuku. V kapitole 2 popisuji základní principy převodu analogového zvuku na zvuk digitální. V této kapitole jsem se zmínil hlavně o nejpoužívanější PCM modulaci. V kapitole 3 se snažím popsat principy komprese digitálního zvuku, zaměřuji se zde hlavně na ztrátové komprese, popisuji zde principy psychoakustického modelu a podpásmového kódování, jenž jsou jedny z nejdůležitějších prvků této komprese. V kapitole 4 již zmiňuji nejpoužívanější ztrátové a bezeztrátové formáty zvuku a jejich parametry a vlastnosti. V této kapitole jsem také provedl měření účinnosti komprese bezeztrátových kodeků. V závěru práce uvádím celkové shrnutí této práce. Tato práce by měla čtenářům pomoci ujasnit si základní pojmy a metody v oblasti zpracování zvuku.

3 Současné formáty pro záznam zvuku

1. Zvuk a jeho vlastnosti

Zvuk je mechanické vlnění v látkovém prostředí. Rozsah frekvencí tohoto vlnění, které je člověk schopen vnímat, leží v intervalu přibližně od 16 Hz do 20 000 Hz. Někdy literatura uvádí rozsah jen do 16 000 Hz. Je to závislé na kvalitě sluchu a stáří každého jedince. I když je mechanické vlnění mimo slyšitelný frekvenční rozsah, označuje se také jako zvuk (infrazvuk, ultrazvuk). [4]

Zvuk s frekvencí nižší než 16 Hz nazýváme infrazvuk a zvuk s frekvencí vyšší než 20 kHz nazýváme ultrazvuk. Děje spojené se vznikem zvuku jeho šířením a vnímáním se nazývají akustika. Zdrojem zvuku může být každé pohybující se těleso. Prostředí, ve kterém se zvuk šíří, nazýváme vodič, může být plynné, kapalné i pevné. Vakuum neboli vzduchoprázdno, je zase dokonalá zvuková izolace. V kapalinách a plynech se šíří jako postupné vlnění podélné, v pevných látkách jako postupné vlnění podélné a příčné. Vlnové délky slyšitelného zvuku jsou v rozmezí od 21 m do 21 mm (21 m = 16 Hz, 21 mm = 16 kHz). Šíření rychlosti zvuku je také závislé na druhu a hustotě prostředí, na teplotě t a vlhkosti vzduchu. Rychlost šíření zvuku ve vzduchu se v běžných podmínkách spočítá podle vzorce:

c = 331,8 m/s + 0,6.T [m/s] kde T = teplota vzduchu ve stupních Celsia. Standardizovaná hodnota 340 m/s pak odpovídá teplotě vzduchu 13,6 °C. [2]

Při dopadu zvuku na pevnou překážku dochází k částečné absorpci zvukové energie a částečnému odrazu, který závisí na druhu obou prostředí. Intenzita odraženého vlnění I je vždy menší než intenzita na stěnu dopadajícího vlnění I0.

a = I0-I / I0

Podíl se nazývá koeficient absorpce zvuku při odrazu [ a ] a je závislý především na materiálu odrazové plochy a na frekvenci zvuku, kdy při nižších tónech je koeficient absorpce tónu menší a pro vyšší tóny naopak větší. [3]

4 Současné formáty pro záznam zvuku

Dopadne-li zvuková vlna na velkou překážku (plochu), nastane odraz zvuku. Zde platí pravidlo o shodné velikosti úhlu dopadu a odrazu, které můžeme vidět na obrázku (Obr. 1). Dostatečně veliká překážka má rozměry přesahující vlnovou délku zvukového vlnění. Pokud je plocha rovná a dostatečně velká, pak se zvuková vlna od překážky odrazí pod „dopadovým Obr. 1 – Odraz zvuku 1 úhlem“ a zachová si svůj charakter, fázi i amplitudu (toto tvrzení platí pro tuhou překážku). Pokud není překážka rovná, nastává pak rozptyl nebo soustředění zvuku podle toho, jestli je odrazová plocha vydutá nebo vypouklá.

Lidské ucho dokáže rozlišit krátké zvuky následující po sobě tehdy, je-li mezi nimi časový interval alespoň 0,1 s, proto dostane- li se zvukové vlnění od zdroje k překážce a zpět za 0,1 s nebo za dobu delší, vzniká ozvěna (Obr. 2). Pro rychlosti zvuku ve vzduchu (340 m/s) musí být překážka od posluchače vzdálena minimálně 17 m. Pokud je překážka blíže ke zdroji zvuku než 17 m, vzniká dozvuk (prodloužení zvuku původního). V malých místnostech slouží Obr. 2 – Ozvěna 2 k zesílení sluchového vjemu, neboť následuje po původním zvuku tak rychle, že s ním splývá. Jestliže má zvuková vlna v cestě překážku nepřesahující svými rozměry vlnovou délku dopadajícího zvuku, pak se vlnění „ohýbá“ kolem této překážky a zvuk můžeme slyšet i za touto překážkou. To neplatí při překážce větší než je vlnová délka, kde se vlnění kolem ní již neohýbá a za překážkou nastává tzv. akustický stín a zvuk není slyšet. Mohli bychom slyšet pouze zvuk, který se k nám dostal odrazem od jiné překážky nebo se částečně dostal skrz překážku.[3] 12

1 http://www.techmania.cz/edutorium/clanky.php?key=659 [cit. 2011-10-11] 2 http://www.techmania.cz/edutorium/clanky.php?key=662 [cit. 2011-10-11]

5 Současné formáty pro záznam zvuku

1.1. Lidské ucho a zvuk

Jak již bylo řečeno v předchozí kapitole, lidské ucho dokáže rozpoznat frekvence 16 Hz–16 kHz, někdy se také uvádí 16 Hz–20 kHz (toto závisí na osobní dispozici a také na věku). Lidské ucho je nejcitlivější v oblasti 1 kHz–3 kHz, což je oblast frekvence lidského hlasu. Lidské ucho nevnímá hlasitost zvukového signálu lineárně, ale logaritmicky. Vnímá změny tlaku p na bubínek a je také schopné bez trvalého poškození sluchu zpracovávat signály v rozsahu 0–140 dB (při více jak 140 dB dochází k trvalému poškození sluchu). Lidské ucho vnímá hlasitost zvuku jako subjektivní veličinu, která je závislá na akustickém tlaku p. Proto byla stanovena měřitelná veličina Lp (hladina akustického tlaku). Za hodnot 0 dB je považována hodnota tlaku p = 20 μPa, což je rovno prahu slyšitelnosti tónu o frekvenci 2 kHz. Jedná se o logaritmickou jednotku narozdíl od další jednotky son, která je lineární a vyjadřuje subjektivně vnímanou hlasitost zvuku. V tabulce (Tab. 1) je uvedena hlasitost a zvuková hladina pro různé zdroje zvuku.[4]

Tab. 1 Hlasitost zvuku pro různé zdroje 3

Akustický tlak p Zvuková Situace a zdroj zvuku Hlasitost (SON) (Pascal) hladina Lp

Hranice bolesti 100 Pa 134 dB ~ 676 son Poškození sluchu při krátkodobém působení 20 Pa od 120 dB ~ 250 son Proudové letadlo (vzdálené 100 m) 6,3–200 Pa 110–140 dB ~ 125–1024 son Sbíječka (1 m) / diskotéka 2 Pa ~ 100 dB ~ 60 son Poškození sluchu při dlouhodobém působení 0,63 Pa od 90 dB ~ 32 son Silnice se silným provozem (10 m) 0,2–0,63 Pa 80–90 dB ~ 16–32 son Osobní auto (10 m) 0,02–0,2 Pa 60–80 dB ~ 4–32 son Televizor (1 m) - pokojová hlasitost 0,02 Pa cca 60 dB ~ 4 son Nevzrušený rozhovor (1 m) 2 · 10-3–6,3 · 10-3 Pa 40–50 dB ~ 1–4 son Velmi tichá místnost 2 · 10-4–6,3 · 10-4 Pa 20–30 dB ~ 0,15–0,4 son Šum listů ve větru, klidný dech 6,3 · 10-5 Pa 10 dB ~ 0,02 son Hranice slyšitelnosti při 2 kHz 2 · 10-5 Pa 0 dB 0 son

Vnímání zvuku každého jedince je naprosto subjektivní a nelze jednoduše popsat, jak na člověka bude určitý zvuk působit. Nelze tedy jednoduše určit hranici, co již považovat za hluk

3 http://cs.wikipedia.org/wiki/Son_%28akustika%29 [cit. 2011-10-14]

6 Současné formáty pro záznam zvuku a co ještě za normální zvuk. Pokud na lidské ucho bude působit hluk, může dojít ke sluchové únavě, jež může vymizet do několika hodin. Pokud ale bude hluk déletrvající, dochází k trvalému posunu prahu slyšitelnosti a při hluku s úrovní přesahující 130 dB může dojít k mechanickému poranění orgánů ucha, tzv. akustickému traumatu.

1.2. Binaurální slyšení

V této kapitole bych rád popsal základní princip binaurálního slyšení. Zjednodušeně řečeno se jedná o vnímání zvuku z prostoru oběma ušima. Zvuk z prostoru dorazí do obou uší s různou intenzitou a fázovým zpožděním a na základě rozdílu těchto hodnot je mozek schopen rozlišit vzdálenost a směr zvukového zdroje (jedná se o tzv. lokalizaci zvuku). V centrální nervové soustavě pak dochází ke spojení signálů z obou uší a dochází k binaurální sumaci, kde vnímaná hladina zvuku je o 3 dB vyšší než při monourálním poslechu.

Jelikož jsou uši na hlavě od sebe vzdáleny a každé je na jiné straně, zvukový signál, který k nim dorazí, je v každém uchu odlišný, a vzniká tak rozdíl intenzivní, časový a fázový.

Intenzitní rozdíl: při umístnění zdroje ve střední rovině dopadne zvuková energie na obě uši se stejnou intenzitou. Pokud zvukový zdroj budeme přesouvat do strany, začne být intenzita rozdílná a lokalizujeme zvuk směrem k větší intenzitě. Tento rozdíl se uplatňuje hlavně u zdrojů, které se nachází blíže k nám a je dán tím, že jedno ucho je ke zdroji zvuku blíže než druhé. Intenzitní rozdíl se uplatňuje u vysokých tónů více než u tónů nižších.

Větší význam má však rozdíl intenzity způsobený akustickým stínem hlavy, a uplatňuje se u tónů vysokých, pro něž je hlava dostatečnou překážkou zvukových vln, neboť vlnová délka se blíží rozměrům hlavy. Hluboké tóny, které mají velkou délku vlny, hlavu obejdou a intenzita zvuku je v obou uších stejná. Bylo zjištěno, že hluboké tóny, asi do 200 Hz, přicházejí do obou uší se stejnou intenzitou. Od 500 do 3000 Hz činí rozdíl asi 7–8 dB, pak se rozdíl rychle zvětšuje, až dosáhne u 5000 Hz 25 dB a po zpětném poklesu znovu u 10 000 Hz 30 dB. 4

4 http://www.audified.com/projekt/vavcjamu/vyuka/prednasky/files/A4_Slyseni.pdf [cit. 2011-10-16]

7 Současné formáty pro záznam zvuku

Časový rozdíl: dopadu zvukových vln stejných fází nám také pomáhá lokalizovat směr zvukového zdroje a vzniká tím, že vzdálený zvuk dorazí do jednoho ucha s časovým zpožděním než do ucha druhého.[5]

Trimble určoval tento časový rozdíl pomocí impulsů a zjistil, že lze rozeznat časový posun o 0,1 ms. Hornbostel a Wertheimer dokonce zjistili, že k časovému rozlišení stačí již rozdíl 0,03 ms (30 mikrosekund). Zvětšuje-li se tento časový rozdíl podle Trimbla na více než 2 ms, vnímají se dva rozdílné zvuky, každý v jiném uchu. Maximální časový rozdíl, který vyplývá ze vzdáleností obou uší u člověka, činí 0,6 ms. 5

Fázový rozdíl: se uplatňuje v situacích, při kterém dorazí zvuková vlna v odlišném úhlu od 0 a od 180 stupňů. Vznik fázového rozdílu a změny jsou závislé na vlnové délce a zvukový signál dorazí do vzdálenějšího ucha v odlišné fázi než do ucha bližšího.

Také čisté tóny kolem frekvence 3 kHz se dají obtížně lokalizovat, neboť časový rozdíl se již neuplatní a intenzitní rozdíl je malý. V běžném životě se setkáváme především se zvukem složeným jak z nízkých, tak z vysokých tónů, kde je lokalizace přesnější vlivem kombinace intenzitního a časového rozdílu. [5]

V této kapitole bych chtěl také zmínit pojem „zdánlivý zvuk“. Zvuk tehdy slyšíme z místa, kde zdroj signálu vůbec není. Uvedl bych příklad poslechu stereo nahrávky na dvou reprosoustavách umístěných stejně daleko od osy (reprosoustavy a posluchač tvoří rovnostranný trojúhelník) a z každé jde zvuk o stejné intenzitě a fázi. Sluchový orgán vyhodnotí pak zdroj zvuku přímo před námi.

Co prostorově lokalizujeme lépe: vyšší zvuk než nižší (proto také stačí jeden sub-basový reproduktor v audio sestavě) složené tóny než tón o jedné frekvenci pohybující se zdroj zvuku

5 http://www.audified.com/projekt/vavcjamu/vyuka/prednasky/files/A4_Slyseni.pdf [cit. 2011-10-16]

8 Současné formáty pro záznam zvuku

2. Číslicová modulace

V této kapitole bych chtěl popsat nejpoužívanější metody převodu analogového zvuku na zvuk digitální. Někdy mluvíme o analogu jako o spojitém signálu a o digitálním signálu jako nespojitém či diskrétním. V digitální reprezentaci se hodnoty vyjadřují čísly, kde jejich počet je konečný. Princip převodu spojitého signálu na nespojitý signál probíhá pomocí A/D (analog/digitál) převodníků v několika krocích, které budou popsány v následujících kapitolách. Existuje řada typů převodníků, kde každý používá jiné metody.

Komparační metoda Paralelní A/D převodník: Jedná se o nejrychlejší A/D převodník, protože převod probíhá v jednom časovém okamžiku. Kvantování vstupního signálu probíhá v komparátorech, které nám porovnávají vstupní napětí s odstupňovaným referenčním napětím. Referenční napětí vytvoříme z odporové sítě. Převodník s rozlišitelností n-bitů obsahuje 2n-1 komparátorů.

S postupnou komparací: Jde o zjednodušení paralelního převodníku při zachování krátké doby převodu. Výhodou je zachování vysoké rychlosti převodu při menším počtu komparátorů.

Kompenzační: Porovnává se vstupní napětí s hodnotou zpětnovazebního napětí, které je získané pomocí D/A převodníku. Kompenzační převodníky patří k nejpoužívanějším kvůli jednoduché konstrukci a relativní rychlosti.

Integrační: Základem těchto převodníků je integrátor, kde výstupem z převodníku je číslo odpovídající průměrné hodnotě vstupního napětí za určitou dobu. Vliv průměrování vyžaduje zapojit na vstup vzorkovací obvod. Použití integrátoru také potlačuje šumová napětí vyšších kmitočtů. Podle funkce rozlišujeme integrační A/D převodníky s mezipřevodem na kmitočet a s mezipřevodem na časový interval.

Sigma-delta: Tyto převodníky dosahují vysoké linearity převodu při vysokém rozlišení až 24 bitů, ale s nižší rychlostí převodu. Lze používat v aplikacích s frekvenčním pásmem do desítek kHz. Převodník se skládá ze sigma-delta modulátoru a číslicového filtru. [6]

9 Současné formáty pro záznam zvuku

2.1. Modulace PCM

Zkratka PCM vyjadřuje pulzně kódovou modulaci a je stále nejpoužívanějším typem modulace v digitální audiotechnice. Byla vytvořena roku 1937 Britem Alecem Reevsem. Pulzně kódovou modulaci právě využívá dnes nejrozšířenější audio formát CD-Audio a jeho vylepšená verze DVD-Audio. PCM je také využívána pro svou jednoduchost převodu, úpravy vzorků v časové oblasti a celkovou odolnost proti chybám přenosu, protože jeden chybný vzorek neovlivní následující vzorky. Nevýhodou je relativně velká šířka potřebného kmitočtového pásma. Tvorba pulzně kódovaného signálu se děje ve třech krocích: vzorkování, kvantování, kódování.

2.1.1. Vzorkování

Analogový signál nabývá nekonečného množství hodnot, které nemůže žádný A/D převodník zaznamenat, a proto každý vzorek vstupního signálu se při vzorkování omezí na nezbytný počet, se kterými A/D převodník dále pracuje. 6

Obr. 3 – Vzorkování spojitého signálu 6

Vzorkování se provádí rozdělením časové osy signálu (vodorovná) na stejně dlouhé úseky, kde z každého úseku odebereme jeden vzorek (na obrázku č. 3 jsou tyto vzorky

6 http://cs.wikipedia.org/wiki/A/D_p%C5%99evodn%C3%ADk [cit. 2011-10-21]

10 Současné formáty pro záznam zvuku znázorněny červenými body).7Takto získaná skupina diskrétních vzorků nám nemůže popsat původní analogový signál, a proto ztrácíme část detailů analogové křivky. Čím budou kratší úseky, tím bude lepší popis původního signálu. [6]

Aliasing nebo také chyba při vzorkování nastane, pokud se v původním spojitém signálu objeví frekvence vyšší než polovina vzorkovací frekvence, kterou také nazýváme Nyquistova frekvence. Shannon-Kotělníkův teorém praví, že poté dojde k úplnému a nenávratnému zkreslení signálu díky jevu nazývajícímu se aliasing. Tomu můžeme zabránit použitím filtru dolní propusti (tzv. antialiasing filtr) umístněného před A/D převodník. Ten vyšší frekvence než je Nyquistova odfiltruje. Při vzorkování se nejčastěji používají frekvence 44,1 kHz, 48 kHz, 88,2 kHz, 96 kHz a 192 kHz. Čím vyšší vzorkovací frekvence, tím je kvalitnější záznam (především vysokých kmitočtů).

Shannon-Kotělnikův teorém

fv ≥ 2fmax fv je vzorkovací frekvence fmax je frekvence nejvyšší obsažené přenášené harmonické

Například u CD-Audio záznamu je použito vzorkovací frekvence 44,1 kHz, takže na CD mohou být zaznamenány frekvence do 22 kHz. [6]

2.1.2. Kvantování

Osa vstupního signálu z obrázku (Obr. 4) je rozdělena na jednotlivé hladiny, které označujeme jako kvantizační úrovně. Při kvantování se na základě rozhodovací úrovně jednotlivým vzorkům získaných při vzorkování přidělí jednotlivé Obr. 4 – Kvantovací úrovně 7 kvantizační úrovně. Aby bylo

7 http://cs.wikipedia.org/wiki/A/D_p%C5%99evodn%C3%ADk [cit. 2011-10-23]

11 Současné formáty pro záznam zvuku možné určit, které hodnoty má po kvantování nabývat určitý vzorek, je rozdělen prostor kolem jednotlivých úrovní na toleranční pásy.

Na obrázku (Obr. 4) je naznačen kolem hodnoty 0. Každému vzorku zařazeného do daného tolerančního pásu je při kvantování přiřazena daná hodnota. Vzniká tak kvantizační chyba, což je vlastně rozdíl mezi skutečnou a "zaokrouhlenou" hodnotou po kvantizaci signálu. Kvantizační chyby způsobují vznik kvantizačního šumu. Čím budeme mít více kvantizačních úrovní, tím bude zkreslení menší. Zkreslení lze pozorovat na obrázku č. 4, kde červené body jsou vzorky a zelené body kvantované hodnoty.

Signál zpětně převedený z digitální podoby do analogové nemůže přesně odpovídat původnímu signálu. Černá čára na obrázku (Obr. 5) znázorňuje zrekonstruovaný analogový signál zpětným D/A převodem, zatímco modrá čára je původní analogový signál, ze kterého byl A/D převodníkem získán signál digitální (zelené body). [6]

Obr. 5 – Zrekonstruovaný spojitý signál 8

Dithering – Při kvantování dochází k určitému kvantizačnímu zkreslení, které je dáno rozdílem mezi skutečnou hodnotou vzorku a použité kvantizační úrovně. Dithering je metoda, která pomáhá kvantizační zkreslení potlačit pomocí přidání vhodného šumu do signálu.8

8 http://cs.wikipedia.org/wiki/A/D_p%C5%99evodn%C3%ADk [cit. 2011-10-26]

12 Současné formáty pro záznam zvuku

2.1.3. Kódování

Přiřazením jednotlivým vzorkům odpovídající kvantizačním hladinám n-bitové číselné hodnoty získáme zakódování do binární číselné soustavy. Protože se diskrétní signál většinou zpracovává v binární číselné soustavě, počet kvantizačních úrovní je roven n-té mocnině čísla 2. Např. u 16 bitového kódování je počet kvantizačních úrovní roven počtu 65 536 hodnot, u 24 bitového kódování je to dokonce 16 777 216 hodnot. Čím vyšší je bitová hloubka, tím je také lepší zaznamenaná dynamika audiosignálu. U 16bitového CD audiozáznamu je dynamika signálu 96 dB a u 24 bitového kódování dokonce 144 dB.

Výpočet dynamického rozsahu

N DRADC = 20*log(2 ) = 20*log(2) * N = 6.02 * N N = počet bitů

Na obrázku (Obr. 6) je znázorněno zakódování pomocí 3 bitů, tzn. 8 kvantizačních hladin. 9

Obr. 6 – Zakódování kvantizačních hladin 9

9 http://www.itpoint.cz/ip-telefonie/teorie/princip-zpracovani-hlasu-ip-telefonie.asp [cit. 2011-10-27]

13 Současné formáty pro záznam zvuku

2.2. DPCM

Differential Pulse Code Modulation – Diferenční pulsně kódová modulace kóduje pomocí PCM rozdíl mezi skutečnou a predikovanou (předpokládanou) velikostí z předchozích vzorků. Princip byl publikován v roce 1952. Někdy se nazývá také Diferenciální PCM.

Rozdíl mezi skutečným vzorkem a jeho predikovanou hodnotou bude menší než celý t Obr. 7 – Predikovaná hladina vzorek, což vede ke snížení datového toku. PCM. Modulace DPCM se příliš nepoužívá, protože lepší výsledky dosahuje její adaptivní varianta ADPCM.[7]

t

Obr. 8 – Rozdílové vzorky

ADPCM

Tento způsob kódování vychází z DPCM. Rozdílové vzorky jsou vytvářeny jako u DPCM, ale systém přizpůsobuje kvantování zejména velkým změnám hlasitosti kódovaného signálu, což vede k ještě větší úspoře bitů k zakódování vzorku.[7]

2.3. DSD

DSD je anglická zkratka slov „Direct Stream Digital“ a jedná se o způsob záznamu dat na nosiči SACD. Jde o jednobitový datový tok vzorkovaný frekvencí 2,8224 MHz (64 násobek hodnoty 44.1 kHz) vytvořený modulátorem vyššího řádu delta-sigma. Proces vytvoření DSD signálu je tedy shodné s 1bit delta-sigma A/D převodem, ale je odstraněn decimátor, který konvertuje datový tok do PCM. Modulace DSD je jednodušší než PCM. Mezi nevýhody DSD formátu patří nemožnost jakéhokoliv dalšího zpracování. Pro úpravy nebo postprocessing je nutné DSD nejdříve převést na PCM a po úpravách převést zpět. V praxi není DSD formát moc rozšířen, stále se nejvíce používá PCM kódování. Na obrázku (Obr. 9) můžeme vidět

14 Současné formáty pro záznam zvuku ukázku zakódování signálu, kde si můžeme zjednodušeně představit, že nejvyšší amplituda je interpretována sledem samých jedniček, naopak nejnižší posloupností nul.[8]10

Obr. 9 – DSD bitstream10

2.4. Datová sběrnice I2S

Datová sběrnice I2S slouží k internímu přenosu PCM modulovaného signálu mezi jednotlivými zařízeními zpracovávající digitální audio data, např. mezi CD transportem a DAC převodníkem v CD přehrávači. Jde o standardizovanou tří vodičovou sběrnici vyvinutou formou PHILIPS. Celý anglický název je Inter-IC Sound a je založen na odděleném zpracování hodinového a datového signálu. Jak bylo řečeno, sběrnice se skládá ze tří samostatných linek. První linka s označením SD (serial data), je multiplexovaná datová linka Druhá linka s označením WS (word select), slouží k výběru aktuálního slova Třetí linka s označením SCK (serial clock), obsahuje hodinový signál

Sběrnice je řízena jedním hlavním zařízením (MASTER), které generuje hodinový signál a hodinové signály ostatních podřízených zařízení (SLAVE) jsou od tohoto signálu odvozena (frekvence hodinového signálu – 32k Hz, 44,1 kHz, 48 kHz nebo jejich násobky).

10 http://diit.cz/node/30196 [cit. 2011-10-30]

15 Současné formáty pro záznam zvuku

Hlavní zařízení master může být jak přijímač, tak vysílač. Synchronizace dat je pak prováděna buď na vzestupnou nebo sestupnou hranu hodinového signálu podle prvního bitu master zařízení (MSB nebo LSB). Maximální délka použitého slova je 28 bitů. Na obrázku (Obr. 10) je znázorněna komunikace na sběrnici. [9] 11

2 11 Obr. 10 – I S přenos dat

11 http://www.interfacebus.com/I2S_Interface_Bus.html [cit. 2011-11-2]

16 Současné formáty pro záznam zvuku

2.5. DVD – Audio

U vytvoření formátu DVD-Audio byl požadavek na ještě kvalitnější nahrávky, pro které již CD-DA nemohlo stačit a také využít možností, které DVD nabízí pro video. K velkému používání však nedošlo, možná s příchodem konkurenta Super Audio CD, který je s kvalitou také na vysoké úrovni, ale je hlavně zpětně kompatibilní s klasickými CD přehrávači. Poprvé se DVD-Audio objevilo na konferenci AES (Audio Engineering Society) v září 1998. Finální verze formátu 1.0 platí od března 1999. Za tímto formátem stojí především koncern Matsushita (obchodní značky koncernu jsou Panasonic a Technics) na rozdíl od konkurenta Super Audio CD, které podporují společnosti Sony a Philips.

DVD-Audio nabízí oproti CD-Audio řadu nových vlastností včetně vyšší kvality, surround zvuku a delší doby přehrávání. Kapacita jednovrstvého DVD-Audio disku je 74 minut v plné kvalitě. Zvuk může být nahrán i v Dolby Digital, MPEG-1 stereo, MPEG-2 multikanál nebo DTS či SDDS atd. DVD-Audio dovoluje použít datový tok až 9,6 Mbps a může být využita i bezztrátová komprese MLP (Meridian Lossless Packing). Vzorky se kódují lineárně (LPCM) až od 16 bit, 20 bit nebo 24 bit a to představuje dynamický rozsah až 144 dB. Vzorkovací frekvence mohou být použity: 44,1 kHz, 48 kHz, 96 kHz, 176,4 kHz, 192 kHz. Kombinace kódování 24bit a vzorkovací frekvence 192 kHz přináší frekvenční rozsah až do 96 kHz (u sterea), což je téměř stejné jako u SACD a u 5.1 záznamu je použita vzorkovací frekvence max. 96 kHz a bitová hloubka 20 bit. To přináší frekvenční rozsah až 40 kHz. V tabulce (Tab. 2) je srovnání všech tří formátů. [10] 12

Tab. 2 – Přehled jednotlivých formátů 12

TYP CD-DA DVD-Audio SACD Kanálů 2 2/5.1/8 2/5.1/6 Vzorkovací frekvence na jeden kanál 44,1 kHz 96 kHz* 2,822 MHz Šíře slova 16 bitů (PCM) 12/16/20/24 bitů 1 bit Frekvenční rozsah 5–20 000 Hz 5–40 000 Hz* 5–96 000 Hz Dynamický rozsah 96 dB až 144 dB 120 dB Délka záznamu 74 min min. 74 min min. 74 min

* vzorkovací frekvence 96 kHz na jeden kanál (doporučená pro vícekanálový záznam 5.1)

12 http://www.hifi-voice.com/teorie-a-praxe/213-cd-vs-sacd-vs-dvd-a-vs-ui-posluchae-i.html [cit. 2011-11-5]

17 Současné formáty pro záznam zvuku

Stereo záznam může podporovat až 192 kHz/24 bit. Vícekanálový zvuk pak může podporovat nižší variantu, nejběžněji 96 kHz/24 bit pro hlavní kanály a 48 kHz/20 bit pro efektové kanály. Jak již bylo řečeno, kódování dat na disk je bezeztrátové. Pro kompatibilitu s běžnými DVD-video přehrávači bývá na DVD-Audio vrstvě ještě ztrátový stereo záznam kódovaný v MPEG 2/4. [10]

2.6. SACD

Z důvodu nemožnosti již zlepšovat CD-Audio formát bylo představeno v roce 1999 firmou SONY a PHILIPS Super Audio CD (SACD). Cílem byl formát, kde byl zvýšen dynamický a kmitočtový rozsah signálu a zároveň byl zpětně kompatibilní s CD. Tak vzniklo SACD, kde namísto LPCM modulace je použito jedno-bitové modulace označované DSD. 13

CD vrstva

SBM Direct CD (16/44,1)

High density vrstva Extra data Text Grafika Video

Šestikanálový mix Dva kanály stereo

Obr. 11 – Složení vrstev SACD nosiče 13 Aby byla zachována kompatibilita s CD-Audio, je médium vícevrstvé. Vrstva pro kompatibilitu je vytvořena „degradací“ původního DSD signálu pomocí technologie Super Bit Mapping Direct. [8]

Pro přehrání záznamu z HD vrstvy je zapotřebí SACD přehrávač. Tato vysokokapacitní záznamová (High Density) vrstva obsahuje dvoukanálový DSD zvuk, na které je zakódován signál s frekvenčním rozsahem až do 100 kHz a s dynamickým rozsahem více jak 120 dB.

13 http://www.diit.cz/clanek/super-audio-cd-popis-technologie/1045/ [cit. 2011-11-5]

18 Současné formáty pro záznam zvuku

Odborníky je zvuk hodnocen jako uvolněnější, detailnější, s větším prostorem pro jednotlivé nástroje. Na SACD vrstvě může být uloženo až šest kanálů se stejným frekvenčním i dynamickým rozsahem pro každý kanál. Jak je vidět na obrázku (Obr. 11), na HD vrstvě mohou být obsaženy kromě audio stop také textové (včetně informací o skladbě, interpretovi albu atd.) a grafické informace.

Na obrázku (Obr. 12) můžeme vidět způsob snímání jednotlivých vrstev SACD nosiče. I přes zvukové kvality a kompatibilitu s CD-Audio není SACD formát bohužel příliš rozšířen. Na obchodních pultech je omezený počet interpretů, Obr. 12 – Složení vrstev SACD nosiče14 jejichž nahrávky jsou v tomto formátu nahrané a cena je také vyšší než u CD-Audio nosiče. Samozřejmostí této technologie je také ochrana proti kopírování. [8] 14

14 http://www.diit.cz/clanek/super-audio-cd-popis-technologie/1045/ [cit. 2011-11-10]

19 Současné formáty pro záznam zvuku

3. Komprese zvukových souborů

Komprese dat nebo také komprimace dat je určena ke zmenšení datového toku a následně ke zmenšení velikosti datových souborů. Komprimace dat je tedy vhodná třeba k archivaci nebo při přenosu přes síť s omezenou rychlostí, což vede ke snížení doby nutné pro přenos. Při kompresi zvoleným kompresním algoritmem dochází ke kódování dat, kterým se odstraňují z dat redundantní informace. Aplikováním kompresních algoritmů se může objevit charakteristický zvukový projev znehodnocující výsledek. pre-echo (slabá kopie zvuku, který teprve zazní) reverb (kovově znějící ozvěna)

Kompresi dat lze rozdělit do dvou základních kategorií: Ztrátová komprese – při tomto typu komprese jsou některé informace z dat nenávratně odstraněny a nelze je zpět rekonstruovat. Tento typ komprese použijeme v případě, že je možné ztrátu některých informací tolerovat (v případě audio nebudeme kódovat frekvence, které stejně lidské ucho neslyší). Používá se pro kompresi zvuku i obrazu, kde si člověk díky nedokonalosti lidského sluchu a zraku chybějících informací nepostřehne nebo je degradace zvukové a obrazové kvality přijatelná.

Bezeztrátová komprese – na rozdíl od ztrátové komprese není tento typ tak účinný, ale velkou výhodou je, že komprimovaná data můžeme vrátit do původní podoby.

Kompresní poměr

Kompresní poměr nám udává podíl velikosti původních dat k velikosti komprimovaných dat. Pokud bychom měli datový soubor o velikosti 100 MB a po zkomprimování by dosahoval velikosti 10 MB, tak poměr velikosti souboru je 100/10 MB, což je kompresní poměr 1:10 (jedna ku deseti). Kompresní poměr je dán typem komprimovaných dat a volbou kompresního algoritmu.

Například skladba na záznamu CD-Audio má datový tok přibližně 1,4 Mbps, zatímco komprimované zvukové soubory dosahují standardně od 128 Kbps do 320 Kbps. Kompresní poměr je tedy asi 1:11 až 1:4. Pro bezeztrátovou kompresi jsou standardní poměry do 2:1.

20 Současné formáty pro záznam zvuku

NCDQ

Tento termín označuje kvalitu blížící se k CD (near CD quality). Takto jsou označovány komprimované formáty zvuku určitého datového toku – bitrate, který je těžko rozpoznatelný od CD-Audio nahrávky.

Kodek

Kodek je algoritmus, který převádí datový tok do zakódované formy. Pomocí kodeku lze tedy datový tok zakódovat a při následném přehrávání dekódovat zpět do původní podoby. Někdy je také označován jako Encoder. Často bývá právě kodek zaměňován se zvukovým souborem, příkladem může být třeba MP3, MP3 není kodek, je to audio formát (kodek pro MP3 může být třeba nejznámější LAME).

3.1. Bitrate

Bitrate, nebo také přenosová rychlost datového toku se uvádí se v kilobitech za sekundu (kbps nebo kb/s). Hodnota bitrate nám ukazuje, kolik kbit se musí zpracovat při kódování, dekódování během jedné sekundy.

Čím větší je bitrate (datový tok), tím bývá lepší kvalita výsledného zvuku, ale také velikost výsledného souboru. U nekomprimovaných formátů CD nebo WAV je bitrate až 1,4 Mbps, naopak u komprimovaného formátu se bitrate pohybuje v rozmezí od 32 kbps do 320 kbps.

Přenosovou rychlost vypočítáme vynásobením vzorkovací frekvence velikostí bitové hloubky vzorků. Dostaneme datový tok (bitrate) k zaznamenání jedné sekundy audio záznamu jednoho kanálu. Tuto hodnotu pak vynásobíme počtem kanálů a výsledkem je datový tok v bitech za sekundu. Tento výpočet platí pro konstantní bitrate (CBR), ale ještě se používá variabilní bitrate (VBR) a průměrný bitrate (ABR).

CBR

Constant bitrate, neboli stálý datový tok. Datový tok je konstantní po celou dobu kódování nebo dekódování souboru. CBR je jednodušší na kompresi, ale s daty je stále pracováno stejnou rychlostí, a to i v místě u audiosignálu, kde to není nutné (tiché pasáže ve skladbě nebo hraje pouze jeden nástroj) a mohlo by se kódovat s nižším datovým tokem. Výsledkem

21 Současné formáty pro záznam zvuku je pak větší velikost souboru. Tento typ se používá převážně u starších kompresních algoritmů. Výhodou je předvídatelná velikost výsledného audio nahrávky. [23]

VBR

Variable bitrate neboli variabilní datový tok. Uživatel si vybere požadovanou úroveň kvality, nebo rozsah datového toku. Variabilní bitrate tedy umožňuje vyšší datový tok na místech, kde jsou kódovány složitější pasáže skladby, zatímco menší datový tok se použije na jednodušší pasáže ve skladbě. Při kódování s VBR lze na stejný datový prostor zakódovat více dat než u CBR bez viditelné nebo slyšitelné ztrátě kvalitě obrazu nebo zvuku. Většina moderních ztrátových a bezeztrátových kodeků podporuje VBR. [23]

ABR

Average bitrate, neboli průměrný datový tok. Kodek přizpůsobuje datový tok jako u VBR náročnosti pasáže, ale zároveň dodržuje nastavené hodnoty pro průměrný datový tok. Výhodou je, že výsledná velikost souboru je odhadnutelná, ale bez znalosti výsledné kvality zakódovaného signálu. Při zadání nízké hodnoty při kódování může dojít k velkému poklesu výsledné kvality audio nahrávky. [23]

3.2. Ztrátová komprese

Jelikož se jedná o kompresi ztrátovou, nelze tedy již zpětně zrekonstruovat původní zvukový záznam. Ztrácíme nenávratně určitá data, která lidské ucho nevnímá nebo je vnímá málo. Komprimační algoritmus ztrátové komprese je hlavně založen na tzv. psychoakustickém modelu, který bude vysvětlen v následující kapitole. Na základě tohoto modelu můžeme z původního digitalizovaného záznamu vypustit „zbytečná data“. Přestože nelze obnovit přesný původní signál, je ztrátová komprese velmi výhodná hlavně na audio / video ukládání dat, kde je vyvážen poměr kvalita / velikost výsledného souboru. Mírnou ztrátou detailů můžeme tak ušetřit až 90 % z původní velikosti záznamu. Způsob enkódování do bitstreamu není přesně definován, proto různé kodeky pro stejné formáty mají odlišnou kvalitu výstupu. Například různé kodeky mohou na základě různých nastavení odstranit některé části signálu, které naopak jiný kodek může ještě zakódovat do datového toku. [23]

22 Současné formáty pro záznam zvuku

3.3. Sub-Band Coding

SBC je jedním ze základních principů vícepásmového kódování. Základem tohoto kódování je rozdělit vstupní PCM signál na více pásem, tzv. podpásem. K tomu využijeme pásmové propusti. Každé podpásmo, které se získalo rozdělením, se zpracuje zvlášť a pro každé dané podpásmo bude využita různá strategie pro Audio signál je rozdělen na pásma. Poté je použití psychoakustického signál z každého pásma transformován z časové do frekvenční oblasti (domény) modelu na redukci dat. Aby mohla být použita tato strategie, je třeba signál v každém podpásmu převést z časové oblasti do frekvenční oblasti. Někdy se také uvádí domény. Použije se k tomu diskrétní kosinové transformace – DCT Analýza zvuku charakteristická pro každé pásmo (Obr. 13). Poté ve zvoleném Obr. 13 – Transformace signálu z časové do časovém úseku neboli okně frekvenční oblasti 15 dostaneme seznam obsažených frekvencí a jejich amplitudu místo průběhu signálu ve vzorcích. 15

Jak bylo již psáno, každé podpásmo se zakóduje zvlášť podle informací z psychoakustického modelu, který určí limity maskování. Pomocí hodnot z maskovacích prahů jsou podpásmové vzorky kvantovány a kódovány tak, aby kvantizační šum byl pod maskovacím prahem. Posledním krokem je poskládání kódovaných vzorků do rámu. Dekódování je jednodušší, není zapotřebí psychoakustického modelu. Při dekódování dochází k rozbalování rámů a dekódování podpásmových vzorků a frekvenčně-časové mapování převede vzorky zpět do jednoho výstupního audio signálu. Téměř všechny dnes používané kodéry používají tuto metodu v různých modifikovaných podobách, může se lišit třeba počtem podpásem na jaké rozděluje vstupní signál. [11]

15 http://www.sony.net/Products/ATRAC3/tech/atrac3.html [cit. 2011-11-10]

23 Současné formáty pro záznam zvuku

PCM Časové/Frekvenční Kvantizace Skládaní Bitsream a Mapování Rámů (frames) Kódování

Psychoakustický Model

16 Obr. 14 – Kódování pomocí SBC

Bitstream Rozbalení Frekvenční/Časové PCM Rámů (frames) Rekonstrukce Mapování

16 Obr. 15 – Dekódování pomocí SBC

3.4. Spectral Band Replication

SBR algoritmus, který vyvinula firma Coding Technologies, je zatím nejnovější technologií s použitím nízkého bitrate při kódování PCM signálu. Používá se již u kodeků MPEG-2/-4 (Advanced Audio Coding – AAC), nebo u kodeku MPEG-1/-2 Layer-3 (MP3), kde s touto technologií lze zvýšit účinnost až o 50 %. Při velmi vysokých kompresích (20:1) již kvalita výsledného zvuku není uspokojivá. Kvantizační šum již není pod maskovacím prahem psychoakustického modelu a pro posluchače je takovýto signál rušivý. Jedním způsobem může být omezení frekvenčního pásma nebo využití technologie SBR. Základním principem je myšlenka, že existuje korelace mezi vysokofrekvenčním rozsahem (Highband) a nízkofrekvenčním rozsahem (Lowband) téhož signálu. [12]16

Obnova původního vysokofrekvenčního pásma může být provedena transpozicí z pásma nízkofrekvenčního. Kromě transpozice se provádí formování spektrální obálky. Vstupní signál je při kódování analyzován, spektrální obálka vysokofrekvenčního pásma a její charakteristika k nízkofrekvenčnímu pásmu je zakódována a výsledná data jsou

16 http://www.otolith.com/otolith/olt/sbc.html [cit. 2011-11-15] Pozn. Vlastní úprava

24 Současné formáty pro záznam zvuku

multiplexována s bitstreamem. Na straně dekodéru se nejdříve bitstream demultiplexuje. Poté jádro dekodéru dekóduje nízkofrekvenční pásmo a dekodér SBR, jako postprocesor, použije SBR data k replikačnímu procesu. Výstup je získaný signál v celém kmitočtovém pásmu. [12] 17

Energie Energie

Transpozice Rekonstrukce pomocí SBR

Frekvence Frekvence

Obr. 16 – Vytvoření vysokých kmitočtů Obr. 17 – Zarovnání obálky vysokého pomocí transpozice 17 pásma 17

SBR data

Filtrovaná SBR Signálový PCM audio data Bitstream Enkóder Enkóder Multiplex

Pásmově limit. Demulti- Signálový SBR Bitstream audio data PCM plexace Dekodér Dekodér

SBR data

Obr. 18 – Blokové schéma kódování a dekódování s SBR 17

17 http://www.broadcastpapers.com/whitepapers/ibc2003CodingSBR_502.pdf [cit. 2011-11-17] Pozn. Vlastní úprava

25 Současné formáty pro záznam zvuku

MPEG-1 Audio Layer3 komprese

I když v dnešní době nepatří MP3 mezi formáty s nejúčinnější kompresí, stále se jedná o nejrozšířenější formát. Proto bych chtěl stručně na tomto formátu popsat princip komprese od PCM signálu až po MP3 bitstream. Na obrázku (Obr. 19) můžete vidět blokové schéma, kde si jednotlivé bloky nyní stručně popíšeme.

PCM Banka Filtrů -MDCT 32 podpásem -Adaptivní - Bitová Alokace 32 segmentace -Kvantizace Data -Huffmanovo Kódování Bitstream

Multiplexace

Psychoakustický SMR Kódovaná FFT model stranová informace

Obr. 19 – Blokové schéma MPEG-1 Layer3 kódování 18

Banka filtrů – Pomocí banky filtrů rozdělujeme vstupní PCM signál na 32 podpásem. Tento proces probíhá pomocí sady pásmových filtrů pokrývající celé zvukové spektrum, kde jednotlivé pásma mají stejnou velikost. Jedná se tak o tzv. lineární banku filtrů.

FFT – Fast Fourier Transform – Model MPEG-1 Layer3 obsahující 1024 bodovou transformaci sloužící k spektrálnímu rozlišení audiosignálu. Ten potřebujeme rozlišit ke správnému určení maskovacích prahů v daných časových okamžicích, neboli časových oknech. V našem modelu FFT transformace probíhá paralelně s bankou filtrů.

MDCT – Modifikovaná diskrétní kosinová transformace. Tento algoritmus nám zpracovává 32 jednotlivých podpásem z banky filtrů. Podle dat z psychoakustického modelu určí velikost časového okna pro každé pásmo (okno je několik ms, po kterou se signál zpracovává). Při maximálních 1152 vzorcích na rámec a 32 pásem nám vychází 36 vzorků na podpásmo. [1] 18

18 Literatura - zdroj [1] [cit. 2011-11-17] Pozn. Vlastní úprava

26 Současné formáty pro záznam zvuku

Bitová alokace – Z informací MDCT a psychoakustického modelu se získá pro každé podpásmo hodnota SMR – Signal to mask ratio. Tato hodnota nám v každém podpásmu určí, o kolik je signál silnější než hranice slyšitelnosti. Po té se rozhoduje, kolik bude danému pásmu přiděleno bitů na zakódování vzorku. [1]

Huffmanovo kódování – Tato metoda je pojmenována podle svého objevitele D. A. Huffmana. Jedná se o bezeztrátový kompresní algoritmus. Princip je založen na pravděpodobnosti výskytu jednotlivých znaků, kde nejčastěji se vyskytujícím znakům je přiřazen krátký kód a znakům vyskytujícím se nejméně přidělen delší kód. Kódování je založeno na vytvoření binárního stromu, kde koncové body značí původní znaky zprávy. Body na stromu značí pravděpodobnost výskytu jednotlivých znaků a hrany mezi body jsou označeny symboly 0, 1.

Pravděpodobnost počátečního bodu se Obr. 20 – Příklad Huffmanova kódování 19 rovná součtu pravděpodobností pokračujících bodů a ty jsou řazeny podle pravděpodobnosti výskytu. Od kořene stromu dostaneme kódy jednotlivých znaků (0 při kroku vlevo a 1 při kroku vpravo). Na obrázku (Obr. 20) můžeme vidět jednoduchý příklad Huffmanovo stromu a zakódování textu ABRAKADABRA.[12] 19

Datový tok – Posledním krokem je vytvoření datového toku, tzv. bitstream. Datový tok se skládá z jednotlivých rámců. Jednotlivé rámce mají svojí hlavičku (obsahuje způsob kódování, bitrate, vzorkovací frekvenci) a poté audio data.

19 http://www.radekmika.cz/komprese/statisticke-metody-komprese.html [cit. 2011-11-21]

27 Současné formáty pro záznam zvuku

3.5. Psychoakustický model

Psychoakustický model vychází ze způsobu, jakým lidský sluch vnímá jednotlivé zvuky. Tento model vlastně využívá nedokonalosti lidského ucha a využitím tohoto modelu můžeme odstranit při kompresi frekvence, které lidské ucho nemůže zaznamenat. To vede k úspoře datového toku bez znatelné, nebo přijatelné ztráty kvality. Veškeré významné kompresní formáty současnosti využívají výše uvedené principy ke zmenšení datového toku.

Samotnou podstatou psychoakustického modelu je maskovací efekt. Maskování je jev, kdy některá část v signálu sluchově překryje jinou, která je potom pro lidské ucho neslyšitelná. Tento princip je založený na základech frekvenčního a časového maskování. Frekvenční maskování využívá nelinearity citlivosti lidského ucha a časové maskování využívá setrvačnosti lidského ucha. Část signálu, která způsobí překrytí jiné části, nazýváme maskující a překrytá část signálu se nazývá maskovaná. Frekvenční maskování se také nazývá souběžné, protože se maskující a maskovaný prvek v audio signálu vyskytne ve stejný okamžik. Naopak pokud maskující prvek předchází nebo následuje za maskovaným prvkem, jedná se o časové maskování. Oba jevy si popíšeme podrobněji.

3.5.1. Křivka slyšitelnosti

Sluchový vjem lidského ucha nezávisí pouze na úrovni akustického tlaku, ale také na

frekvenci zvuku. To znamená, že je velký rozdíl mezi změřeným akustickým tlakem SPL a subjektivně vnímanou hlasitostí

zvuku v závislosti na jeho Akustický[dB] SPL tlak frekvenci.20 Můžeme tedy vynést křivku, která pro každou frekvenci prochází hodnotou akustického tlaku SPL, které je lidské ucho Frekvence [Hz] schopno již vnímat. Taková křivka 20 se nazývá práh slyšitelnosti a je Obr. 21 – Křivka slyšitelnosti

20 Literatura - zdroj [1] [cit. 2011-11-21]

28 Současné formáty pro záznam zvuku znázorněna na obrázku Obr. 21. Tato křivka je také důležitou součástí psychoakustického modelu, protože veškeré frekvence, které se nacházejí pod křivkou, jsou neslyšitelné a je možné je ze signálu odebrat. [4]

3.5.2. Frekvenční maskování

Frekvenční maskování je jev, kdy ve stejném okamžiku překryje silnější složka v signálu složku slabší a ta přestane být v signále slyšitelná. Zjednodušeně řečeno, je to neschopnost lidského ucha slyšet oba tóny současně. Pokud se v signále objeví intenzivní tón M0 o frekvenci 1 kHz, vytvoří se kolem tohoto tónu maskovací práh (oblast ohraničená křivkou). Při dostatečné intenzitě tónu pak zamaskuje všechny méně intenzivní tóny (M1, M2) v jeho blízkosti a tóny pod úrovní křivky jsou pro lidské ucho již neslyšitelné, proto je není nutné přenášet. Takový signál se nazývá maskovací signál. Signál označený MP je již nad maskovacím prahem, ale vnímána je jen jeho část (MPU). Z tohoto tónu tedy přeneseme jen tu část, co je nad maskovacím prahem. Maximální Obr. 22 – Frekvenční maskování 22 úroveň maskovaného signálu je závislá na frekvenční vzdálenosti a úrovni maskujícího signálu. Maskovací schopnost je též závislá na frekvenci maskujícího tónu. Vnímání tónů s blízkými frekvencemi je ovlivněno šířkou kritického pásma. To má na nejnižších kmitočtech velikost kolem 100 Hz, zatímco na nejvyšších kmitočtech dosahuje až 4 kHz. Je-li pak ve frekvenčním spektru přítomno více silných maskovacích signálů, vytvoří si každý z nich svou maskovací křivku, z níž je následně sestavena jedna globální.2122[13]

23

21 http://cs.wikipedia.org/wiki/Zvuk [cit. 2011-11-22] 22 http://www.tvfreak.cz/art_docD4AD0D60C5888163C1257492006E262C.html [cit. 2011-11-22]

29 Současné formáty pro záznam zvuku

3.5.3. Časové maskování

Principem časového maskování je neschopnost lidského ucha vnímání „slabších“ tónů při zaznění „silnějších“ tónů nejen v kmitočtovém spektru, ale i v závislosti na čase. Pokud zazní silný tón, je naše vnímání dalších tónů omezeno na několik desítek až stovek milisekund i po jeho ukončení a slabší tóny opět neslyšíme.

Pre-masking – maskovaný signál v čase předchází maskujícímu signálu (dopředné maskování).

Post-masking – vyskytne-li se maskující signál v čase dříve než maskovaný signál (zpětné maskování). Pre-masking je dán tím, že ucho potřebuje čas na rozkmitání bubínku.

Obr. 23 – Časové maskování 24

Vnímání tónu není okamžité, ale je zpožděné. Pre-masking trvá, oproti post-maskingu, mnohem kratší dobu. Post-masking zase spočívá v neschopnosti ucha rozeznat rychle po sobě znějící tóny. Doba maskovacího efektu je závislá na čase, po kterou tón zněl. Čím kratší čas zněl, tím bude delší maskovací efekt.[13] 24

24 http://www.tvfreak.cz/art_docD4AD0D60C5888163C1257492006E262C.html [cit. 2011-11-24]

30 Současné formáty pro záznam zvuku

3.6. Bezeztrátová komprese

Obvykle není tak účinná jako ztrátová komprese dat, ale velkou výhodou je, že komprimovaný soubor lze zrekonstruovat (obnovit) do původní podoby. Na rozdíl od ztrátových kodeků jsou bezeztrátové více náročné na výpočetní výkon a skladovací kapacitu. Jednou z možností pro kompresi audio dat je možné použít běžné pakovače dat, jako ZIP nebo RAR, ale ty nejsou pro audio soubory příliš vhodné, protože mají malou účinnost (redukce dat 5–10 %). Novější verze mají RAR dosahují pro multimediální soubory účinnosti vyšší (redukce dat 30–40 %). Bezeztrátový audio kodeky dosahují běžně ještě vyšší účinnost (redukce dat kolem 50 %). Jejich účinnost je také závislá na druhu kompresovaného audio signálu. Více nástrojů obsažených v signálu vede ke snížení účinnosti redukce dat. Dnešní bezeztrátové kompresory pracují v podstatě stejně, jsou rozdílné jen v použitém algoritmu. Jejich schéma je ale vždy následující:

Paketizace

Signál je rozdělen na kratší časové úseky – pakety (frames). Tyto pakety obsahují vzorky a pomocná data. Jednotlivé pakety jsou na sobě nezávislé. Ke každému paketu je pak přidána hlavička, ve které jsou uloženy základní informace o komprimaci. Tyto informace využívá dekodér, protože způsoby komprimace mohou být mezi jednotlivými pakety rozdílná. Každý paket pak obsahuje většinou CRC kód pro zjištění chyby při přenosu. Pro kompresi je ideální kratší délka paketu, tím se ale zároveň zvyšuje počet hlaviček na celkových datech. Proto je vhodné najít kompromis délky paketu.

Dekorelace

Při dekorelaci hledá kodek v datech opakující se signály a redundance. Nejčastěji se používá metoda lineární predikce. U této metody se signál rozdělí na vzorky, kde algoritmus popisuje vzorek X(n) podle předchozích vzorků X(n-1), X(n-2)…25. Používají se například FIR nebo IIR prediktory. Dochází ke zmenšení kvantizace a tím také ke zmenšení datové náročnosti.

U vícekanálového zvuku dochází často k odstranění mezikanálové redundance tím, že například u stereo signálu se vytvoří mono signál a jeho rozdíl (L+P) / 2 a (L-P) / 2. [14]

25 http://www.tvfreak.cz/art_doc-D4AD0D60C5888163C1257492006E262C.html [cit. 2011-11-25]

31 Současné formáty pro záznam zvuku

Kódování entropie

Při kódování entropie se používají stejné postupy jako u běžných komprimačních programů.

a) Huffmanovo kódování

Princip kódování byl vysvětlen již v předcházející kapitole. Zjednodušeně řečeno se všechny znaky v datech přetransformují pomocí algoritmu na jiné. Nejčastěji se vyskytujícím znakům se přiřadí nejkratší kód a nejméně vyskytujícím znakům se přiřadí nejdelší kód.

b) RLE – Run Length Encoding

Kódují se stejné hodnoty jdoucí po sobě a jejich počet. Příkladem třeba řetězec ffffbbb převede na dvojici typu délka posloupnost a hodnota – 4f3b

c) Riceovo kódování

Jde o nejrozšířenější typ kódování u bezeztrátových formátů zvuku. Tento typ kódování je nejúčinnější v případech, kdy je výskyt nižší hodnoty znaku pravděpodobnější než výskyt vyšší hodnoty znaku. Rozdělením vstupního signálu volitelným parametrem x získáme dvě hodnoty. Jedna hodnota je výsledek po dělení parametrem x a druhá hodnota je zbytek. Tyto dvě hodnoty jsou pak kódovány samostatně za sebou. Tento princip vychází z Golombova kódování. Bezeztrátové kodeky používají kombinace těchto metod a jedná se o enkódování s variabilním datovým tokem (VBR). [14]

32 Současné formáty pro záznam zvuku

4. Zvukové formáty

V této kapitole bych se chtěl zmínit o nejpoužívanějších audio formátech, které využívají ztrátové i bezeztrátové komprese dat a zjednodušeně popsat jejich parametry a princip funkčnosti.

3.7. Ztrátové formáty zvuku

3.7.1. MPEG-1 Layer3

MP3, plným názvem MPEG-1 Audio Layer III, je pouze jedním z řady MPEG (Motion Picture Experts Group) formátů. MPEG se dělí se do několika vrstev. Všechny vrstvy pracují se ztrátovou kompresí. Původně byl formát MPEG vyvinut pro vysokou kompresi videa, ale také je používán k vysoké kompresi zvuku. MP3 je kompresní ztrátový formát, který ve verzi Layer III dokáže snížit datový objem až o desetinu bez znatelnější ztráty kvality. Takhle velkou kompresi dokáže hlavně díky tzv. psychoakustickému modelu. Jedná se o vypuštění frekvencí z datového toku na základě nedokonalosti lidského sluchu. Tento model byl již popsán kapitole Psychoakustický model.

Kompresní algoritmy Layer 1, 2 a 3

Pro kompresi audio signálů ve standardech MPEG se využívají 3 různé komprimační algoritmy označované jako Layer – Vrstva.

Layer 1 – je z celé trojice nejjednodušší. Dosahuje nejmenšího kompresního poměru. Dnes se prakticky nepoužívá.

Layer 2 – byl standardizován v roce 1990 na návrh firmy Philips, algoritmus se nazýval MUSICAM. Formát byl navržen na kódování zvuku datovým tokem 128 kbps/kanál. Výhody jsou nízká výpočetní náročnost a odolnost proti přenosovým chybám. Kontejner používá příponu MP2. Je používaný v digitálním televizním a radiovém vysílání (DAB, DVB).

Layer 3 – obsahuje nejvýkonnější algoritmus a tím dosahuje nejvyššího kompresního poměru v porovnání s předchozími vrstvami. Vrstva Layer 3 je zpětně kompaktibilní s vrstvou 1 a 2. Kontejner používá příponu MP3. [16]

V roce 1987 se ve Fraunhofer Institut IntegrierteSchaltungen zrodila myšlenka na vytvoření ztrátového kompresního algoritmu pro zvuková data.

33 Současné formáty pro záznam zvuku

Nejefektivnější vrstva (Layer 3) byla v roce 1992 přijata jako ISO standard. Na této vrstvě se podílel Fraunhofer Institut spolu s firmou Thomson.

Do MPEG-1 jsou zahrnuty 4 módy standardu: mono dualchanel – komprimace dvou nesouvisejících mono kanálů, bitrate je rovnoměrně rozložen mezi oba kanály. stereo – komprimace dvou souvisejících kanálů, možnost přidělit některému kanálu větší bitrate než druhému, např. hlasitějšímu kanálu je použito více bitů pro kódování. joint stereo – tento mód využívá ke komprimaci vlastnosti lidského sluchu při vnímání prostorové lokalizace zdroje signálu (viz kapitola binaurální slyšení). Jedná se o velmi nízké a velmi vysoké kmitočty, které lidské ucho není možné lokalizovat a tyto frekvence je pak možné zakódovat jako monofonní signál. Tato metoda vede k úspoře řádově v rozmezí 5 až 10 %.

Formát podporuje několik vzorkovacích frekvencí: 32 kHz, 44,1 kHz a 48 kHz. Nejpoužívanější je 44,1 kHz, vychází z audio CD. Datový tok se pohybuje od 32 do 320 kbps. Kódování datového toku doMP3 souboru můžeme pomocí více kodeků:

LAME encoder FhG MP3 encoder Gogo-no-coda AudioactiveEncoder Xing MP3 Encoder

Na internetové stránce http://technet.idnes.cz/software.aspx?r=software&c=A040209_5251683_software je zajímavý článek, kde porovnávají kvalitu těchto enkóderů při bitrate 128 kbps a jako vítěz vyšel z testu enkóder LAME.

MP3PRO

V roce 2001 uvedli Fraunhofer IIS a Thomson rozšíření verze MP3. Účinnost by měla být dvakrát vyšší. Pro CD kvalitu by měl postačit bitrate 64 kbps namísto 128 kbps pro klasickou MP3. MP3PRO je zpětně kompatibilní. Nejdůležitějším technickým nástrojem je tzv. SBR. Spectral Band Replication – Tato technologie dokáže částečně dopočítat vyšší kmitočtové

34 Současné formáty pro záznam zvuku spektrum na základě nižšího kmitočtového spektra. Tato technologie byla popsána v předchozí kapitole.

MP3HD

Společnost Thomson stála u zrodu dalšího formátu z populární rodiny MPEG-1 Layer III, tentokrát s formátem MP3HD, který nabízí bezeztrátovou kompresi a zpětnou kompatibilitu s běžnými MP3 přehrávači. Formát MP3HD nabízí bezeztrátovou kompresi srovnatelnou s ostatními bezeztrátovými kodeky, jako je například již zmíněný FLAC. MP3HD dosahuje v průměru datového toku od 500 kbps do 900 kbps, což je zhruba polovina oproti nekomprimovanému stavu. [16]

3.7.2. WMA

Jde o formát vyvinutý firmou Microsoft, který ale používá podobné metody jako MP3, psychoakustický model, MDCT a Huffmanovo kódování. WMA soubory jsou téměř výlučně v kontejneru Advanced Systems Format – ASF a mají příponu .ASF nebo .WMA. V dnešní době je velká softwarová i hardwarová podpora ve většině přehrávačů na trhu. Původní formát podporoval vzorkovací frekvence 44,1 kHz a 48 kHz a 16 bitové rozlišení. Datový tok se pohyboval od 64 kbps do 192 kbps. První verze WMA 7 byla zveřejněna v roce 2000. Od té doby bylo uveřejněno ještě několik verzí a dnes se používá WMA ve verzi 9.1. WMA 9.1 je zpětně kompatibilní s předchozími WMA formáty, lze je tedy přehrát ve starších Windows media playerech a spotřební elektronice.

WMA PRO

Nabízí nejširší škálu možností Windows Media Audio . Tento formát je založen na zcela jiném kompresním algoritmu, proto není kompaktibilní s WMA. Kvalita komprese je dobrá i při velmi nízkých datových tocích. Podporuje až vzorkovací frekvenci až 96 kHz, a bitovou hloubku až 24 bit a podporu multikanálového zvuku 7.1. Formát navíc podporuje kontrolu dynamického rozsahu – dynamic range control. Funkce vhodná hlavně pro tichý poslech. Možnosti kódování: Low-bit-rate – kódování stereo signálu začínajících na 24 Kbps, pro omezení místa při skladování. Medium-bit-rate – kvalitní stereo a multi-kanálové kódování při rychlostech 64 až 128 kbps pro stereo a 128 kbps a vyšší pro 5.1 signály.

35 Současné formáty pro záznam zvuku

High-bit rate – velmi kvalitní stereo a vícekanálové kódování. Datový tok se může pohybovat až do 1536 kbps.

WMA 9 Lossless

Tento kodek je vhodný pro archivaci CD. Jedná se o bezeztrátový formát. Formát také obsahuje kontrolu dynamického rozsahu.

DRM – Digital Rights Management WMA soubory mohou být chráněny pomocí DRM (správa digitálních práv). To je aplikované na soubory stažené z online služby na základě předplatného. Cílem ochrany je zajistit užívání obsahu v souladu s autorskými právy. [16]

3.7.3. AAC

Advanced Audio Coding byl standardizován v roce 1997 dle normy ISO jako součást MPEG-2 a MPEG-4 specifikace. Autorem AAC je několik výzkumných firem, ale největší podíl na vývoji měla firma Dolby Laboratories. Formát umožňuje použít vzorkovací frekvenci od 8 kHz do 96 kHz a počet kanálů od 1 do 48 kanálů a 15 LFE kanálů (nízkofrekvenčních). Bitová hloubka se používá v rozsahu 8, 16 a 24 bitů. Maximální datový tok je 256 kbps/kanál. NCDQ je uváděno na toku 96 kbps a u 5.1 kanálů je to 320 kbps. AAC používá MDCT, ale délka okna může být až 2048 vzorků, ale lze okno zmenšit na 256 vzorků (pro náročné pasáže v hudbě). Pro přenosové chyby je zavedena detekce a korekce chyb. Formát AAC byl zvolen jako hlavní formát pro prodej hudby přes iTunes.

Existují čtyři varianty profilů: LowComplexity (LC) – nejjednodušší a nejrozšířenější varianta

Main Profile (Main) – používá navíc zpětně adaptivní predikci pro kódování jako bezeztrátové formáty. Je náročnější na výpočetní výkon a není moc rozšířen.

Scalable Sample Rate (AAC-SSR) – rozdělí frekvenční pásmo do čtyř menších pásem, které se zakódují zvlášť, to umožňuje zvolit velikost MDCT pro každé pásmo zvlášť a také kódovat jednotlivá pásma zvlášť. V praxi se nepoužívá.

Long Term Prediction (LTP) – přidává k profilu LC dopřednou adaptivní predikci.

Formát AAC se ukládá do kontejneru definovaného jako součást MPEG-4. Přípona souboru je .MP4. Soubory používané službou iTunes mají příponu .M4A nebo .M4P (klasické

36 Současné formáty pro záznam zvuku audio soubory, chráněné DRM). Soubor uložený podle specifikace MPEG-2 používá příponu .AAC, je bez podpory DRM.

Další technologií využitou v AAC je PNS – Perceptual Noise Substitution. Tato technologie má za úkol detekovat v signálu šumové složky a ty nekódovat klasickou technikou. V AAC je také obsažena další technologie TNS – Temporal Noise Shapin. Jde o zpětnou adaptivní predikci spektrální charakteristiky záznamu v časovém průběhu, která se přizpůsobuje signálu – redukuje tak problém s předozvěnou. 26

Existuje několik kodeků, nejznámější je od firmy APPLE – iTunes AAC, další jsou třeba Nero – Nero AAC a mezi bezplatné lze zařadit FAAC.

AAC Plus

Jedná se o vylepšení již existujícího AAC kódování. Označuje se někdy jako High Efficiency AAC (HE-AAC) a je určen hlavně pro nízké datové toky (bitrate). Hlavním zlepšením je zavedení SBR – Spectral Band Replication. Udává se, že díky této technologii je NCDQ na 64 kbps. Zatím ale tento formát není příliš rozšířen. [16]

3.3.1. OGG Vorbis

Formát, u kterého jeho obliba stále stoupá, protože se jedná o plně otevřený formát. Pochází z dílny instituce Xiph.org Foundation. Kontejner má příponu .OGG. Ogg Vorbis je flexibilní formát určený od nízkých po vysoké datové toky. Enkóder může zakódovat od 1 do 255 samostatných kanálů se vzorkovací frekvencí 8 kHz až 192 kHz. Datový tok pro jednotlivé kanály se pohybuje od 16 do 128 kbps.

Jednotlivé kanály je možné sdružovat do podmap (submaps) a na každou podmapu volit způsob kódování. Podporovaná bitová hloubka je 16 nebo 24 bitů. OggVorbis používá rámce velikosti od 64 do 8192 vzorků.

Kodek používá MDCT kódování. Frekvenční charakteristika se ve výstupním toku dat přenese nejprve jako hrubý odhad (floor), který je možné kódovat systémem LSP (kódování lineární predikcí), nebo zadáním po částech lineární křivky vyjadřují intenzitu frekvenčních složek zvuku. Všechny současné kodéry používají druhou možnost. Floor je jakási spektrální obálka určující rozsah (a tedy i kvantovací krok) jednotlivých frekvenčních složek. K datům se

26 http://zvuk.atrip.sk/index.php?site=4_3 [cit. 2011-12-2]

37 Současné formáty pro záznam zvuku následně přidává přesnější odhad (residue), který se kóduje vícepřechodovým vektorovým kvantováním. Skutečná amplituda pro danou frekvenci je potom součinem příslušných hodnot floor a residue. 27

Samotný zvukový formát Vorbis nenabízí žádnou synchronizaci nebo ochranu proti chybám při přenosu. Audio data se na vstupu rozdělí do jednotlivých paketů. Jednotlivé pakety mohou být různě dlouhé. Dekodér pak přijímá tyto pakety, dekóduje je a sestavuje z nich rámce původního zvukového toku. OggVorbis používá tři různé hlavičky datového toku: identifikační (počet kanálů, vzorkovací frekvence atd.), komentářová a konfigurační (obsahuje nastavení pro dekodér). Díky otevřenému formátu existuje mnoho kodeků, nejznámější je tzv. AoTuV kodek. [16]

3.3.2. ATRAC

ATRAC – Adaptive Transform Acoustic Coding je formát vyvinutým firmou Sony pro přepisovatelný systém MiniDisc a uveden v roce 1992 pod názvem ATRAC-1. Kombinuje Sub-pásmové kódování a kodér používá dva kvadraturní zrcadlové filtry, které dělí signál vzorkovaný frekvencí f na tři subpásma s dělící frekvencí f/8.0–5,5 kHz, 5,5–11 kHz, 11–22 kHz. Na každé sub-pásmo se aplikuje MDCT. Velikost okna je 512 vzorků. Standardní datový tok pro stereofonický záznam je 146 kbps/kanál. Druhá verze byla uveřejněna v roce 1999 a měla označení ATRAC-3. Enkoder obsahuje navíc další kvadraturní filtr, signál se tedy dělí do čtyř podpásem, které jsou opět pomocí MDCT převedeny z časové oblasti do frekvenční oblasti. V módu LP2 je datový tok 66 kbps/kanál. V módu LP4 je datový tok 33 kbps/kanál. Navíc se ořezávají frekvence nad 13,5 kHz.

Vylepšenou další verzí je ATRAC-3plus, která vyšla v roce 2002, kde hlavní změna přišla v rozšíření počtu podpásem a to až na 16. MDCT se aplikuje na každé pásmo zvlášť. Tato verze není kompatibilní s předchozí verzí. [16]

27 http://zvuk.atrip.sk/index.php?site=4_3 [cit. 2011-12-3]

38 Současné formáty pro záznam zvuku

Bit. alokace 32/128

MDCT Kvantizace

32/128 32/128

QMF

Bit. alokace Banka2 MDCT 32/128

32/128 QMF

Banka1 Kvantizace 32/128 MDCT 32/256 Bit. alokace 32/128

Výběr Kvantizace okna 32/128

Obr. 24 – Blokové schéma ATRAC koderu 28

V roce 2006 vyšla zatím poslední verze ATRAC Advanced Lossless. Jedná se o hybridní bezeztrátový formát. Výsledný datový tok je ztrátový (ATRAC-3 nebo ATRAC-3 Plus), ale obsahuje navíc informace pro výpočet bezeztrátového datového toku. ATRAC používá kontejner s příponou .OMG (Open Magic Gate) nebo .OMA. K dispozici je jediný dostupný kodek pro formát ATRAC od firmy Sony s názvem SonicStage. Formát ATRAC není rozšířen, používá ho převážně jen firma sony ve svých přehrávačích. [16] 28

3.3.3. Dolby Digital

Dolby Digital nebo také někdy označován jako AC-3 byl uveden v roce 1992 a je to zvukový formát navržen pro 5.1 kanálový zvuk. Systém 5.1 (tedy 6 kanálů) je navržen pro prostorový zvuk, kde rozmístění reproduktorů je následující:

- Hlavní přední reproduktory (levý a pravý) - Centrální reproduktor (umístěn uprostřed mezi hlavními repro) - Efektové repro (umístnění za posluchačem – levý a pravý) - Subwoofer (pro velmi nízké kmitočty – nezáleží na umístění)

28 Literatura - zdroj [1] [cit. 2011-12-7] Pozn. Vlastní úprava

39 Současné formáty pro záznam zvuku

Formát se používá jako součást videosouborů (AVI, MPEG, MKV), ale největší uplatnění získal na nosiči DVD-Video. Zvukové soubory formátu Dolby Digital mají příponu .AC3. Formát pochází z dílny Dolby Laboratories.

Formát podporuje módy MONO, STEREO, DOLBY Surround, ale nejčastěji se vyskytuje v módu 5.1 kanálů. Obsahuje 5 hlavních kanálů v rozsahu 20Hz – 20kHz a jeden LFE (Sub- basový) kanál s rozsahem do 120 Hz. Hlavní rysy AC–3 algoritmu jsou následující.

Vzorkovací frekvence: 32, 44,1 a 48 kHz Datový tok 32kbps – 640 kbps Vysoce kvalitní výstup při 64 kbps/kanál Bitové rozlišení vzorku do 24 bitů Parametrická bitová alokace MDCT banka filtrů

Blokové schéma kódovacího procesu je na obrázku (Obr. 25). Pomocí MDCT je signál převeden z časové do frekvenční domény. Velikost okna pro MDCT je 512 vzorků, popř. 2 x 256 vzorků (v závislost na vstupu). Jednotlivé koeficienty z MDCT se kódují jako reálná čísla se zadáním exponentu a mantisy. Koeficienty prvního bloku se kódují přímo, ostatní bloky jsou zakódované diferencí z předešlého bloku. Spektrální obálka a kvantizované mantisy jsou formátovány do jednoho rámce AC–3, který se skládá ze šesti bloků po 256 vzorků. Celkem tedy rámec obsahuje 1536 vzorků.29 [16] [1]

Dolby Digital Plus

Byl vyvinut pro rozšíření AC-3 standardu. Při zachování zpětné kompaktibility poskytuje několik vylepšení. Možnost kódovat až 13.1 kanálů a také došlo ke zvýšení datového toku až na 6,144 Mbps.

29 http://zvuk.atrip.sk/index.php?site=4_3 [cit. 2011-12-9]

40 Současné formáty pro záznam zvuku

Transient detektor

Spektrální obálka Kódování exponentu Psychoak.

model

MDCT 256/512 Bitová Multiplex Kvantizace alokace mantisa

Obr. 25 – Blokové schéma AC-3 kodéru 30

Dolby Digital EX

Rozšíření formátu Dolby Digital o zadní střední kanál, který je maticově zakódovaný v zadním levém a v zadním pravém kanálu. Byl vytvořen v roce 1998 ve spolupráci se společností Lucasfilm THX.30

31

3.4. Shrnutí

Výsledná kvalita zvuku ve skladbě je nejen závislá na použitém formátu komprese ale také na zvoleném datovém toku. Pokud budeme chtít uchovat komprimovanou hudbu ve větší kvalitě, budeme volit minimální datový tok 128kbps. V následujících dvou grafech bych chtěl zobrazit, jak jednotlivé kodeky omezují frekvenční charakteristiku. Grafy jsou pro nízký datový tok, 48 a 128 kbps.

Z grafů 1 a 2 je patrné, že při nízkém datovém toku 48 kbps si nejhůře vede formát MP3, zato jeho vylepšená verze MP3PRO s technologií SBR je na tom podstatně lépe. Nejlépe si vede formát AACPLUS.

30 Literatura – Zdroj [1] [cit. 2011-12-12] Pozn. Vlastní úprava

41 Současné formáty pro záznam zvuku

Při datovém toku 128 kbps nejsou rozdíly tak patrné jako při datovém toku 48 kbps. Omezování frekvenční charakteristiky začíná pro většinu formátů mezi 15–16 kHz.32

Graf 1. – Frekvenční analýza komprimačních algoritmů při 48 kbps 32

Graf 2. – Frekvenční analýza komprimačních algoritmů při 128 kbps 32

32http://avmania.e15.cz/komprese-zvuku-jen-podvod-na-usi [cit. 2011-12-14]

42 Současné formáty pro záznam zvuku

3.5. Bezeztrátové formáty zvuku

V následující kapitole budou popsány nejpoužívanější bezeztrátové formáty zvuku. Existuje nepřeberné množství bezeztrátových formátů, některé se neujaly (např. LTAC, OggSquish), které od jejich vniku provázely problémy se stabilitou, nebo byly utajené a nebylo možné získat informace o způsobu komprese. V nastavení kodeku u bezeztrátových formátů je nejdůležitější parametr nastavení úrovně optimální predikce. Činnost těchto algoritmů se dělí do dvou kategorií.

Symetrické kódování – toto kódování je typické pro zpětně adaptivní postupy, které využívá např. Monkey’s audio nebo Apple Lossless. Při kódování lze parametrem snížit datový tok, ale zvýší se náročnost výpočtu kódování a také se zvýší náročnost při dekódování.

Asymetrické kódovaní – toto kódování je typické pro dopředně adaptivní postupy, které jsou typické pro formáty FLAC, TTA (True audio), ALS (MPEG4 – ALS). Opět lze parametrem snížit datový tok, dojde ke zvýšení náročnosti výpočtu při dekódování, ale náročnost výpočtu při dekódování zůstává téměř stejná. [16]

3.5.1. FLAC

FLAC je zkratkou názvu Free Lossless Audio Codec, což v překladu znamená bezeztrátový zvukový kodek. Tento formát vyvíjela skupina programátorů pod vedením Američana Josha Coalsona. Jedná se o plně otevřený formát, není tedy chráněn žádnou licencí. Zdrojový kód je tedy k dispozici pod open-source licencí. FLAC je podporován na většině známých platformách jako Unix (Linux, * BSD, Solaris, OS X IRIX), BeOS, OS/2 a Windows. Jedná se o asymetrický formát, kde je upřednostněná rychlost dekódování. FLAC pracuje pouze s celými čísly, nevyžaduje tedy vysoké nároky na hardware. FLAC encoder má následující fáze.

43 Současné formáty pro záznam zvuku

Blokování

Vstup je rozdělen do mnoha souvislých bloků, které se mohou lišit velikostí v závislosti na mnoha faktorech, jako vzorkovací frekvence, spektrální charakteristika v čase, atd. Kodér FLAC podporuje ukládání minimální velikost bloku o 16 vzorkách, a maximální velikost bloku o 65535 vzorkách.

Mezikanálová dekorelace

V případě stereo signálu, enkodér vytvoří střední a boční signály na základě průměru a rozdílu z levého a pravého kanálu.

Modelování

Zde se enkodér snaží najít matematický popis signálu. FLAC může použít dvě metody predikce:

1. fixní polynomiální predikce 2. lineární prediktivní kódování (LPC)

Parametr prediktoru je poté zahrnut do kompresovaného streamu. FLAC umožňuje změnu predikce z bloku na blok, nebo uvnitř kanálů bloku.

Zbytkové kódování

Pokud prediktor nepopíše přesně signál, musí být rozdíl mezi původním signálem a předpokládaným signálem (tzv. chyba) zakódován bezeztrátově. Čím je prediktor účinnější, tím bude potřeba méně bitů na zakódování vzorku zbývajícího signálu.

Rámcování

Datový tok se skládá z jednotlivých rámců. Ty jsou na sobě nezávislé, protože každý rámec obsahuje údaje pro dekódování. Každý rámec obsahuje 16 bitový CRC kód pro detekci chyb při přenosu.

Tento formát nabízí také možnost streamování. Formát Flac podporuje lineární vzorkovací frekvenci v rozmezích od 1 Hz do 655350 Hz v krocích po 1 Hz. Dále formát podporuje 1 až 8 zvukových kanálů na stream s rozlišením od 4 bit do 32 bit na vzorek. Referenční kodek podporuje vzorkovací frekvenci do 96 kHz a bitovou hloubku do 24 bitů.

44 Současné formáty pro záznam zvuku

Mezi hlavní výhody formátu patří malá hardwarová náročnost a podpora streamu (datový je přímo přehráván bez ukládání na disk). Formát je podporován i hardwarově celou řadou přenosných přehrávačů. [17]

3.5.2. Apple Lossess

Tento formát je známý jako Apple Lossless Encoder – ALE nebo také jako Apple Lossless Audio Codec – ALAC. Tento formát vyvinula společnost Apple a poprvé se formát objevil v roce 2004 s podporou v iTunes 4.5. Apple soubory jsou uloženy v kontejneru MPEG 4 s příponou m4a. MPEG 4 kontejner se používá také pro pokročilé ztrátové komprese zvuku s příponou AAC. Nejsilnější stránkou tohoto formátu je rychlost kódování a dekódování a podpora v iPod. Naopak slabé stránky jsou v omezené podpoře mimo iPod a iTunes. Apple také dosud nevydal žádné technické dokumenty o Apple Lossless formátu a používání třetích stran je možné díky reverznímu inženýrství Davida Hammertona. Jedná se o symetrické kódování a kodek, stejně jako FLAC, používá lineární predikce. Apple Lossless podporuje 16 bit a 24 bit audio a vícekanálové audio, jako je 5.1. Tento formát také používá universální ID Tag, kde každá značka může obsahovat až 255 znaků. V tomto formátu neobsahuje žádné DRM. [22] [18]

3.5.3. Monkey’s audio

Jedná se o další známý bezeztrátový audio formát, který vyvinul Američan Matthew Ashland. Vývoj začal před rokem 2000 a byl od počátku pro nekomerční využití bez licenčních poplatků. Formát se také někdy označuje APE podle přípony kontejneru (.ape). Formát Monkeys audio je symetrický algoritmus, který je založený na zpětné adaptivní lineární predikci. Formát podporuje jen stereo audio data.

Aplikuje sdružení kanálů (L + R) / 2 a (L - R). Vzorkovací frekvence jsou podporovány do 48 kHz s rozlišením do 16 bitů. Datový tok formátu je nepřetržitý, protože nepoužívá nezávislé rámce. To vede ke zpomalení dekódování a chyba v datovém toku může poškodit zbytek audio záznamu. Formát ale používá kontrolní součty na detekci chyby v datovém toku. Ke kódování entropie se používá Rice kódování.

45 Současné formáty pro záznam zvuku

Hlavní výhodou je velká komprese a volně dostupný bez poplatků, to je také důvod, proč se tento formát těší popularitě. Dnes už existuje podpora v aplikacích jako Media Center, Foobar, WMP, Winamp, v prostředí Windows je výkonný a snadno ovladatelný. Monkeys audio také využívá vlastní flexibilní APE Tagy.[19] [22]

3.5.4. WavPack

WavPack byl vyvinut v roce 1998 Američanem Davidem Bryantem. Jde o formát s opensource licencí. Umožňuje kvalitní ztrátovou kompresi, tak i bezeztrátovou kompresi a navíc podporuje tzv. hybridní kompresi. Při kódování se pak vytváří dva soubory, kdy jeden je ztrátový a může se použít samostatně a druhý soubor je tzv. opravný. Pomocí těchto dvou souborů lze pak získat zpět původní soubor. WavPack je založen na lineární predikci. Koeficienty pro predikci jsou předvolené, místo kódování reziduálu po vykonání první predikce se přistupuje k další predikci. Používá se až 16 predikčních vrstev. Pro Wavpack formát jsou podporované vzorkovací frekvence od 6 kHz do 192 kHz s rozlišením 8, 16, 24, 32 bitů. WavPack podporuje zakódovat až 6 kanálů (5+1). WavPack umožňuje nastavení optimálních hodnot predikce namísto pevně nastavených. Výsledkem je snížení datového toku a vyšší náročnost při kódování, ale náročnost na dekompresi zůstává téměř stejná.

WavPack používá kontejner s příponou .WV (pro data) a opravný soubor používá příponu .WVC. WavPack má mimo dobré softwarové podpory také podpory hardwarové (zatím jen málo přenosných zařízení). Z důvodu zajištění otevřeného formátu bez poplatků používá metody, které nebyly patentované (lineární predikce s LMS adaptací, Elias a Golomb kódy). [20]

3.5.5. Meridian Lossless Packing

Formát MLP vznikl ve společnosti Meridian Audio. Tento algoritmus byl navržen především pro potřebu bezztrátového ukládání zvuku na nosiči DVD-Audio. Zavedení bylo nutné z důvodu překročení přenosové kapacity média při použití 5.1 kanálů v plném rozlišení (96 kHz, 24 bitů) na kanál. MLP kódování se skládá z následujících kroků:

Lossless processing and lossless matrixing – v signálu se vykoná bezeztrátová maticová transformace kvůli odstranění mezikanálové korelace.

46 Současné formáty pro záznam zvuku

Lossless prediction – LPC. Kodek může pracovat jak s dopřednou, tak i se zpětnou adaptivní predikcí. Predikční funkce mohou být pro jednotlivé kanály různé. Entropy coding – ke kódování entropie se nejčastěji využívá Rice kódování, ale není to nutné, lze nastavit i jiné.

MLP coder využívá při kódování vyrovnávací paměť – buffer. Jde o typ FIFO a používá se k bezproblémovému zakódování datového toku. MLP podporuje až 63 kanálů a vzorkovací frekvenci od 32 kHz do 192 kHz (musí být stejný pro všechny kanály) s rozlišením od 14 do 24 bitů (pro každý kanál může být jiný počet). V datovém toku mohou být zaznamenány rozšiřující informace o kanálu. Tento formát není příliš rozšířen díky nízké popularitě formátu DVD-Audio. Jeho nástupcem pro HD-DVD a BlueRay je DolbyTrueHD (jedná se o vylepšení MLP z dílny Dolby Laboratories. [21]

3.5.6. Shrnutí

Dostupných audio bezeztrátových formátů existuje velké množství, některé jsem v práci neuvedl, protože se příliš nerozšířily nebo jsou již technicky zastaralé. U většiny bezeztrátových formátů převládá metoda LPC – Lineární prediktivní kódování. Zmenšení datového toku u bezeztrátových formátů není přímo úměrné výpočtové náročnosti. Jako praktický přiklad jsem uvedl tabulku, kde jsem použil soubor ve formátu .WAV a vybranými kodeky jsem provedl kompresi a dekompresi. Jednalo je o píseň Future Word od skupiny Helloween, kde velikost původního souboru byla 90,1 MB. Pokud to jednotlivý kodek umožňoval, měření jsem provedl pro nejnižší a nejvyšší účinnost. Velmi dobře dopadl ZIP (WinZip v. 12.0) v nastavení komprese Best. Jak je také patrné z tabulky, rozdíl komprese mezi jednotlivými formáty není až tak výrazný. Nejlepší kompresi měl kodek Monkeys audio 4.10 na úroveň INSANE, kde velikost komprimovaného souboru byla 67,5 % z originálu, ale časová náročnost patřila k nejvyšším. Výpočet komprese byl počítán podle vzorce:

47 Současné formáty pro záznam zvuku

Těžko lze hledat vítěze, rozptyl jednotlivých účinností komprese je do 5 %, ale za nejrozšířenější bych uvedl asi formát FLAC, který předvedl i nejrychlejší časy potřebné k dekomprimaci souboru.

Tabulka č. 3 – Přehled účinnosti jednotlivých kodeků

Velikost po Čas Čas Úroveň Komprese Formát Kodek kompresi komprimace dekomprimace nastavení [%] [MB] [s] [s] 0-Fast 68,5 76 17 10 FLAC Flac 1.2.1a 8-Slow 64,6 71,6 45 10

Fast 65,1 72,2 12 14 Monkey’s Monkeys audio v4.10 audio Insane 60,9 67,5 96 99

Fast 66,2 73,4 12 11 WavPack Wavpack 4.60.1 High 63,8 70,8 44 26

Legacy 84,6 93,8 24 14 ZIP WinZip 12.0 Best 62,3 69,1 28 26

dBpoweramp Bez Apple Music možnosti 66,2 73,4 18 20 Lossless Converter nastavení R14.2

48 Současné formáty pro záznam zvuku

Závěr

V úvodní části této práce jsem se snažil poskytnout náhled do problematiky vlastnosti zvuku a jeho šíření. V této kapitole jsou také zjednodušeně popsány vlastnosti lidského ucha a jeho vnímání zvuku. V následující kapitole jsem se snažil popsat princip digitalizace audio signálu. V této kapitole jsem také uvedl formáty pro nosiče SACD a DVD-Audio. Hlavní část práce jsem věnoval dnes nejvíce používaným audio formátům, a to jak se ztrátovou kompresí, tak i s bezeztrátovou kompresí. Praktická část nebyla uvedena v zadání práce, přesto jsem v této hlavní části provedl jednoduchou praktickou zkoušku účinnosti a rychlosti bezeztrátových kodeků, kde výsledek je uveden v tabulce Tab. 3. Jak bylo zmíněno v závěru kapitoly, mezi účinností těchto bezeztrátových kodeků byl minimální rozdíl. U ztrátových formátů takovéto měření provést nelze, zde je účinnost úměrná kvalitě výsledného zvuku a tak jediným objektivním srovnáním by byl tzv. slepý test. Jak je však patrné z grafu 1 a 2, tak mnohem lepší měřitelné výsledky podávaly formáty s technologií SBR. Jednalo se o formáty AACplus a MP3Plus. Na otázku, zda je lepší pro zálohu použít bezeztrátový nebo ztrátový formát nelze jednoznačně odpovědět. Určitě bude důležitá velikost skladovacího prostoru a náročnost posluchače. Náročný posluchač s kvalitním audio řetězcem použije spíše bezeztrátový formát nebo ztrátový s vysokým bitrate, kdežto méně náročnému posluchači bude stačit nějaký z uvedených bezeztrátových formátů. Nesporná výhoda těchto formátů je v masivní podpoře jak softwarových programů na PC, tak hardwarových zařízení.

49 Současné formáty pro záznam zvuku

Seznam použité literatury

[1] SPANIAS, Andreas, Ted PAINTER a Venkatraman ATTI. Audio signal processing and coding. Hoboken: John Wiley , 2007, 464 s. ISBN 978-047-1791-478.

[2] SVOBODA, Viktor. Dreamface.net: Základy akustiky. [online]. [cit. 2011-10-08]. Dostupné z: http://www.dreamface.net/modules.php?name=News&file=article&sid=165

[3] Techmania: Fyzika v pozadí - Akustika. [online]. [cit. 2011-10-11]. Dostupné z: http://www.techmania.cz/edutorium/clanky.php?key=662

[4] Wikipedie: Son - akustika. [online]. [cit. 2011-10-13]. Dostupné z: http://cs.wikipedia.org/wiki/Zvuk

[5] AudifiedSolution: Akustika - teorie slyšení. [online]. 21.3.2011. [cit. 2011-12-29]. Dostupné z: http://www.audified.com/projekt/vavcjamu/vyuka/prednasky/files/A4_Slyseni.pdf

[6] Wikipedie: A/D převodník. [online]. [cit. 2011-11-29]. Dostupné z: http://cs.wikipedia.org/wiki/A/D_převodník

[7] DOC. ING. ŠIMÁK, CSC., Boris. IT Point: Principy zpracování hlasu v klasické a IP telefonii. [online]. [cit. 2011-11-28]. Dostupné z: http://www.itpoint.cz/ip-telefonie/teorie/princip-zpracovani-hlasu-ip-telefonie.asp

[8] BARTOŇ, Martin. Diit.cz: Super Audio CD. [online]. 3.9.2001 [cit. 2011-10-15]. Dostupné z: http://www.diit.cz/clanek/super-audio-cd-popis-technologie/1045/

[9] Inter-IC Sound Bus. [online]. [cit. 2011-11-9]. Dostupné z: http://www.interfacebus.com/I2S_Interface_Bus.html

[10] PETRÁK, Jiří. HI-FI Voice: CD vs SACD vc DVD-A vs uši posluchače. [online]. 19.3.2009. [cit. 2011-12-1]. Dostupné z: http://www.hifi-voice.com/teorie-a-praxe/213-cd-vs-sacd-vs-dvd-a-vs-ui-posluchae-i.html

[11] Sub-band Coding. [online]. [cit. 2011-12-8]. Dostupné z: http://www.otolith.com/otolith/olt/sbc.html

[12] HENN, F a kolektiv. Spectral Band Replication Technologie: Spectral Band Replication Technologie. [online]. [cit. 2011-12-4]. Dostupné z: http://www.broadcastpapers.com/whitepapers/ibc2003CodingSBR_502.pdf

[13] ŠVEC, Jiří. Komprese zvuku? Jen podvod na uši. [online]. 16.9.2009 [cit. 2011-11-15]. Dostupné z: http://avmania.e15.cz/komprese-zvuku-jen-podvod-na-usi

50 Současné formáty pro záznam zvuku

[14] TVFreak: Mezi tichem a šumem - komprese zvuku. [online]. 10.9.2008 [cit. 2012-11-17]. Dostupné z: http://www.tvfreak.cz/art_docD4AD0D60C5888163C1257492006E262C.html

[15] MÍKA, Radek. Komprese. [online]. [cit. 2011-11-23]. Dostupné z: http://www.radekmika.cz/komprese/statisticke-metody-komprese.html

[16] ADAM, Pavol. Úvod do metod zpracování zvuku v současném multimediálním prostředí: Přehled ztrátových zvukových formátů. [online]. 10.9.2008 [cit. 2012-12-5]. Dostupné z: http://zvuk.atrip.sk/index.php?site=4_0

[17] COALSON, Josh. FLAC. [online]. [cit. 2012-12-21]. Dostupné z: http://flac.sourceforge.net/

[18] Spoons audio guide: Apple Lossless. [online]. [cit. 2012-12-26]. Dostupné z: http://www.applelossless.com/

[19] ASHLAND, Matt. Monkey`s audio. [online]. 2000 [cit. 2012-12-28]. Dostupné z: http://www.monkeysaudio.com/theory.html

[20] WavPack: Hybrid Lossless Audio Compression. [online]. [cit. 2012-12-29]. Dostupné z: http://www.wavpack.com/

[21] CRAVEN, Stuart. MLP LosslessCompression. [online]. [cit. 2012-12-29]. Dostupné z: http://www.meridian-audio.com/w_paper/mlp_jap_new.PDF

[22] ADAM, Pavol. Úvod do metod zpracování zvuku v současném multimediálním prostředí: Přehled bezeztrátových zvukových formátů. [online]. 10.9.2008 [cit. 2012-12-01]. Dostupné z: http://zvuk.atrip.sk/index.php?site=5_0

[23] Hydrogen audio: Technical. [online]. [cit. 2012-01-02]. Dostupné z: http://wiki.hydrogenaudio.org/index.php?title=Category:Technical

51