Ogg Vorbis SEBAGAI SALAH SATU ALTERNATIF METODE PEMAMPATAN SUARA MERUGI

Ogg Vorbis as an Altenatif Method for Lossy Sound Compression

Azis Wisnu Widhi Nugraha [email protected] Program Sarjana Teknik Unsoed Purwokerto

ABSTRACT Multimedia technology has changed rapidly. How to get a small audio file with the high quality that still equal to the real quality is became the common issue in the sound compression world. Because the human ears can't hear all of sound component, it's allowed to compress an audio data using lossy method. A new lossy method to compress an audio data is Ogg Vorbis. This method has its own psychoacoustic model that made this method has the better sound quality if compared to the popular codec Mp3. Keywords : sound compression, Ogg Vorbis, Ogg, Vorbis.

tidak boleh terjadi tunda waktu PENDAHULUAN sehingga dibutuhkan lebar bidang yang sangat besar. Perkembangan dunia multimedia dewasa ini yang cukup pesat dikarenakan Dengan ukuran file data audio yang kebutuhan manusia akan data multimedia cukup besar, maka diperlukan suatu teknik cukup tinggi. Suara sebagai salah satu pemampatan data audio untuk mengurangi komponen multimedia memegang peranan ukuran data audio. Teknik pemampatan yang cukup besar. Sejak ditemukan, teknik suara ini mengacu pada istilah audio perekaman suara digital memiliki codecs. Secara umum metode permasalahan dengan kapasitas media pemampatan suara dapat digolongkan penyimpanan. Untuk menyimpan suara dalam dua kelompok besar, yaitu metode dengan kualitas CD audio dibutuhkan laju pemampatan suara tak merugi dan metode cuplikan (sample rate) sebesar 44,1 kHz, pemampatan suara merugi. dengan kanal stereo (dua kanal : kiri dan Untuk memampatkan suara kanan) dan jumlah bit kuantisasi untuk dimungkinkan dilakukan pemampatan masing-masing kanal sebesar 16 bit (dua secara merugi karena sesunguhnya telinga byte), Dengan demikian, dibutuhkan manusia memiliki keterbatasan untuk kapasitas media penyimpan sekitar mendengarkan suara 'asli'. Bagaimana 10MB/menit. telinga manusia mendengarkan suara, Ukuran data yang sedemikian besar melalui beberapa percobaan didekati menimbulkan beberapa permasalahan dengan sebuah model yang disebut dengan sebagai berikut. psychoacoustic model. Model ini sesungguhnya berusaha untuk menentukan 1) Data suara tersebut akan bagian mana dari suara yang akan membutuhkan kapasitas media terdengar oleh telinga manusia dan bagian penyimpanan yang besar. mana yang tidak akan terdengar. 2) Jika data tersebut akan ditransmisikan pada sebuah jaringan dibutuhkan Salah satu metode pemampatan suara lebar bidang (bandwith) yang besar secara merugi yang masih terbilang baru atau jika menggunakan lebar bidang adalah Ogg Vorbis yang dikembangkan yang kecil dibutuhkan waktu yang oleh Xiph.org atau Xiphoporus lama untuk mentransmisikannya. Organization. Teknik pemampatan suara ini 3) Jika data tersebut akan ditransmisikan dikembangkan oleh komunitas dengan pada jaringan secara real-time maka lisensi model BSD-style. Dengan demikian, Ogg Vorbis merupakan salah satu jenis

Dinamika Rekayasa Vol.2 No.1 Februari 2006 ISSN 1858-3075 Azis Wisnu Widhi Nugraha. Ogg-Vorbis Sebagai Salah Satu Alternatif Metode Pemampatan Suara Merugi : 13 22 teknik pemampatan suara yang termasuk pendigitalan dengan menggunakan PCM dalam kategori free-software (peranti lunak adalah sebagai berikut (www.data- bebas). Jika dibandingkan dengan teknik compression.com). pemampatan suara sekelas (Mp3), Ogg a) Pencuplikan (sampling) Vorbis memiliki beberapa keunggulan, seperti. 1) Kualitas subyektif Ogg Vorbis lebih baik dibandingkan dengan Mp3. 2) Dengan ukuran file yang sama dengan Mp3 akan diperoleh kualitas yang lebih baik atau dengan kata lain, Gambar 3 Contoh gelombang sinus tercuplik. dengan kualitas yang sama dengan Pencuplikan adalah mengambil data Mp3 akan diperoleh ukuran file yang amplitudo dari sebuah sinyal pada waktu lebih kecil. tertentu secara berulang-ulang dengan periode tertentu (T detik). Jumlah cuplikan Pada tulisan ini akan sampaikan tiap detik disebut sebagai laju cuplikan mengenai dasar pendigitalan suara, teknik (sample rate) yang besarnya sama dengan pemampatan suara Ogg Vorbis, serta frekuensi pencuplik (fs) atau 1/T Hz. Contoh perbandingan hasil pemampatan suara gelombang sinus tercuplik dapat dilihat menggunakan teknik Mp3 dan Ogg Vorbis. pada Gambar 3. Besar laju cuplikan minimal ditentukan oleh teorema Nyquist yang PENDIGITALAN SUARA dirumuskan pada persamaan di bawah ini. Secara alamiah, sebuah gelombang f = 2× f ...... (1) suara memiliki bentuk yang sangat s max kompleks dan memiliki banyak sekali dimana : komponen frekuensi, sebagaimana fs = frekuensi pencuplik (Hz) dicontohkan pada Gambar 1. Meskipun fmax = frekuensi maksimal yang menjadi sesungguhnya dimungkinkan sebuah komponen frekuensi penyusun gelombang suara merupakan gelombang sinyal yang akan dicuplik (Hz) sederhana yang hanya terdiri atas satu b) Pembobotan (quantization) komponen frekuensi, sebagaimana terlihat pada Gambar 2. Bentuk gelombang suara Pembobotan/kuantisasi adalah yang kompleks sehingga memiliki pemberian nilai pada cuplikan yang komponen frekuensi yang sangat banyak ini diperoleh. Amplitudo minimal hingga mengakibatkan sulitnya merumuskan maksimal data yang telah ditentukan dibagi sebuah sinyal suara dalam sebuah dalam beberapa interval kuantisasi. Setiap persamaan sederhana. interval diberi nilai. Dengan mengacu pada interval dan nilai tiap interval inilah data cuplikan akan dikuantisasi. Nilai hasil kuantisasi bukanlah nilai yang sesungguhnya, namun merupakan nilai pendekatan dari nilai yang sesungguhnya, Gambar 1 Contoh bentuk gelombang suara. sehingga akan terdapat perbedaan nilai hasil kuantisasi dengan nilai sesungguhnya yang disebut derau kuantitasi. c) Penyandian (coding) Langkah terakhir dari PCM adalah penyandian. Setiap nilai hasil kuantisasi akan sandikan dalam sandi biner. Pada Gambar 2 Contoh gelombang sinus analog prakteknya, langkah penyandian sangat berhubungan dengan langkah kuantisasi. Seiring dengan perkembangan teknik Karena dengan menentukan banyaknya bit digital, dimungkinkan untuk merekam yang akan digunakan untuk penyandian, gelombang suara dalam bentuk digital. maka akan dapat ditentukan banyaknya Untuk merubah data suara analog menjadi interval kuantisasi. Sebagai contoh, dengan data suara digital digunakan teknik yang menggunakan tiga bit untuk penyandian paling dasar yaitu Pulse Code Modulation maka akan diperoleh delapan interval (PCM). Adapun langkah-langkah kuantisasi, sedangkan jika dipergunakan 16

14 Dinamika Rekayasa Vol.2 No.1 Februari 2006 ISSN 1858-3075

bit maka akan diperoleh 65.536 interval kawasan frekuensi untuk mendapatkan kuantisasi. sampul spektral dari sebuah data suara. Untuk melakukan transformasi dari Adapun format CD audio yang kawasan waktu ke kawasan frekuensi ini merupakan format digital sinyal audio biasanya digunakan teknik MDCT (Modified memiliki spesifikasi sebagai berikut : Discrete Cosine Transform). 1) laju cuplikan = 44,1 kHz Kemudian akan dilakukan analisa 2) jumlah kanal = 2 kanal/ dengan menggunakan psychoacoustic stereo (kiri dan kanan) model untuk menghilangkan komponen 3) jumlah bit kuantisasi tiap kanal =16 bit suara yang tidak diperlukan. Masing-masing = 2 byte. audio codecs memiliki psychoacoustic model-nya masing-masing. Namun pada PEMAMPATAN SUARA SECARA prinsipnya semua model tersebut berusaha MERUGI untuk memodelkan bagaimana telinga Sebagaimana telah disebutkan pada manusia mendengar. pendahuluan, audio codecs dapat dibagi Setelah komponen suara yang sudah dalam dua kelompok, yaitu pemampatan diperlukan dihilangkan akan dilakukan suara tidak merugi (lossless compression) kuantisasi vektor dan penyandian huffman dan pemampatan suara merugi (lossy untuk mengurangi redudancy yang masih compression) (Mitchell Graham,2003). ada pada data, sehingga pada akhirnya Pemampatan suara secara merugi akan akan diperoleh data termampatkan. mengakibatkan hilangnya beberapa komponen suara, sehingga suara yang MODIFIED DISCRETE COSINE dihasilkan dari data suara termampatkan TRANSFORM (MDCT) hanyalah sesuatu yang mirip dengan data asli (Mitchell Graham, 2003; www.data- MDCT adalah transformasi bertumpuk compression.com; www.cs.sfu.ca; M.H. orthogonal yang didasarkan pada ide Time Deghani dan Kuldip K.Paliwal,2001). Domain Aliasing Cancellation (TDAC). Sebelum data diolah dengan menggunakan Secara alamiah telinga manusia MDCT, data dikelompokkan dalam blok memiliki keterbatasan dalam mendengarkan blok dengan menggunakan fungsi suara. Dengan demikian memungkinkan windowing. Di mana untuk MDCT, setiap dilakukan pemampatan suara secara window akan memiliki overlap sebesar 50% merugi dengan cara membuang komponen- untuk lebar window yang sama dan akan komponen suara yang tidak didengar atau lebih rumit lagi untuk lebar window yang yang mungkin tidak didengar oleh berbeda. Windowing ini dimaksudkan untuk manusia. Untuk memutuskan apakah memperhalus hasil keluaran transformasi. sebuah komponen suara tersebut didengar (Sporer Th. et al, 1992; Wright Keith, 2003) atau tidak oleh manusia dikenal istilah psychoacoustic model. Model ini mencoba Jika diberikan sample dalam kawasan memodelkan bagaimana telinga manusia waktu dengan panjang blok sample sebesar mendengar suara. (www.cs.sfu.ca; n sample, dan xt(k) dengan k = 0, 1, ....., n-1 xiphoporus mailing list archive, 2003; adalah sample dalam kawasan waktu, serta Coleman Mike, 2001) Xt(k) dengan k = 0, 1, ....., n/2-1 adalah nilai sample pada kawasan frekuensi, maka Secara garis besar proses persamaan MDCT adalah sebagai berikut. pemampatan suara secara merugi dapat dilihat pada Gambar 4. n−1  π  n   ()()()mX = kxk cos 2k 1++ ()2m +1  t ∑ t  2 2  Dalam pemampatan suara merugi, k=0      n  data mentah berupa data PCM pertama- m = ,....1,0  −1 tama akan ditransformasikan ke dalam  2  .... (2)

Gambar 4 Teknik pemampatan suara merugi.

15 Azis Wisnu Widhi Nugraha. Ogg-Vorbis Sebagai Salah Satu Alternatif Metode Pemampatan Suara Merugi : 13 22

Sedangkan Inverse MDCT (IMDCT) adalah. pembicaraan normal berkisar antara

n 500 Hz hingga 2 kHz. −1 n 2  π n  ...(3) pfpy mX cos 2 p 1  2m 1 Persamaan untuk ATH telinga t ()()= ∑ t ()   ++ ()+  4 m=0  2  2   manusia sebagai berikut. p = ,....,1,0 n −1 − 8,0  f  ATH ()f = 64,3   dimana f(x) adalah fungsi window yang  1000 2 ...... (6)   f   dapat berbeda-beda untuk masing-masing − 6,0   − 3,3    1000  algoritma. Untuk ukuran blok frame yang − 5,6 e f 4 −3  sama, window yang digunakan simetris.  1000 +10 ()dB Sebagai contoh, codecs Mp3, MPEG-2 dan AAC menggunakan fungsi window berikut. Persamaan di atas dapat digambarkan seperti tampak pada Gambar 5 di π  1  ...... (4) bawah ini. wk = sin k +   2  2  Sedangkan untuk Vorbis digunakan fungsi window sebagai berikut.

π π 1  w sin sin 2 k   ...... (5) k =    +   2  2  2 

PSYCHOACOUSTIC MODEL Pendengaran manusia memiliki keterbatasan dalam mendengarkan suara yang diterima. Psychoacoustic model akan Gambar 5 Ambang pendengaran mutlak manusia. berusaha mencari komponen suara mana yang terdengar dan membuang mana yang 2) Frequency masking tidak terdengar. Contoh sederhana adalah Telinga manusia lebih mampu telinga manusia hanya mampu membedakan pola nada pada mendengarkan suara antara frekuensi 20 frekuensi rendah dibandingkan pada Hz hingga 20 kHz, meski pada telinga frekuensi tinggi. Sebagai contoh, dewasa biasanya frekuensi maksimal yang telinga manusia akan lebih mudah dapat di dengar adalah 16 kHz. Dengan membedakan frekuensi 500 Hz dan demikian, komponen frekuensi di luar 20 Hz 600 Hz dibandingkan membedakan hingga 16 kHz dapat dibuang. Contoh lain frekuensi 17 kHz dan 18 kHz. Hal ini adalah jika kita berada dalam lingkungan berarti beberapa frekuensi yang yang berisik, misalnya di dalam ruang berdekatan tidak dapat terdengar oleh mesin, kita tidak dapat mendengarkan telinga manusia jika muncul secara suara siulan ringan, untuk itu kita dapat bersamaan. membuang komponen siulan ringan Setelah melewati beberapa studi, tersebut dari data, meski dalam prakteknya diketahui bahwa antara 20 Hz hingga belum ada psychoacoustic model yang 20 kHz, frekuensi dapat dibagi dalam dapat melakukan hal tersebut. bandwith kritis (critical bandwidth), yang tidak seragam, tidak linear, dan Dalam membuat sebuah bergantung pada suara yang psychoacoustic model dikenalkan konsep- terdengar. Sinyal yang berada diluar konsep berikut. (www.cs.sfu.ca) satu critical bandwith baru akan 1) Ambang pendengaran mutlak/ terdengar berbeda bagi telinga Absolute Threshold of Hearing (ATH) manusia. Lebar satu critical bandwidth Meskipun telinga manusia dapat disebut dengan 1 Bark. mendengar frekuensi dari 20 Hz Hubungan frekuensi dalam Hz dan hingga 20 kHz, namun hal ini tidak critical bandwidth dalam Bark dalam berarti bahwa semua frekuensi Ogg Vorbis dipenuhi oleh persamaan didengar dengan cara yang sama. berikut, digambarkan pada Gambar 6. Pada frekuensi antara 2 hingga 4 kHz bark = 1,13 arctan( ,0 00074 f ...... (7) telinga manusia lebih sensitif 2 + 24,2 arctan(),0 0000000158 f dibandingkan dengan frekuensi yang + ,0 0001 f lainnya. Sementara frekuensi

16 Dinamika Rekayasa Vol.2 No.1 Februari 2006 ISSN 1858-3075

suatu detik, ketika di mampatkan dengan bit rate sebesar 128 kbps kualitas suara yang dihasilkan sudah cukup memuaskan telinga pendengar bahkan mungkin sudah lebih dari cukup, karena sesungguhnya mungkin dengan laju bit sebesar 64 kbps kualitas suara pada detik tersebut sudah cukup memuaskan. Namun apabila pada detik yang lain musik berubah menjadi gaduh, pukulan drum menjadi sangat cepat dan mulai memukul cymbal dengan keras, lead Gambar 6 Hubungan antara frekuensi Hz dan frekuensi Bark gitar mulai bermain , bass gitar mulai pada Ogg Vorbis. dicabik dengan cepat, dan suara vocal 3) Temporal masking melengking, dengan menggunakan bit rate Temporal masking adalah sebuah sebesar 128 kps maka suara pada detik mekanisme pertahanan dari telinga tersebut akan terdengar lebih jelek. Karena yang diaktifkan untuk melindungi sesungguhnya untuk mempertahankan strukturnya yang halus dari suara yang kualitas suara pada detik tersebut harus keras. Saat menerima suara yang menggunakan laju bit sebesar, misal 256 keras, telinga manusia akan bereaksi kbps atau bahkan lebih untuk menjaga dengan berkontraksi sedikit, kualitas suara yang dihasilkan. sementara akan mengurangi volume Dengan demikian dalam pemampatan penerimaan suara yang mengikutinya. suara dikenal tiga jenis bit rate, yaitu. Reflek ini, seringkali disebut dengan (Mitchell Graham, 2003) blinking (dianalogikan dengan mata), ini berarti untuk melindungi struktur 1) Laju bit tetap/Constant Bit Rate (CBR) terlinga yang halus dari daya suara Pemampatan suara menggunakan yang merusak CBR, sebagaimana namanya, menggunakan laju bit yang tetap LAJU BIT (BIT RATE) sepanjang data yang ada. Kekurangan dari CBR ini sebagaimana Di muka telah disebutkan mengenai diilustrasikan di atas, namun laju cuplikan (sample rate), yang berarti keunggulan dari CBR kita dapat jumlah cuplikan dari data yang akan memperkirakan besar media diperoleh tiap detiknya. Dalam dunia digital penyimpanan yang dibutuhkan. audio dikenal juga bit rate atau laju bit, yaitu Sebagai contoh jika sebuah file data jumlah bit yang digunakan untuk audio sepanjang lima menit akan menyatakan data audio sepanjang satu dimampatkan dengan kecepatan 256 detik. Sebuah data suara dengan kualitas kbps, maka besar media penyimpan CD audio yang tidak dimampatkan yang dibutuhkan sebesar: 256 kbps x menggunakan memiliki laju bit sebagai 300 detik : 8 bit = 9.600 kB = 9,6 MB. berikut. 2) Laju bit rata-rata/Average Bit Rate (ABR) brcd = × nf qs × nch ...... (8) Proses encoding dengan br 1,44 kHz 16bit 2kanal cd = × × menggunakan average bit rate (AVR) br 200.411.1 bps cd = adalah proses encoding di mana brcd ≈ 411.1 kbps encoder akan menggunakan bit rate rata-rata yang kemudian akan Pada teknik pemampatan suara dikurangi atau ditambah sesuai merugi, dengan menggunakan laju bit sekitar 64 hingga 256 kbps kita sudah dapat dengan kebutuhan, namun masih menyimpan informasi yang sama dengan dipertahankan nilai rata-rata dari bit rate yang digunakan. Pada umumnya data suara sekualitas CD audio. encoder Mp3 menggunakan ABR. Permasalahan yang timbul adalah bit 3) Laju bit berubah/Variable Bit Rate rate hanyalah berbicara mengenai ukuran (VBR) dari data suara, tidak membicarakan Variable bit rate (VBR) adalah proses mengenai kualitas dari suara tersebut. encoding di mana kualitas suara dari Sebagai contoh sebuah data suara yang data dipertahankan sama sepanjang menyimpan sebuah ketukan drum pada data. Dengan demikian tidak ada

17 Azis Wisnu Widhi Nugraha. Ogg-Vorbis Sebagai Salah Satu Alternatif Metode Pemampatan Suara Merugi : 13 22

patokan berapa besar bit rate yang sedangkan 'floor tipe 1' menggunakan akan digunakan. Besarnya bit rate algoritma interpolasi linear. Kemudian floor dapat berubah ubah sesuai dengan data akan dikurangkan dari data keluaran kebutuhan. Besarnya bit rate yang MDCT untuk menghasilkan data residue digunakan pada satu waktu tertentu yang merupakan representasi struktur halus diupayakan dapat mempertahankan spectrum sinyal audio. kualitas suara yang akan dihasilkan Data residue ini kemudian akan pada saat proses decoding, hal ini dimasukkan dalam blok kopling kanal untuk bergantung pada encoder yang mengurangi redundancy dari kanal. Secara digunakan, dalam hal ini adalah teoritis, Ogg Vorbis dapat memiliki kanal psychoacoustic model yang digunakan sebanyak 255 kanal (www.xiph.org), namun oleh codecs. Meskipun kualitas dari hingga saat ini kopling kanal lebih dari dua data yang dihasilkan akan dapat (stereo) belum didukung. Terakhir data dipertahankan dari awal hingga akhir, residue dan floor disandikan dengan namun kelemahan dari teknik ini menggunakan kuantisasi vektor (VQ) dan adalah besarnya data yang dihasilkan sandi Huffman untuk meminimalkan tidak dapat diperkirakan sebelumnya. redundancy. Keluaran blok ini merupakan data audio Vorbis yang disebut dengan data CODECS Ogg Vorbis analisis. Data analisis Vorbis ini kemudian Encoder Ogg Vorbis akan diberi header yang terdiri atas tiga macam header (parameter header, Dari Gambar 7, pertama-tama data comment header, dan codebooks header). PCM akan menjadi masukan bagi blok Data analisis yang telah diberi header ini windowing, Ogg Vorbis menggunakan disebut dengan data mentah Vorbis. panjang window antara 64 hingga 8192 cuplikan (merupakan perpangkatan dari Data mentah Vorbis ini dapat langsung dua) yang saling bertumpangan sebesar digunakan untuk pengiriman data 50%. Setelah dilakukan proses windowing, menggunakan protokol yang telah memiliki maka selanjutnya data cuplikan proses sinkronisasinya sendiri seperti UDP/ ditransformasikan dari kawasan waktu ke Uni Datagram Protocol (RTP/Real Time kawasan frekuensi dengan menggunakan Protocol). Sedangkan untuk keperluan MDCT (Modified Discrete Cosine penyimpanan atau trasport seperti TCP/ Transform). Transfer Control Protocol, data mentah Vorbis ini harus dibungkus dalam data Ogg. Setelah data ditransformasikan ke Data Ogg terdiri atas page-page yang kawasan frekuensi, kemudian model didalamnya terdapat segment-segment, psychoacoustic diterapkan pada data. Pada header, dan lacing value. Sebuah aliran tahap inilah proses 'pembuangan' bagian data Ogg dapat hanya terdiri atas satu yang tidak dapat terdengar oleh telinga page. manusia dilakukan. Proses ini pula yang akan menentukan besarnya rasio Decoder Ogg Vorbis pemampatan. Keluaran dari blok ini berupa Dari Gambar 8 pertama-tama data data floor yang merupakan representasi dari Ogg akan 'dibongkar' untuk mendapatkan model resolusi rendah dari spektrum audio. data mentah Vorbis, yang kemudian akan Ogg Vorbis memiliki dua jenis data floor, dilakukan decoding data floor dan residue. yaitu 'floor tipe 0' dan 'floor tipe 1! Kemudian dilakukan decoupling kanal. (www.xiph.org). 'Floor tipe 0' menggunakan Setelah itu data floor dan data residue LSP (Line Spectral Pair) untuk dimasukkan dalam blok dot product. merepresentasikan model spektrum audio, Keluaran dari dot product ini merupakan

Data PCM ResiduChannel Vector - Bitstream Windowing MDCT Quantization - coupling + Huff.Enc.

Psycho- acoustic Model Data Floor

Gambar 7 Diagram blok encoder vorbis. (http://stoffke.port5.com/en_block/block_en.html)

18 Dinamika Rekayasa Vol.2 No.1 Februari 2006 ISSN 1858-3075

Bitstream Decode Residu Channel Dot Overlapp Data Audio IMDCT Floor & Residue decoupling Product Audio data Spectrum Vector Floor

Gambar 8 Diagram blok decoder Ogg Vorbis. vektor spektrum audio. Vektor spektrum Ogg Vorbis tidak menekankan pada audio ini kemudian dijadikan masukan bagi ukuran bit rate guna menentukan kualitas IMDCT (Inverse MDCT) untuk mendapatkan suara yang akan diperoleh (secara default data audio. Kemudian dilakukan Ogg Vorbis menggunakan VBR). Ogg penumpangan data keluaran IMDCT Vorbis encoder secara normal tidak dengan blok sebelumnya untuk berdasarkan pada bit rate saja, namun juga mendapatkan data lengkap. Pada proses berdasarkan pada faktor kualitas yang penumpangan data ini, data blok aktif saat besarnya berkisar antara '-1' (terendah) ini akan disimpan untuk kemudian hingga '10' (tertinggi) dengan kenaikan ditumpangkan dengan data blok berikutnya. sebesar '0,01'. Sedangkan faktor kualitas Setelah proses penumpangan ini selesai, yang normal berada diantara '0' hingga '10'. maka diperoleh aliran data audio yang Faktor kualitas ini adalah sebuah ukuran sesungguhnya. tentang seberapa dekat terdengarnya sebuah file yang telah termampatkan KUALITAS SUARA Ogg Vorbis dengan file aslinya. Encoder akan menggunakan bit sesuai dengan kebutuhan Untuk menentukan kualitas suara hasil untuk memenuhi permintaan kualitas. dari codecs audio, maka dapat dilakukan Setiap pengaturan kualitas menghasilkan dua macam pengujian. Yang pertama rata rata bit rate kasar untuk sebuah adalah pengujian secara subyektif dan potongan musik, namun ini dihasilkan dari pengujian secara obyektif. Pengujian secara bagaimana encoder diatur, encoder Vorbis subyektif adalah pengujian berdasarkan sendiri tidak berpatokan pada suatu bit rate hasil pendengaran kualitas suara yang tertentu. Pengaturan default faktor kualitas dihasilkan oleh sebuah codecs. Pengujian pada encoder Vorbis adalah 3, di mana ini lebih menitikberatkan pada subyektifitas akan memberikan hasil yang cukup baik pendengar. Kualitas secara subyektif inilah bagi rata rata pengguna karena sudah sebenarnya yang menjadi patokan utama memberikan kualitas suara yang lebih baik bagi pemampatan data audio. Sedangkan dari pada sebuah file Mp3 dengan bit rate pengujian secara obyektif adalah pengujian sebesar 128 kbps, namun berukuran 10% dengan cara melihat komponen obyektif lebih kecil. dari data tersebut seperti bit rate, rasio pemampatan, dan rata-rata spektral yang Secara normal, sebuah file Ogg Vorbis dihasilkan. (www.xiph.org) akan menggunakan kopling kanal merugi, yang berarti kelebihan data antara kanal kiri Test yang dilakukan oleh Fraunhofer dan kanal kanan akan digabungkan untuk dan Thomson, pengembang Mp3, diketahui menghemat ruang. Hal ini akan menjadikan bahwa untuk mendapatkan kualitas yang file lebih kecil, namun juga berarti bahwa setara dengan kualitas CD audio, sebuah image stereo yang dihasilkan oleh sebuah file Mp3 harus disandikan menggunakan bit file Ogg Vorbis tidak akan selalu identik rate sebesar 256 kbps dengan rasio dengan image stereo aslinya. Jika ini pemampatan (compression ratio) sebesar mengganggu, maka dengan menggunakan 5:1. faktor kualitas 6 atau lebih kopling kanal Sementara itu bit rate sebesar 128 merugi akan dimatikan dan semua kopling kbps menjadi standar. Meskipun kanal akan menjadi tak merugi. kebanyakan orang dengan menggunakan Kebanyakan orang tidak dapat perangkat audio yang baik dapat membedakannya, namun mungkin membedakan kualitas suara yang beberapa orang dapat membedakannya. dihasilkannya dengan CD audio, namun Penggunaan variable bit rate pada file kualitas suara yang dihasilkan masih yang digunakan untuk streaming pada web terdengar cukup baik bagi kebanyakan tidak dimungkinkan, karena bit rate spike orang. Dengan menggunakan bit rate 128 dapat memperbesar kebutuhan bandwith. kbps, rasio pemampatan yang diperoleh Untuk kebutuhan semacam ini Ogg Vorbis adalah 10:1.

19 Azis Wisnu Widhi Nugraha. Ogg-Vorbis Sebagai Salah Satu Alternatif Metode Pemampatan Suara Merugi : 13 22 encoder dapat menggunakan constant bit 3) File dengan format wav, ogg dan Mp3 rate. Selain itu juga tersedia pengaturan kemudian didengarkan dan untuk nilai maksimal bit rate dan nilai dibandingkan untuk mengetahui minimal bit rate. Namun hal ini akan kualitas suara secara subyektif. menghasilkan kualitas suara yang lebih 4) Untuk mengetahui besarnya rata-rata rendah dibandingkan dengan pengaturan bitrate dan bit rate yang digunakan standar yang telah ada. pada tiap frame digunakan perangkat lunak mp3stat. Perbandingan Codecs Ogg Vorbis dan 5) Untuk mengetahui rata-rata spektral Mp3 dari setiap format digunakan Untuk mengetahui sebaik apa codecs perangkat lunak baudline, kemudian Ogg Vorbis, maka akan dibandingkan diperbandingkan ketiga format dengan kualitas Mp3 dan kualitas CD audio. tersebut. Adapun langkah-langkah untuk mengetahui Hasil Perbandingan melakukan perbandingan adalah sebagai berikut. File data audio yang akan dibandingkan dapat dilihat pada Tabel 1. 1) CD audio di rip untuk mendapatkan file Ketiga lagu tersebut diambil dari album dengan format wav dengan kualitas kompilasi image, emotional & relaxing CD audio. terbitan Sonny Music. Ketiga lagu tersebut 2) File dengan format wav tersebut adalah : kemudian diubah menjadi format Ogg dengan menggunakan oggenc 1) Cheers to the Earth yang dibawakan dengan faktor kualitas '5'. File format oleh Takefumi Haketa, wav tersebut juga diubah menjadi 2) Libertango yang dibawakan oleh Yo- format Mp3 dengan menggunakan Yo-Ma, LAME dengan menggunakan VBR 3) Rose yang dibawakan oleh James dan faktor kualitas VBR sebesar '2'. Horner.

Tabel 1 File yang dibandingkan

Faktor Jenis Bit rate rata- Ukuran Rasio Rasio Nama File Format durasi kualitas bit rate rata (kbps) file (Mb) ukuran file pemampatan Cheers To The Earth.wav wav - - 1411,2 38,6 00:03:49 Cheers To The Earth.ogg Ogg 5 VBR 169,19 4,6 11,92% 8,39 : 1 00:03:49 Cheers To The Earth.wav.mp3 Mp3 2 VBR 194,34 5,3 13,73% 7,28 : 1 00:03:49 Libertango.wav wav - - 1411,2 31,9 00:03:09 Libertango.ogg Ogg 5 VBR 151,51 3,4 10,66% 9,38 : 1 00:03:09 Libertango.wav.mp3 Mp3 2 VBR 174,42 3,9 12,23% 8,18 : 1 00:03:09 Rose.wav wav - - 1411,2 29,1 00:02:52 Rose.ogg Ogg 5 VBR 158,41 3,3 11,34% 8.82 : 1 00:02:52 Rose.wav.mp3 Mp3 2 VBR 155,5 3,2 11,00% 9,09 : 1 00:02:52

Tabel 2 Perbandingan bitrate pada format Ogg dan Mp3

Cheers To The Earth Libertango Rose Ogg Mp3 Ogg Mp3 Ogg Mp3 Average bit rate 169,19 kbps 194,34 kbps 151.51 kbps 174.42 kbps 158.41 kbps 155.50 kbps Durasi 229,20 detik 229,01 detik 189.67 detik 189.52 detik 172.89 detik 172.77 detik Frame 12374 8776 11211 7263 7469 6621 32kbit: 0.7% (90) 0.9% (82) 0.2% (22) 0.3% (21) 0.4% (31) 0.5% (32) 40kbit: 0.0% (0) 0.0% (3) 0.0% (1) 0.0% (1) 0.0% (0) 0.0% (3) 48kbit: 0.0% (0) 0.0% (0) 0.0% (0) 0.0% (2) 0.0% (0) 0.1% (4) 56kbit: 0.0% (0) 0.0% (2) 0.0% (0) 0.0% (0) 0.0% (0) 0.0% (1) 64kbit: 0.0% (0) 0.0% (1) 0.0% (0) 0.0% (0) 0.0% (0) 0.0% (3) 80kbit: 0.0% (1) 0.0% (4) 0.0% (0) 0.1% (9) 0.0% (0) 0.0% (2) 96kbit: 0.0% (0) 0.2% (18) 0.0% (0) 0.9% (66) 0.0% (1) 0.1% (7) 112kbit: 0.0% (3) 0.7% (58) 0.5% (61) 1.7% (122) 0.1% (11) 3.3% (220) 128kbit: 3.6% (449) 2.4% (209) 26.8% (2999) 5.5% (399) 3.3% (248) 23.7% (1572) 160kbit: 47.1% (5824) 30.2% (2653) 40.1% (4498) 43.9% (3185) 84.2% (6289) 61.2% (4050) 192kbit: 28.5% (3529) 39.6% (3479) 14.5% (1626) 41.0% (2979) 11.6% (867) 6.9% (457) 224kbit: 7.0% (864) 14.1% (1234) 7.6% (847) 4.7% (342) 0.1% (7) 2.3% (153) 256kbit: 6.3% (775) 5.7% (502) 10.0% (1120) 1.7% (122) 0.1% (4) 1.4% (96) 288kbit: 6.1% (756) 0.0% (0) 0.3% (37) 0.0% (0) 0.1% (9) 0.0% (0) 320kbit: 0.7% (83) 6.1% (531) 0.0% (0) 0.2% (15) 0.0% (2) 0.3% (21)

20 Dinamika Rekayasa Vol.2 No.1 Februari 2006 ISSN 1858-3075

a) Perbandingan kualitas subyektif Mp3. Suara yang dihasilkan oleh Ogg Vorbis lebih mendekati suara aslinya Secara subyektif kualitas suara pada dibandingkan dengan Mp3. Selain itu dapat file audio dengan format Ogg dan Mp3 dikatakan juga bahwa untuk mendapatkan hampir sama, namun kualitas suara file kualitas yang sama dengan kualitas Mp3, audio dengan format ogg terasa lebih maka ukuran file ogg akan lebih kecil bersih sementara file dengan format mp3 dibandingkan ukuran file Mp3. sedikit terdengar adanya suara desis dibelakang yang cukup jelas, disamping itu PUSTAKA format Ogg juga lebih terasa mendekati suara aslinya (format CD audio).Pemisahan ______,Audio stereo untuk kedua format sudah dirasa Compression,http://www.cs.sfu.ca/under memuaskan, namun untuk perbedaan suara grad/CourseMaterials/ yang ekstrim (seperti pada lagu Cheers to CMPT479/material/notes/Chap4/Chap4. the Earth) terada format Ogg terasa lebih 3/Chap4.3.html, ___. baik. ______, Ogg Vorbis Documentation, Dengan melihat Tabel 1, tampak http://www.xiph.org, 2005. dengan ukuran file yang lebih kecil ______, Ogg Vorbis Encoder Block diperoleh kualitas subyektif yang lebih baik. Diagram, b) Perbandingan kualitas obyektif http://stoffke.port5.com/en_block/block_e n.html, 2005. Pada Tabel 1, dengan kualitas audio yang hampir sama, tampak bahwa rasio ______, Theory of Data pemampatan Ogg Vorbis lebih tinggi Compression, http://www.data- dibandingkan dengan Mp3 kecuali pada compression.com/ ,___. lagu ketiga (Rose.wav.Mp3). Sementara ______, Xiphoporus mailing list perbandingan bitrate yang digunakan dapat archieve, http://www.xiph.org/archives/ , dilihat pada Tabel 2, di mana terlihat Mp3 2003. menggunakan bit rate rata-rata yang lebih besar dibandingkan dengan Ogg. Coleman Mike, Vorbis Illuminated, http://www.mathdogs.com/vorbis- Pada pengamatan rata-rata spektral illuminated/, 2001. dengan menggunakan perangkat lunak baudline (grafik di lampiran), tampak secara Mitchell Graham, An Introduction to keseluruhan, format ogg dapat memberikan compressed audio with Vorbis, keluaran yang hampir sama dengan format http://grahammitchell.com/, 2003. aslinya (CD audio). Pada format Mp3, rata- rata telah dilakukan pemotongan pada Mohammad H. Deghani dan Kuldip K. komponen frekuensi diatas 15 kHz. Paliwal, Lossy and Lossless Coding and Sedangkan pada format ogg pemotongan Compression of Encoded Audio Stream, baru terjadi disekitarnya 19 kHz. Pada Microelectronis Engineering Research grafik, tampak untuk lagu Rose pada Conference, 2001. format Mp3 telah dilakukan pemotongan Pasi 'Albert' Ojala, Compression Basics, pada 16 kHz. Hal ini menjelaskan ukuran http://www.cs.tut/fi/~albert, __. file format Mp3 untuk lagu Rose lebih kecil dibandingkan dengan format Ogg. S. Pfeiffer, RFC 3533 : The Ogg Encapsulation Format Version 0, PENUTUP http://community.roxen.com/developers/i docs/rfc/rfc3533.html, Mei 2003. Ogg Vorbis sebagai suatu teknik pemampatan suara secara merugi yang Sporer Th., Brandenburg Kh., Edler B., The use of multirate filterbanks for coding masih baru memiliki beberapa keunggulan th seperti sifatnya yang free software, high quality digital audio, 6 European sehingga memberikan kebebasan dalam Signal Processing Conference penggunaan dan pengembangan oleh pihak (EUSIPCO), Amsterdam, June 1992, lain. Vol.1, halaman 211-214. Secara umum dapat dikatakan bahwa Wright Keith, Notes on Ogg Vorbis and the kualitas suara yang dihasilkan oleh codecs MDCT, http://www.free-shop.com, 23 Ogg Vorbis lebih baik dibandingkan dengan Mei 2003.

21 Azis Wisnu Widhi Nugraha. Ogg-Vorbis Sebagai Salah Satu Alternatif Metode Pemampatan Suara Merugi : 13 22

Azis Wisnu Widhi Nugraha, Studi Kajian Metode Pemampatan Suara, 2003. Ogg Vorbis sebagai Salah Satu Alternatif

LAMPIRAN

Lampiran 1 Spektral rata-rata lagu "Cheers to the Earth".

Lampiran 2 Spektral rata-rata lagu "Libertanggo".

Lampiran 3 Spektral rata-rata lagu "Rose".