Análisis Comparativo De Codificadores De Audio Sin Pérdidas
Total Page:16
File Type:pdf, Size:1020Kb
2o Congreso Internacional de Acústica UNTREF Septiembre 2010, Argentina ANÁLISIS COMPARATIVO DE CODIFICADORES DE AUDIO SIN PÉRDIDAS FERNANDO A. MARENGO RODRIGUEZ 1, ERIBERTO A. ROVERI, JUAN MANUEL RODRÍGUEZ GUERRERO, MAURO TREFFILÓ, FEDERICO MIYARA 1 1 Universidad Nacional de Rosario, Facultad de Ciencias Exactas, Ingeniería y Agrimensura, Escuela de Ingeniería Electrónica, Laboratorio de Acústica y Electroacústica, Rosario, Argentina. [email protected] [email protected] [email protected] [email protected] [email protected] Resumen – A raíz de la mayor capacidad de transmisión y recursos de almacenamiento disponibles, la codificación de audio sin pérdidas ha ganado popularidad en los audiófilos con respecto a la codificación perceptual. Hasta el momento, se hicieron muchas comparaciones entre los codec sin pérdidas, pero ninguna de ellas nos da noción de cuál codec es el mejor para comprimir un archivo de audio dado en formato PCM estéreo. Este trabajo pretende cubrir esa necesidad, haciendo una comparación exhaustiva entre varios codec populares en términos del factor de compresión y de la velocidad de codificación para piezas musicales de distintos géneros provenientes de CD co- merciales. 1. INTRODUCCIÓN larmente conocido como MP3 [1]— y Ogg Vorbis — de formato libre y abierto [2]—. La compresión de información ha jugado un papel Por otro lado, se tienen los codec sin pérdidas fundamental en la tecnológica digital, ya que su em- (CSP), que minimizan la redundancia de la señal de pleo permite minimizar el espacio de almacenamiento entrada sin introducir distorsión alguna. Este benefi- de información, así como el ancho de banda necesa- cio se consigue a costa de alcanzar menor compresión rio para su transmisión entre equipos remotos. Dicha —típicamente entre 1,5 y 6 veces [3]— pero su uso información puede ser de varios tipos, como por se difunde cada vez más entre los audiófilos por va- ejemplo texto, audio, video y multimedia, y su impor- rias razones: tancia se mantiene vigente. Actualmente existen numerosos métodos de com- - Tecnológicas: El avance de la tecnología permite presión de información digital, pero sólo algunos de acceder más fácilmente a recursos de almacena- ellos aprovechan las particularidades de las señales miento con mayor capacidad de memoria. Asi- típicas de audio, como ser la relativa predecibilidad a mismo, los canales de transmisión de datos vía In- corto plazo y un alto grado de redundancia. Los pro- ternet aumentan su capacidad. Estos hechos com- gramas que los implementan son también conocidos pensan las diferencias de compresión entre los como codec de audio (codec es una contracción de codec perceptuales y los CSP. codificador-decodificador), ya que pueden codificar - Económicas: Los equipos de reproducción de (comprimir) la información original en un formato sonido de alta fidelidad disminuyen de costo con digital determinado y decodificar (descomprimir) el paso del tiempo, haciéndose más masivo su ac- estos datos al formato original. ceso. En estos equipos se vuelve evidente la dis- Hay dos clases de codificadores de audio masi- torsión que introduce la codificación perceptual. vamente empleados. Por un lado, están los codec - Masterización: Las grabaciones de estudio se perceptuales, que minimizan la redundancia presente pueden transmitir entre equipos remotos en for- en la señal de entrada, además de suprimir informa- mato comprimido, pero en estos casos no se admi- ción psicoacústicamente no relevante para el oído te pérdida de información: la única opción viable humano. Estos codec se caracterizan por alcanzar es usar CSP. gran compresión —reducen la información de entrada - Medición: Las grabaciones de audio que realizan entre 8 y 13 veces—, y algunos ejemplos de éstos son los especialistas en acústica suelen ocupar espacio MPEG-1 audio layer 3 —norma internacional popu- 1 considerable si se contempla solamente el formato les de audio provenientes de grabaciones de estudio WAV. En estos casos no se admite pérdida de in- poseen una longitud de correlación extensa [7] que es formación, por lo que el uso de CSP puede consti- indispensable suprimir. Los CSP analizados en este tuir una excelente alternativa en aras de economi- trabajo realizan esta tarea en el dominio temporal, zar el espacio de memoria ocupado. mediante la aproximación de la entrada actual x(n) como una combinación lineal de valores pasados de En la actualidad, el usuario común puede acceder entrada y de salida. Este proceso se conoce como fácilmente a una cantidad importante de CSP diferen- predicción lineal, y es de tipo FIR o IIR, según se tes. Ante la pregunta sobre cuáles son los más efi- contemplen N entradas o M salidas pasadas (ver Figu- cientes, se puede recurrir a estudios comparativos de ra 2). A fin de reducir la representación de los coefi- rendimiento [4]. Sin embargo, no se ha encontrado cientes intervinientes, se los cuantifica con una deter- una publicación revisada donde se compare el minada cantidad de bits. La diferencia entre la muestra desempeño de los CSP más populares en la actuali- original y su valor aproximado es el residuo e(n). dad cuando se apunta a distintos géneros musicales. La presente publicación intenta brindar una guía x ( n ) + e(n) al audiófilo sobre los CSP de mejor rendimiento para algunos géneros musicales ampliamente difundidos - en la República Argentina. Se analiza un conjunto de CSP con diversas piezas musicales completas prove- Q nientes de discos compactos comerciales, donde las -1 -2 -1 -2 a1 z + a 2 z +... b1 z + b 2 z +... muestras digitales fueron extraídas con tasa de mues- treo F = 44 100 Hz y resolución n = 16 bits en for- -N -M s b + a N z + - +bM z mato PCM estéreo. El rendimiento de los CSP se analizó en términos de la compresión alcanzada y de la demora de procesamiento. Figura 2: Diagrama de bloques del decorrelacionador em- Este trabajo se organiza de la siguiente manera. pleado en los codificadores sin pérdidas analizados. En la sección 2 se repasa brevemente el principio de funcionamiento de los CSP evaluados y sus variantes En general los CSP funcionan con M=0, constitu- funcionales. El análisis comparativo de los CSP pro- yendo un modelo autoregresivo –en inglés, autore- puesto se expone en la sección 3, y sus resultados se gressive ó AR-. En este caso, los N coeficientes del mencionan en la sección 4. La sección 5 muestra un predictor pueden ser de valores fijos [5], [8] o bien algoritmo de selección de CSP óptimos según los dependientes de los datos a codificar (codificador requerimientos del usuario en términos de la veloci- lineal predictivo ó LPC). En el primer caso los coefi- dad de procesamiento y la compresión deseadas. cientes provienen de la aplicación de polinomios de interpolación de Lagrange [6]. En el otro caso, el 2. FUNCIONAMIENTO DE LOS CODEC SIN predictor se ajusta a la señal de entrada, logrando en general mejor compactación a cambio de mayor car- PÉRDIDAS ga computacional. Esos métodos de ajuste minimizan Básicamente, los codificadores sin pérdidas pro- la energía del error de predicción (norma de mínimos cesan la señal en cuadros de longitud determinada, cuadrados) [9] con algoritmos recursivos como Le- según lo ilustra la Figura 1. En cada cuadro se realiza vinson-Durbin [8], o vía redes neuronales [10]. la decorrelación de las muestras de entrada, obtenién- Sólo algunos CSP emplean predictores IIR [11], dose un conjunto de datos pequeños llamado residuo, [12], [13], [14], [20] ya que el ajuste de los coeficien- que posteriormente se comprime con un codificador tes es más costoso computacionalmente que en el de entropía que típicamente es de tipo Rice [4], [5], caso FIR, y las mejoras de compresión son a lo sumo [6]. Éstos se multiplexan con los parámetros del de- modestas [9]. Sin embargo, se dice en [11], [12] que correlacionador para conformar la trama de salida del el modelo IIR tiene el potencial de adaptarse mejor a codificador. datos con diversas formas espectrales, hecho que puede ser útil si se piensa en la existencia de compo- Señal de Señal nentes de banda ancha en la señal de entrada. audio comprimida En el extremo receptor, el decodificador recons- x(n) e(n) truye la señal original con los datos provenientes de Seccion amiento Decorrelación Codificador de en cuadros cada cuadro de la trama codificada. Para dicha re- entropía construcción, se hace la combinación lineal con los mismos coeficientes empleados en el codificador. A Figura 1: Esquema general del codificador sin pérdidas. este resultado le suma el residuo previamente decodi- ficado (ver Figura 3). El decorrelacionador minimiza la redundancia Existe otra clase de CSP que en lugar de predicto- existente entre muestras consecutivas de la señal de res utilizan bloques de transformadas y extraen los entrada. Esta operación es importante, pues las seña- coeficientes más relevantes [15]. Otros CSP de im- 2 portante difusión son Philips [16] y DVD-Audio [11], Con fines de simplificación, se trabajó con el va- [12], [13]. Estos codec no se evalúan en este trabajo lor promedio de estos parámetros para cada género porque no disponemos sus archivos ejecutables. Phi- musical. lips se basa en la predicción FIR de orden 10 y codi- ficación Rice del residuo. DVD por su parte utiliza un predictor IIR y codifica el residuo con el método Codec Modo Comando Huffman. Se pueden encontrar más referencias sobre Decodificación -d -f infile (1) -o outfile (1) -0 -f --no-padding infile -o el desempeño de estos CSP en [9]. Rápida outfile FLAC [8] -5 -f --no-padding infile -o e(n) + x(n) Cod. Normal outfile -8 -f --no-padding infile -o + Óptima outfile Q Decod. -x -v infile outfile Rápida -v -1 infile outfile LPAC [17] -1 -2 -1 -2 b1 z + b 2 z +... a1 z + a 2z +... Cod.