Comparativa de formatos utilizando un espectrograma

Iniciado por adrigd, 05 de Enero de 2012, 06:57:21 PM

Tema anterior - Siguiente tema

0 Usuarios y 1 Visitante están viendo este tema.

adrigd

Inicio este post (e hilo) autocitándome de otro que abrí hace unas horas:

Me ha entrado la curiosidad, y en un ratillo entre estudios (que tengo los exámenes a la vuelta de la esquina), me he puesto a comparar formatos y bitrates con un espectrograma. Yo soy un profano en la materia, y no entiendo muy que muestran estos espectrogramas, pero he hecho una comparativa basada un poco en la lógica más básica. Parto de un archivo FLAC ripeado directamente de un CD. Después, partiendo de ese FLAC, comprimo en diferentes formatos y en diferentes bitrates. Comparo los espectrogramas.

Entiendo que cuanto más se asemeje el archivo comprimido al FLAC, mejor calidad tiene. ¿Voy bien? ¿O no tiene ningún sentido esto que digo? Lo comento porque estoy obteniendo unos resultados un tanto... desconcertantes, si lo comparamos con lo que se suele decir por los foros.


Así pues, no tengo ni idea de si lo que voy a decir exponer a continuación es una burrada, o por el contrario tiene cierto sentido. Como sé que hay gente por aquí que domina los aspectos técnicos mejor, agradecería que me aclararan la validez o no del asunto.


El caso es que hace unos días actualicé otra vez mi Galaxy S y le metí un nuevo kernel. El kernel en cuestión me gusta mucho por el consumo de batería, pero lamentablemente el móvil me ha dejado de reconocer los tags de mis pocos álbumes en AAC (todos los demás los lee bien). Por lo visto es un problema del kernel más que nada, y la solución sería volver al anterior, que consumía más y no quiero. Por eso decidí volver a comprimir los álbumes (partiendo de sus respectivos FLAC), en un formato que sí reconociera las etiquetas. Normalmente lo hago en MP3 por el soporte que tiene y porque me conozco y sé que a 320 Kb/s CBR no lo distingo de un FLAC en la mayoría de los casos (algunos sí, pero muy puntuales).

Así que barajé la posibilidad de convertir a Ogg, y por el camino consulta en Internet al respecto y acabé en este hilo de Head-Fi.

Me entró la curiosidad, y quise hacer mis propias pruebas con espectrograma.


Metodología

Muy simple: escojo una canción, en mi caso Year of the Cat de Al Stewart, que es un tema bastante complejo, con bastantes instrumentos y cierto ritmo.

Extraigo el tema del CD en formato FLAC, y a partir de ese archivo FLAC convierto con Easy CD-DA Extractor en diversos formatos con pérdida, a saber: MP3, AAC, OGG y WMA, con sus respectivas variantes (al menos algunas de ellas).

Después paso todos los archivos a WAV, porque el programa utilizado (Adobe Audition) no soporta todos los formatos. Dado que WAV es formato sin pérdida, aunque sea una reconversión, no se pierde calidad en el proceso.

Selecciono unos 5 segundos de la canción para que el análisis sea más preciso, y comparamos.


Algunos apuntes iniciales:

Algunos formatos los he analizado tanto en CBR como en VBR. Para los que no lo sepan CBR significa bitrate constante, siempre mantiene el mismo nivel de compresión y "de calidad". VBR es bitrate variable, el compresor estudia que partes de la canción son más complejas y ahí comprime menos, por lo que no se pierde tanta calidad en esas zonas.

He comprimido en altos bitrates, porque es lo que consumimos por aquí, pero si alguien quiere un bitrate específico, más bajo o más alto, que lo comente.

Dicho esto, comencemos:


El archivo original en FLAC:



Para los que no lo sepan, la banda superior se refiere al canal izquierdo y la banda inferior al derecho. Como se puede apreciar el FLAC "rellena" todo el espectro. No hay artefactos, no hay frecuencias recortadas. Todo está perfecto. Es un archivo sin pérdidas.

Veamos como quedan los diversos formatos con pérdida en comparación:


MP3 (Lame 3.99)

CBR 320 Kb/s

Es la máxima calidad que permite el formato MP3 con bitrate constante. Muchos de nosotros tenemos la música comprimida en este formato. Este es el espectrograma resultante:



Como vemos, por encima de los 16 KHz hay un "recorte" importante en el espectro de frecuencias. Ya lo indicó elfary aquí alguna vez y aquí lo vemos. Nos estamos moviendo en sonidos muy agudos y muchos de nosotros no percibimos esa caída, pero es evidente que se produce con respecto al FLAC.


VBR 0

Esta es la máxima calidad de MP3 con bitrate variable. Está en torno a unos 260 Kb/s.



De nuevo nos encontramos con caídas hasta los 16 KHz. En realidad el resultado no es malo si tenemos en cuenta que el archivo reusltante pesa menos que el de MP3 CBR a 320 Kb/s y el nivel de información perdida es parecido.


AAC

Uno de los problemas que me he encontrado con AAC es que el término contiene un montón de formatos. El Easy CD-DA Extractor tiene unos específicos y el dBPowerAmp tiene otros. Al final he comprimido con ambos programas, ya que el dBPowerAmp tiene el Nero AAC, que esta muy reconocido.

Empezamos con el del Easy CD-DA Extractor:

CBR 320 Kb/s

Máximo bitrate que admite el formato con bitrate constante.



Considerablemente mejor que el MP3. No era ningún secreto. Pese a suprimir información cercana a los 18 KHz, el archivo resultante se mantiene bastante puro con respecto al original. Aunque he hecho tests con otros temas en los que el resultado era notablemente peor. De ahí una de mis sorpresas. (Lo postearé más adelante).


Nero AAC CBR 320 Kb/s

Como he dicho antes, se considera uno de los formatos de referencia dentro del AAC...



... y sin embargo no tan bueno. Otra sorpresa, y un motivo más para creer en la posible poca validez de este análisis. Evidentemente el resultado es bueno, porque nos movemos en bitrates muy altos que aseguran la calidad, pero me esperaba más de un formato tan reconocido.



OGG

Software libre considerado siempre de gran calidad. El bitrate variable ha sido siempre uno de sus puntos fuertes, aunque también admite bitrate constante.

CBR (320 Kb/s)



Muy, muy bueno. Casi perfecto. Si alguien es capaz de distinguir esto de un FLAC tiene unos oídos prodigiosos. Comparado con el AAC CBR a 320 Kb/s las diferencias son pequeñas (aunque sale ganando el Ogg), pero en comparación con el Mp3 a igual bitrate, está bastante por encima (dentro de los límites de calidad en los que nos movemos).


VBR 8 (en torno a unos 256 Kb/s)

Sé que en el foro hay gente que lo utiliza, como getoblaster si no recuerdo mal.



Muy buen resultado. Se advierte pérdida de información en torno a los 14 KHz, pero parece bastante anecdótica y no hay "recorte real" hasta los 18 KHz. Si tenemos en cuenta el nivel de compresión (en torno a 256 Kb/s), podemos decir abiertamente que estamos ante una de las mejores opciones a la hora de convertir.


VBR 9 (en torno a 320 Kb/s)

El siguiente escalón dentro del bitrate variable con Ogg. Tan solo tiene por encima al VBR 10.



Prácticamente como el Ogg CBR a 320 Kb/s. Calidad altísima. Parece que elimina un poquito menos información que el Ogg CBR, pero la diferencia es, incluso desde un punto de vista objetivo, totalmente anecdótica.


WMA

El WMA siempre ha sido un formato algo denostado por la comunidad. Aunque objetivamente hablando es un hecho que ofrece en torno a un 25% más de calidad que el MP3 a igual bitrate, pronto se vio superado por el AAC y el OGG. Veamos que tal se comporta este formato:


WMA estándar CBR 320 Kb/s



Otra sorpresa. Pues parece que no es tan mal formato. A decir verdad el resultado es muy bueno, superior al del MP3 y cercano al del AAC y al del OGG ambos en igualdad de condiciones de bitrate. Evidentemente con estas dos opciones, apostar por WMA parece contradictorio, pero debemos recordar que es un formato más universal y que dado su comportamiento a altos bitrates, puede ser una muy buena opción.


WMA Pro 10 CBR 256 Kb/s

Incluyo este formato porque es la evolución del WMA. Es el formato lanzado por Microsoft para sonido de alta calidad 5.1 o incluso 7.1. Está optimizado para el vídeo, pero también funciona como "codec musical"



Y sí, el resultado es buenísimo. A 256 Kb/s el WMA Pro se comporta mejor que la mayoría de los formatos en CBR y a 320 Kb/s. No he podido ponerlo en este bitrate porque no lo admite, directamente pasa a 384 Kb/s y ya no estamos en el mismo nivel. Pero sin duda, a nivel de calidad-tamaño, el WMA Pro se me antoja bastante por encima para el resto de los formatos, y solo Ogg puede incordiarle. Lamentablemente su soporte es nulo. Salvo mi Galaxy S (que lo lee todo) y mi ordenador, no tengo ningún otro aparato en casa capaz de leer el archivo. Ni siquiera rockbox en el Sansa Clip+ parece capaz. Una pena viendo sus enormes cualidades.


Finalizando y conclusiones

Reitero de nuevo el hecho de que este análisis pueda ser totalmente nulo ya que no tengo mucha idea de la materia. Lo he hecho por curiosidad más que nada, y para aprender cosillas nuevas, por lo que cualquier recriminación, puntualización o lo que sea, será bien recibida.

También sé que quizás hubiera sido más interesante probar bitrates más bajos en donde sea más fácil apreciar las diferencias entre formatos. No os preocupéis: si alguno se confirma la validez de estos tests, encantado hago otros con archivos de peor calidad. Aunque no dudéis en hacerlos vosotros. No hace falta tener el Audition para hacerlos, el EAC o el Audacity tienen también espectrograma y son gratuitos.

Más tarde pondré los curiosos resultados obtenidos con AAC, que no mantiene el nivel de calidad tan regular como otros formatos como el Ogg o el WMA con otros temas musicales.

¿Qué podemos sacar en claro de esto? En el caso de que sea válido, tiene poca utilidad práctica porque a bitrates tan altos la mayoría somos incapaces de apreciar esos matices que se observan en las gráficas. El análisis responde más a la curiosidad que al pragmatismo. Sí es verdad que hay cosas interesantes, como el rendimiento del WMA Pro o del Ogg VBR 8.

Si me preguntáis con que formato me quedaría, y estudiando su soporte y calidad, escojo sin duda el Ogg en cualquiera de las versiones analizadas aquí. Deteniéndome sólo en calidad, el WMA Pro me parece el mejor con su moderado bitrate.

Y con esto me despido y os insto a que si tenéis alguna duda o queréis un determinado formato con un determinado bitrate, lo pongáis por aquí y os lo cuelgo (siempre y cuando, otra vez, no sean del todo nulos estas comparativas. ¿Qué? Me he columpiado ¿verdad?


Reproductores Galaxy S4
IEMs: Shure SE846//FA-4E XB//Q-Jays v.2
Orejeros: Beyerdinamic DT770//Focal Spirit Pro
DAC: JDS Labs ODAC
Amplis: HA INFO NG27
Altavoces: Audioengine A2

D2Cowones

Muy interesante, gracias por la currada.

Una pregunta, los ficheros origen eran de un cd normal, es decir a 16/44? Lo digo por lo que comentas de ripear a bitrates más bajos para apreciar más las diferencias podría ser curioso, igual para verlo se puede hacer algo parecido pero elevando la cantidad de información en origen a ripear, pej con ficheros de un SACD a 24/96

saludos

adrigd

CD normal, 16/44

No tengo archivos a 24/96, aunque compré un álbum digital que me permite descargarlo en varios formatos, entre ellos a 24/96. El problema es que su uso es muy limitado, y no sé hasta que punto sería diferente de un Flac a 16/44. Si puedo lo descargo y lo compruebo.

De todas forma coge todo esto con pinzas. No sé hasta que punto es válido y lo más probable es que me haya equivocado en mil cosas.  :empathy: 
Reproductores Galaxy S4
IEMs: Shure SE846//FA-4E XB//Q-Jays v.2
Orejeros: Beyerdinamic DT770//Focal Spirit Pro
DAC: JDS Labs ODAC
Amplis: HA INFO NG27
Altavoces: Audioengine A2

Giayrus

#3
Aviso: tocho con mucho tecnicismo. Pasen al último párrafo si quieren ver la parte "importante".

Si pudieras poner un formato con compresión que no recorte frecuencias, te llevarías la sorpresa de que se ve prácticamente igual (es lo que yo según de lo que sé, que es más o menos la chapa recibida en varios años de carrera más una asignatura de tratamiento digital de voz, en la que entras más en los espectrogramas, aunque centrados en la voz). Estos análisis se hacen a partir de una forma de onda concreta, es como si cogieras el FLAC original o cualquiera de los formatos correspondientes y analizaras la forma de onda de sonido final que le vas a presentar a los auriculares. En tu caso lo has pasado todo a wav. Es la manera más fácil de analizarlo, puesto que un wav representa la forma de la señal tal cual, sin comprimir absolutamente nada, así que si tras codificar, vuelves a ese formato, es como cuando lo reproduces, que el reproductor se encarga de decodificarlo para entregarle a los auriculares lo que tienen que reproducir. Quiero decir que el espectrograma es un análisis sobre la señal de audio (en este caso, pero se pueden hacer espectrogramas de cualquier señal) cruda. Los cambios los deberías notar al ir píxel por píxel, y verías que alguna cosa sale distinta, puesto que, por las pérdidas, obviamente la señal de audio recuperada no es igual a la original, pero se le parece.

El espectrograma simplemente te coge un trozo de la señal de audio, le hace un análisis y te pinta una columna en la imagen, coge un trozo de igual duración pero desplazado hacia delante y hace lo mismo. Como no sé cuánto conoceis de esto, hay una cosa que se llama transformada de Fourier (en este caso es la versión discreta, puesto que trabajamos en digital) que te coge una señal cualquiera y "te dice" su distribución en frecuencias. Es la versión discreta la que se analiza y se "pinta".

Por ejemplo, con un instrumento en el que se está tocando una nota, a la frecuencia de dicha nota se le llama frecuencia fundamental, pero existen otras componentes al doble, triple, cuádruple... de dicha frecuencia, con mayor o menor importancia. Un violín y un saxofón que tocan la misma nota, tendrán las mismas componentes, pero estas tendrán a su vez distinta distribución de armónicos, lo que conforma lo que llamamos timbre. Aquí la distribución en frecuencias del sonido de un violín que está tocando un sol:


Con tanto rollo, a lo que quiero llegar es a que si os fijais, todas las rayas horizontales de los espectrogramas que nos ha plantado adrigd están más o menos equiespaciadas pero se ven más amarillas las de abajo. Intuyo que mientras más amarillo, más intensidad tienen estas frecuencias, lo que es lógico, pues la mayoría de la "información" de cualquier sonido está en las frecuencias más bajas. Es por eso por lo que podríamos distinguir un violín o la voz de alguien a través del teléfono, que recorta todo por encima de los 4KHz (a diferencia de los 20-22 aproximados que recortan los formatos digitales de música). Total, que estos espectrogramas te dicen más o menos dónde se está recortando pero las partes no recortadas quedan por lo general bastante similares, salvo algún caso en el que la codificación modifique eso, ya que las técnicas son bastante complejas y aprovechan muchas características del sonido para comprimirlo, incluidas las características del oido humano. Por lo que veo, el MP3, por ejemplo, recorta cuando tiene claro que no va a estropear mucho (quita detalles a partir de 16K) pero cuando no lo tiene tan claro lo deja igual (si os fijáis en las zonas que son como barras gordas verticales, que seguramente pertenecerán a "ruidos", vamos, a eses en la voz, a golpes de batería...).

Es posible que no os hayáis enterado de mucho, me disculpo por ello, he intentado que quedara claro, pero ya tengo tanta deformación por la carrera que esto me parece bastante entendible si se lo explico a alguno de mis compañeros y no sé para quien no esté tan enterado si le es fácil pillarlo. En resumen, en mi humilde opinión (que sé de señales pero no tanto de audio, aún) diría que el análisis es válido en cuanto a que se fija en cuánto se parece el espectrograma original a los resultantes a codificar, pero no es más que otra medida subjetiva, puesto que empleas la vista, la cual no puede medir exactamente qué ha pasado. Eso si estás buscando detectar qué calidad conserva el audio, si quieres ver qué le ha hecho el formato a las frecuencias, se ve claramente.
Creo que si coges el wav, y haces que represente el audio con un bit menos por muestra (pon que reserva 16 bits para cada una de las 44100 muestras que coge por segundo, e intentas representar eso con 15 en lugar de 16), es posible que  no notes diferencia alguna, y tal vez con 8 se vea algo muy parecido. Voy a ver si pongo algún ejemplo con wavesurfer, el programa que usé en el hilo de la canción de Adele con el fallo, pero ahora no, que me tengo que bajar alguna canción sin pérdidas para verlo, o podría grabar algo con mi voz, aunque tiene mucho menos detalle que 5 instrumentos sonando a la vez.
Reproductor: Cowon S9 16gb, Samsung Galaxy S c/ Voodoo Sound
Auriculares: Fischer Audio Eterna, Koss PortaPro, Sound Magic PL-30, Hifiman RE-0
Amplificador: Fiio E5
                           ":mrgreen:"
http://mignp.blogspot.com/

adrigd

Muy interesante esto que dices.

Evidentemente sabía que había mucho más detrás de una conversión que un simple "recorte" de frecuencias, pero me parecieron curiosas estas variaciones en el espectrograma. Sobre todo porque normalmente una de las cosas que se le suele achacar al MP3 y que se le pone como "contra" es esa "caída" que tiene a los 16 KHz y al verlo yo directamente con uno de mis temas, me interesé en pasar al resto de formatos por el mismo filtro.

También he visto comparativas con tablas de respuesta de frecuencia, no espectrogramas. En ese caso, ¿nos encontraríamos ante el mismo problema? ¿únicamente veríamos como se ha "recortado" el sonido? ¿O por el contrario darían más información?

En cuanto a tu primera información: un formato con compresión que no recorte frecuencias, ¿no sería un formato de compresión sin pérdida? Porque en ese caso es lógico que se vea igual. Un mismo archivo convertido en WAV, FLAC o APE se ve igual siempre. La pérdida de información requiere quitar datos, recortar frecuencias, ¿no es así?

Reproductores Galaxy S4
IEMs: Shure SE846//FA-4E XB//Q-Jays v.2
Orejeros: Beyerdinamic DT770//Focal Spirit Pro
DAC: JDS Labs ODAC
Amplis: HA INFO NG27
Altavoces: Audioengine A2

Giayrus

#5
A ver, todo produce pérdidas si quitas información. Por ejemplo, en el caso de usar menos bits por muestra, estás quitando una información irrecuperable, eso entiendo yo por pérdidas, en general, ya que se puede aplicar a imágenes, sonido... Si recortas en frecuencias, también, es algo que no puedes recuperar tal y como era al principio.
En el caso de usar (pongamos por ejemplo) 8 bits por muestra y pasar a 7 (se suele hacer en múltiplos de 8, de byte).
Si tu tienes una muestra que vale, por ejemplo, 57 (00111001 en 8 bits) y recortas a 7, quitas el 1 del final y te quedas con 0011100. Si valiera 56, que es 00111000, y quitas un bit, te queda también 0011100 y al volver a 8 bits ambos te darían 00111000. Cuando antes diferenciabas entre 57 y 56, al haber quitado un bit, no puedes diferenciar entre ambos valores originales, pierdes detalle. Si lo haces en imagen, en un píxel, es parecido, puedes representar más valores en una escala de grises, por ejemplo, y con más detalle mientras más bits tengas.
Por lo que veo en Wikipedia, la definición de "formato de compresión con pérdida" es aquella que representa una información con menor cantidad de ella, con menos detalle.
Para los formatos que me comentas, el WAV, que es el más simple (y el único que sé exactamente cómo funciona), si tú coges un WAV, y le cambias la velocidad de muestreo (de 44100 a 22050), tendrás la mitad de kbps, y habrás recortado en frecuencia. Básicamente si antes tenías hasta 22KHz ahora tienes hasta 11KHz. Si ahora, en lugar de cambiar la velocidad de muestreo, pasas de 16 bits a 8, estás también recortando los kbps a la mitad, pero sin recortar frecuencias, recortando detalles. En ambos casos te da lo mismo: 22050*16 = 352800bps y 44100*8 = 352800bps. Con esto quiero decir que a mi parecer, pérdidas las hay siempre que no mantengas el original
Reproductor: Cowon S9 16gb, Samsung Galaxy S c/ Voodoo Sound
Auriculares: Fischer Audio Eterna, Koss PortaPro, Sound Magic PL-30, Hifiman RE-0
Amplificador: Fiio E5
                           ":mrgreen:"
http://mignp.blogspot.com/

adrigd

Obviamente, claro. Los formatos de compresión sin pérdida lo que hacen es reconstruir el archivo original al codificar. Sin embargo me llama la atención eso que comentas del WAV. Si al WAV le bajas a los 22050 estás recortando, y por tanto perdiendo información, por lo que ya no se le podría llamar "compresión sin pérdidas. Por tanto los formatos como el FLAC, el WAV o el APE son formatos sin pérdida en tanto en cuando mantengan las velocidades de muestreo y la profundidad de bits del archivo original. Mientras que en los formatos con pérdida la pérdida de calidad viene dada por al tasa de bits principalmente
Reproductores Galaxy S4
IEMs: Shure SE846//FA-4E XB//Q-Jays v.2
Orejeros: Beyerdinamic DT770//Focal Spirit Pro
DAC: JDS Labs ODAC
Amplis: HA INFO NG27
Altavoces: Audioengine A2

Giayrus

A ver, una cosa es formato sin pérdidas y otra cosa es pérdidas. El formato sin pérdidas lo que tiene es que te guarda tal cual el audio desde la fuente que le proporciones. No realizan algoritmos que busquen redundancia, partes de la música con menor detalle, no recortan frecuencias por sí solos... Sin embargo, tienen ciertas características como las que he dicho, la tasa de muestreo, la cuantificación en bits por muestra... son formatos tontos, si tú le das la señal más simple que te puedas echar a la cara, te la va a guardar tal cual, aunque sea una señal que vale o 0 o 127 (por poner un ejemplo), para la que se necesitaría realmente 1 bit por muestra, el formato te lo guarda con sus 8/16/24/losquesean bits. Por lo tanto, estos formatos te van a guardar el sonido tal cual. Si tú coges un mp3 de 128 y lo pasas a WAV, y le das las mismas características (muestras/segundo y bits/muestra) que a un wav obtenido directamente de un cd original, te va a quedar del mismo tamaño, pero sin embargo, va a tener mejor calidad el 2º.
Los formatos con pérdidas llevan implícitas las pérdidas, tendrán su correspondiente compresión irreversible que los caracteriza. Los formatos sin pérdidas te guardan tal cual lo que les des, tenga el detalle que tenga.
Reproductor: Cowon S9 16gb, Samsung Galaxy S c/ Voodoo Sound
Auriculares: Fischer Audio Eterna, Koss PortaPro, Sound Magic PL-30, Hifiman RE-0
Amplificador: Fiio E5
                           ":mrgreen:"
http://mignp.blogspot.com/

adrigd

#8
A lo que me refería es que el algoritmo de los formatos sin pérdida (si no recuerdo mal) comprimen de forma reversible, reconstruyendo los datos en la decodificación, que es algo que no hacen los formatos con pérdida. Lo que no entiendo es por qué un formato de estos sin pérdida permite alterar la tasa de muestreo o la profundidad de bits. Me parece contradictorio, ya que en el momento en que alteras estos datos con respecto al original, alteras obviamente la señal resultante, cuando el objetivo principal de estos formatos es mantenerla intacta. ¿No sería más lógico que comprimieran adecuándose a las características del archivo original?

Edit1: A todo esto: ¿habría una forma objetiva de determinar como afecta una compresión a un determinado formato? Porque todos los tests mínimamente técnicos que he visto utilizan solo los espectrogramas y las respuestas de frecuencias para valorar los diferentes formatos. Evidentemente todo esto desde un punto de vista teórico, ya que en la práctica y en el plano personal un test ABX es más que suficiente para determinar que formato y que bitrate prefieres. 

Edit2: Dado que todos los formatos con pérdida recortan frecuencias, ¿un espectrograma podría servir para saber si un FLAC descargado de Internet es falso?
Reproductores Galaxy S4
IEMs: Shure SE846//FA-4E XB//Q-Jays v.2
Orejeros: Beyerdinamic DT770//Focal Spirit Pro
DAC: JDS Labs ODAC
Amplis: HA INFO NG27
Altavoces: Audioengine A2

Giayrus

No sé los demás formatos sin pérdidas, pero WAV no comprime, de hecho el nombre viene de waveform, así que lo guarda tal cual.
De todos modos, la clave está en una palabra que has dicho: reversible. Se pueden emplear técnicas de codificación irreversibles que mantienen la calidad, como la asignación de los valores de amplitud de señal a bits, que puede ser lineal, logarítmica... y normalmente no se puede volver de una a la otra sin modificar la señal. Por lo general, las operaciones irreversibles paulatinas degradan una señal, porque son como añadirle ruido. Pero voy a dejarme de mandangas: la compresión con pérdidas se refiere a irreversibilidad a lo bruto, es decir, cortando, cambiando tasas binarias (como el VBR)... Lo de bajar la cuantificación o recortar frecuencias (en teoría de señal es necesaria para hacer lo de disminuir las muestras por segundo, si te fijas si el audio va hasta 22KHz las muestras por segundo son 44100, más o menos el doble) no es compresión como la consideramos, se le llama submuestreo o cambio de cuantificación, y lo haces tú a mano con programas, no es ningún algoritmo automático. El wav no tiene siempre las mismas características, ni hace falta que las tenga, se cambian en función de las necesidades. Por ejemplo, si quieres guardar una conversación telefónica, no necesitas 44100, con 8000 te bastaría, así que es absurdo usar más. Igualmente puede ser mono o estéreo... hacer cuantificación lineal o logarítmica... digamos que cambia la manera de almacenar, y como en todo lo digital, normalmente esos cambios son irreversibles, aunque no tienen por qué bajar la calidad.
En resumen, que doy muchas vueltas, y yo veo esta conversación más fácil de tener de forma instantánea, no con parrafadas, que los formatos de compresión sin pérdidas (algunos comprimirán, otros no, como WAV) guardan un sonido tal cual se lo das, aunque hacen que ocupe menos con técnicas que no degradan (piensa en los RAR, ZIP... con ellos recuperas los archivos que metiste, y si te fijas, si comprimes un documento muy largo en txt te baja un montón de tamaño pero si se lo haces a un mp3 no, porque ya se ha comprimido bastante). El WAV es sin pérdidas pero no comprime. Ahora, si tú te encargas de darle menor detalle, ocupa menos, pero también tiene menos cálidad, digamos que no has perdido nada que no hayas querido tú perder.
Reproductor: Cowon S9 16gb, Samsung Galaxy S c/ Voodoo Sound
Auriculares: Fischer Audio Eterna, Koss PortaPro, Sound Magic PL-30, Hifiman RE-0
Amplificador: Fiio E5
                           ":mrgreen:"
http://mignp.blogspot.com/

Giayrus

Cita de: adrigd en 06 de Enero de 2012, 08:07:38 AM
Edit1: A todo esto: ¿habría una forma objetiva de determinar como afecta una compresión a un determinado formato? Porque todos los tests mínimamente técnicos que he visto utilizan solo los espectrogramas y las respuestas de frecuencias para valorar los diferentes formatos. Evidentemente todo esto desde un punto de vista teórico, ya que en la práctica y en el plano personal un test ABX es más que suficiente para determinar que formato y que bitrate prefieres. 

Edit2: Dado que todos los formatos con pérdida recortan frecuencias, ¿un espectrograma podría servir para saber si un FLAC descargado de Internet es falso?
Al edit 1: objetiva por ejemplo sería coger la original en formato crudo y comprimida y tener las formas de onda con las mismas características (por ejemplo en un WAV) y calcular el error cuadrático medio, por ejemplo (restar ambas señales, si no la hubieras modificado nada en absoluto, te daría una señal que vale 0 todo el tiempo, elevar cada muestra al cuadrado para que si algunas son negativas y otras positivas no se anulen entre ellas, lo que daría un error falseado porque te podría dar cero aunque no fueran las señales iguales, sumarlas y dividir todo entre el número de muestras, y hacer la raíz cuadrada). Es la medida más típica de error, y mientras más alta sea, menos se parece la señal nueva a la original. Lo que pasa es que como en todo, subjetivamente puede existir el caso de tener más error y que suene mejor, ahí entran las técnicas de compresión que inteligentemente se aprovechan de eso para disminuir al máximo el tamaño del audio y que lo notemos lo menos posible.

Al edit 2: valdría siempre y cuando supieras cómo es el original, o tuvieras datos de él. Si el que lo grabó lo hizo grabando hasta 16KHz pues el flac saldrá así, aunque como por lo general podemos suponer que no es así, que la música se graba hasta 22KHz más o menos siempre y deberías ver un FLAC completito hasta ahí. Si te fijas en todos los espectrogramas, tienen huecos en las frecuencias superiores, más o menos, y lo que veo es que el AAC es el que menos elimina, pero seguramente ocupe algo más también.

Aviso: lo explico todo al detalle porque habrá gente que entienda más o menos de matemáticas, señal...
Reproductor: Cowon S9 16gb, Samsung Galaxy S c/ Voodoo Sound
Auriculares: Fischer Audio Eterna, Koss PortaPro, Sound Magic PL-30, Hifiman RE-0
Amplificador: Fiio E5
                           ":mrgreen:"
http://mignp.blogspot.com/

adrigd

Lo curioso del AAC es que me he encontrado que es el formato que recorta frecuencias de forma más irregular. Con el tema anterior se comporta estupendamente, sin embargo si utilizamos otro tema vemos lo que pasa:

FLAC



AAC CBR 320



OGG CBR 320



El Ogg se mantiene más regular a la hora de recortar frecuencias. Y esto es una constante en los temas que he probado. El AAC me parece el formato más desconcertante en este sentido.
Reproductores Galaxy S4
IEMs: Shure SE846//FA-4E XB//Q-Jays v.2
Orejeros: Beyerdinamic DT770//Focal Spirit Pro
DAC: JDS Labs ODAC
Amplis: HA INFO NG27
Altavoces: Audioengine A2

Ghetto

#12
Lo cierto es que acabé por usar MP3 lame a 320 con bibrate constante por la incompatibilidad del OGG con muchos repros... pero no me importaría pasar mis FLAC al mejor formato con perdidas si es compatible con todos los repros... el AAC lo es¿? de serlo... el conversor del Itunes es "de los buenos?" , si convierto mis FLAC a AAC con el Foobar 2000 estaría pasandolos al mejor AAC que existe actualmente?

adrigd gran hilo este, a mí me interesa muchísimo  :dios:

Saludos.
Auriculares: iBasso It04, Earsonics Velvet2, Audese iSine10, B&O H6 (V2)

Reproductores: Shanling M5S, iPod Classic 512, iPodnazo 240, Xduoo X3

Amplificadores/DAC: Audiolab M-Dac, Pico Slim, C&C BH2, iBasso T3

adrigd

#13
De los más famosos, el OGG está considerado, junto con el AAC, el mejor compresor con pérdidas. Incluso algunos dicen que es superior al AAC si se utiliza el encoder AoTuV, pero esto solo se ve a bitrates medios, en torno a 160-170 Kb/s, en donde el OGG codificado con ese encoder se comporta extremadamente bien (a bitrates más altos es difícil percibir diferencias entre uno y otro incluso de forma objetiva).

En realidad todo depende del encoder utilizado, es el que determina la calidad final, no la extensión del archivo. El que acabe en .aac, .m4a, .ogg, .mp3, .wma no dice realmente nada porque desconocemos como se ha codificado ese archivo (a no ser que lo hagamos nosotros). En MP3 el Lame en su última versión tiene buena reputación, pero es sabido que el Blade es aún mejor encoder, de primer nivel diría yo. En el sector "audiófilo" un archivo .wma seguramente no llame mucho la atención, pero si ese archivo ha sido codificado con WMA Pro 10, la cosa realmente cambia porque está demostrado que el WMA Pro 10 da, hoy día, uno de los mejores resultados (algunos dicen que el mejor). Y lo mismo ocurre con el AAC, si el encoder no es bueno, el resultado no será bueno, por mucho AAC que sea.

Hay que tener en cuenta que mucho de lo que se comenta en torno a los formatos es herencia de años pasados. Tanto el MP3 como el WMA son considerados "formatos antiguos", mientras que el AAC y el OGG pertenecen a los "nuevos formatos". En cierto modo hay algo de razón en todo esto, porque tanto el AAC como el OGG nacen con el mismo propósito: superar a formatos de compresión con pérdida como el MP3 y el WMA. Y lo consiguen... al principio. Porque tanto el MP3 como el WMA no son hoy lo que eran antaño. Han aparecido nuevos encoders que los han mejorado mucho. Los formatos se actualizan y se autofecundan: las mejoras de uno las incorpora el otro y viceversa.

Creo que en Hydrogenaudio leí a un usuario que decía algo así como: año 2008, el año en que todos los formatos con pérdidas se hicieron "transparentes" a X bitrate (no recuerdo la cifra). Con transparente se refiere a la calidad alta, a ese punto en el que no somos capaces de distinguir entre un formato con pérdida y otro sin pérdida. Y creo que tiene razón. Los codecs y los encoders modernos están muy avanzados y hoy día optar por uno u otro a cierto nivel de bitrate, es anecdótico y responde más a preferencias o manías personales. En donde aún hay diferencias es a bitrates más bajos, como esos 160 Kb/s en los que OGG codificado con AoTuV, o el AAC bien codificado demuestran su superioridad por encima de la mayoría.

Edito: Getoblaster, en respuesta directa a tus preguntas e hilando con lo anteriormente expuesto, te comento que tradicionalmente la compresión que hace Itunes siempre ha sido criticada, y en general todos los usuarios que han utilizado AAC han optado por otros programas para comprimir y otros encoders, por considerarlos superiores.  Subrayo lo de tradicionalmente porque volvemos a lo mismo: a saber cuando se originó esa afirmación. En Apple no son tontos y si ven que el compresor del Itunes está dando problemas y que está siendo superado por otros, lo lógico es que investiguen qué ocurre, que mejoras se han producido, y las incorporen a su programa/encoder. Estoy casi seguro que el encoder del Itunes ya está totalmente puesto al día.

Si tu pregunta es "¿Ogg o AAC? o ¿Es el AAC el mejor formato?" Habría que responder con otras preguntas: "¿A qué bitrate? ¿Con qué encoder?" Y si estás pensando (como creo yo) en comprimir a altos bitrates, la respuesta es clara: ninguno, todos. Si el OGG recorta al comprimir por encima de los 18 KHz y el AAC también lo hace, pero en zonas distintas (que es lo que suele ocurrir en los bitrates más altos), ¿cuál es mejor?

Lo primero que tienes que ver es que formatos aceptan tus reproductores. ¿Tienes problemas de soporte con el OGG? Cámbiate; mira a ver que formatos soportan tus reproductores y escoge el que más te convenga. A esos niveles tan altos de bitrates casi seguro que lo mismo te da que sea MP3, AAC u OGG. Haz un test ABX y compruébalo si no estás seguro. Son muy útiles y te permiten ver hasta que punto necesitas más o menos bitrate.

Yo utilizo una amalgama de formatos muy amplia, pero últimamente tiendo a convertir a OGG VBR q 8.5 con AoTuV. En pruebas ABX no he encontrado diferencias con FLAC incluso a bitrates más bajos, pero dado que no ando escaso de espacio me permito el lujo de subir un poco la tasa de bits.

Reproductores Galaxy S4
IEMs: Shure SE846//FA-4E XB//Q-Jays v.2
Orejeros: Beyerdinamic DT770//Focal Spirit Pro
DAC: JDS Labs ODAC
Amplis: HA INFO NG27
Altavoces: Audioengine A2

Inox

#14
Felicidades por intentar un análisis que los profanos podamos, al menos en inicio, comprender. He de reconocer que a la 3ª o 4ª respuesta ya me había perdido, pero refleja de forma muy gráfica como va lo de los formatos.
En todo caso creo que no llego ni a 11.000 hertz (http://onlinetonegenerator.com/hearingtest.html, por lo que casi me da igual el formato en que se comprima.
O.T. Por curiosidad, ¿qué kernel le has instalado al Galaxy? Después de usar varios he vuelto a Froyo, más para evirtar FC´s que por el tema de la batería, pero echo de menos dos o tres detallitos para que sea el ideal.
Saludos.