Les formats audio

Quand on veut écouter de la musique numérique, on a aujourd’hui le choix de plusieurs supports :

le compact-disc (CD),
le baladeur audionumérique (aka “baladeur mp3”) a été en son temps une révolution, supplanté désormais par le smartphone ;
la musique en ligne est un vecteur de plus en plus répandu, rendu nomade par les capacités des réseaux ;
et il est toujours possible de stocker - sur son ordinateur, son smartphone, sa tablette - des fichiers audio que l’on pourra écouter de façon autonome, i.e. sans connexion réseau ; on constate d’ailleurs un renouveau du baladeur avec des modèles très haut de gamme.

Si le format des données audio diffusés par les service de musique en ligne n’est pas quelque chose de maîtrisable par l’utilisateur, il n’est pas de même pour nos fichiers audio, pour lesquels chacun devra trouver le compromis qui lui va bien entre qualité audio et volume des données à stocker.

C’est le propos de cette fiche que de faire un tour d’horizon sur le sujet.

Les formats audioRappels sur la numérisation du sonLes formats de fichiersLes formats non compressésLes formats compressés sans perteLes formats compressés avec perteQuel choix pour quel usage ?

Rappels sur la numérisation du son

Le son, comme tout signal analogique, peut être numérisé selon deux paramètres fondamentaux :

la quantification : c’est le procédé qui permet d’approcher un signal continu par les valeurs d’un ensemble discret d’assez petite taille ; ainsi la conversion analogique-numérique va produire des valeurs dont la plus petite variation sera fixe (le pas de quantification), qui sont donc facile de coder sur un certain nombre de bits ; plus le pas de quantification est petit devant l’amplitude de variation du signal, plus la représentation sera fidèle à la réalité, mais aussi plus le nombre de bits nécessaire au codage sera élevé, donc plus grand sera le volume d’informations numériques généré ;
l’échantillonnage : cela consiste à prélever les valeurs d’un signal à intervalles définis, généralement réguliers, ce qui produit une suite de valeurs discrètes nommées échantillons ; la durée fixe de ces intervalles est la période d’échantillonnage (on parle aussi de son inverse, la fréquence d’échantillonnage), pendant laquelle on considérera que la grandeur physique n’évolue pas ; plus la période d’échantillonnage est petite (ou plus la fréquence d’échantillonnage est grande), plus la représentation sera fidèle à la réalité, mais aussi plus grand sera le nombre d’échantillons, donc plus grand sera le volume d’informations numériques généré ; à l’opposé, si la période d’échantillonnage est trop grande, on risque de “louper” des évolutions pertinentes de la grandeur observée (la théorie du traitement du signal dit que l’on perd les fréquences supérieures à la moitié de la fréquence d’échantillonnage).

Aujourd’hui, le standard est dénommé “qualité CD”, à savoir :

fréquence d’échantillonnage : 44.1 kHz - les sons peuvent être restitués jusqu’à 22 kHz (théorème de Shannon), ce qui est suffisant eu égard aux capacités de l’oreille humaine,
quantification : numérisation sur 16 bits (65536 valeurs discrètes possibles), pour chacun des deux canaux stéréo.

Ainsi, 1s de musique enregistrée nécessite 44100 × 2 × 16 bits, et donc 10 mn représentent environ 100 Mo de données.

Mais si l’on s’intéresse à la captation audio, il existe aujourd’hui des équipements audionumériques à la portée de l’amateur qui présentent des performances bien supérieures - couramment 24 bits / 96 kHz, ce qui porte les 10 mn de musique à environ 330 Mo.

Les formats de fichiers

Les fichiers issus de la numérisation d’une forme d’onde (captation audio) ou du ripping¹ d’un CD auront la qualité maximale permise par le moyen utilisé, et de ce fait, seront de taille maximale (cf. plus haut), et du coup pas forcément aisé d’en stocker beaucoup sur un petit médium comme un smartphone.

D’où l’idée compresser ces données, avec différents algorithmes de compression (ou codec), ce qui aboutit à différents formats de fichiers, libres ou propriétaires, dont voici les principaux :

Les formats non compressés

AU : le format “standard” original d’Internet, que pas grand’monde utilise aujourd’hui,
WAV (comme waveform en anglais : forme d’onde) dans le monde Windows,
AIFF (Audio Interchange File Format) dans le monde Apple ;

Les formats compressés sans perte

ALAC (Apple Lossless Audio Codec) dans le monde Apple,
ATRAC (Adaptive Transform Acoustic Coding) de Sony dans sa version Advanced Lossless,
FLAC (Free Lossless Audio Codec) issu du monde du logiciel libre.

Les formats compressés avec perte

RA (Real Audio du nom de la compagnie qui l’a créé) : longtemps populaire car les outils pour le manipuler sont en accès gratuit, très compact, mais au détriment de la qualité,
le plus connu : MP3 (MPEG-1/2 Audio Layer III, la partie audio du standard vidéo MPEG-1/MPEG-2),
son successeur AAC (Advanced Audio Coding) mieux connu sous le nom de MP4 (ou MPEG-4 Part 14), introduit par Apple pour offrir un meilleur rapport qualité / débit binaire que MP3,
OGG Vorbis, sans brevet, ouvert et libre, plus performant tant sur la qualité et que sur le taux de compression que le format MP3, mais moins populaire.

Il est à noter que WAV, AIFF, ALAC, ATRAC, RA, MP3, MP4, bien qu’utilisables sans avoir à s’acquitter de droits d’usage, restent des formats propriétaires, donc soumis à modification unilatérale, même si c’est peu probable.

Les formats libres et ouverts sont injustement méconnus, car non portés par le rouleur compresseur des circuits commerciaux, alors qu’ils sont sont plus performants que leurs équivalents commerciaux, et aujourd’hui lisibles sur toutes les plateformes (à l’exception peut-être de certains autoradios).

Les algorithmes de compression sont en général dotés de paramètres de réglage, qui influent sur le taux de compression (donc la taille du fichier produit) et sur la qualité du son restitué (en particulier pour les algorithmes de compression avec pertes). Par exemple, par rapport à un fichier WAV donné, un fichier FLAC sera environ 2 fois plus petit, et un fichier MP3 environ 10 fois plus petit au prix d’une moindre qualité.

Tous ces formats (et d’autres encore) sont lisibles par la plupart des media players, et nombre d’entre eux (pas WAV par exemple) offrent la possibilité de renseigner des métadonnées, incluses dans les fichiers et indiquant le titre, l’album, l’artiste, le genre musical, etc., ce qui est bien pratique pour constituer une bibliothèque de musique numérique.

Quel choix pour quel usage ?

Selon leur provenance, les fichiers auront des formats et caractéristiques différentes :

ripping de CD : WAV en qualité CD,
captation audio : format interne du dispositif (matériel + logiciel d’acquisition)², exportable en divers formats non compressés ou compressés, avec des paramètres réglables,
téléchargement sur Internet : MP3 le plus souvent, MP4 de plus en plus, en particulier sur les plateformes Apple.

Si l’on écoute la musique sur son ordinateur, où on a de nos jours des capacités de stockage confortables, on sera tenté de garder la qualité maximale, mais encore faudra-t-il que la chaîne de restitution (conversion numérique-analogique, amplification, haut-parleurs, etc.) soit à la hauteur. Or ce n’est souvent pas le cas : une carte son de PC, les petites enceintes qu’on y connecte généralement, sont plutôt de piètre qualité. Aussi vaudra-t-il mieux, par exemple connecter un récepteur Bluetooth de bonne qualité à la chaîne hi-fi du salon, et diffuser la musique dessus.

Si l’on souhaite graver un CD à partir de la musique enregistrée, il faudra commencer par la convertir au format WAV en qualité CD (certains logiciels de gravure s’en chargent, plus ou moins bien), mais il faut être conscient :

que l’on va dégrader la qualité d’une captation si elle était à l’origine en 24 bits/96 kHz,
que l’on ne va pas améliorer la qualité d’un fichier MP3 téléchargé depuis Internet.

Pour emporter sa musique préférée sur son smartphone, où l’espace de stockage est réduit, on choisira un format compressé, de préférence OGG Vorbis si l’on part d’un format non compressé, mais il ne servira à rien de convertir en OGG Vorbis un fichier MP3.

retour au menu

1 ripper” (de l’anglais to rip : déchirer, arracher, mais aussi arnaquer) est l’action de convertir les informations contenues sur un support tel qu’un CD ou un DVD pour les enregistrer sur un ordinateur. C’est le procédé analogue du “repiquage” sur cassette audio des disques vinyles, et pour la même raison, est encadré par la loi : il s’agit d’une copie et la source pouvant être soumise au droit d’auteur, le ripping est restreint par la gestion des droits numériques. A noter que dans la loi française, la copie privée telle que définie par l’article L122-52 du Code de la propriété intellectuelle, est autorisée. ↩

2 par exemple, mon module audionumérique TASCAM US-144 associé au logiciel libre Audacity, produit des fichiers au format AUP, de qualité maximum 24 bits/96 kHz, exportables dans la plupart des formats cités plus haut. ↩