10 techniques pour améliorer la qualité audio de son podcast

Morgan Prudhomme
30 nov. 2020
9 min de lecture

Dernière mise à jour : 16 oct. 2023

La qualité audio de votre podcast est l'élément de base de son succès. Vous pouvez avoir le meilleur invité ou le meilleur contenu, si l'écoute n'est pas confortable voire agréable, votre audience ne suivra pas. Alors comment améliorer la qualité audio de son podcast ? Comment préparer vos interviews et enregistrements pour la diffusion ? Je vous partage mes 10 meilleures techniques.

Article original publié sur le blog de Podcastics

#1 Bien enregistrer

Pour avoir le meilleur résultat final, il faut avant tout réaliser un bon enregistrement. Prenez donc le temps de bien connaître et régler votre matériel avant de vous lancer.

Enregistrez au format .WAV (non compressé) : certes le format final sera du mp3, mais un fichier de meilleure qualité est préférable au mixage ; 44.1 ou 48 kHz en fréquence d’échantillonnage (en dessous on perd une partie des fréquences audibles) ; 24 bits en profondeur (pour le détail et la dynamique).

Prévoyez un microphone par personne, avec un pied ou trépied assez grand pour arriver face à la bouche - ceci afin d’éviter les bruits de manipulation du micro. Aussi, selon les micros, bonnette ou filtre anti-pop pour protéger des plosives ("p","b","t" qui envoient de l’air dans la capsule). Enfin, enregistrez chaque invité sur une piste séparée.

Écoutez au casque pendant l’enregistrement, et si possible proposez-en un à vos invités. Vous pourrez ainsi réagir si quelqu'un parle trop loin du micro, ou si un bruit dérange l’enregistrement. Attention, le volume de la sortie casque n’a rien à voir avec le niveau d’entrée des micros : laissez le volume du casque à un niveau relativement faible.

Le gain d’un micro ne se règle pas à l’oreille mais en contrôlant son signal d’entrée sur votre enregistreur ou votre interface. Positionnez bien votre micro puis parlez à un niveau normal. Montez progressivement le gain pour que le signal oscille autour de -16 dB. Réglez d’abord votre micro puis faites de même avec chaque invité, en les faisant parler (demandez-leur de se présenter par exemple, cela servira d’échauffement).

!!! Le signal d’entrée d’un micro ne doit jamais dépasser 0 dB

!!! Laissez la taille d’une main entre la bouche et le micro et bougez le moins possible.

Pour un conseil personnalisé sur l'enregistrement de vos épisodes, n'hésitez pas à m'écrire !

#2 Avoir de bonnes écoutes

Pour travailler sur le son, encore faut-il déjà bien entendre. Avoir de bonnes enceintes ou un bon casque, pour avoir une bonne idée du résultat final, c’est le point de départ pour travailler efficacement et faire de bons choix en post-prod.

L’oreille humaine répond aux fréquences de 20 Hz à 20 000 Hz. Choisissez donc un produit qui couvre cette bande au maximum. Ensuite, optez plutôt pour du matériel "studio" ou "monitoring" qui ne colore pas le son, au contraire du matériel grand public qui va gonfler certaines fréquences par choix, ou par économie.

Si vous travaillez sur des enceintes, il vaut mieux bien les positionner : à hauteur des oreilles et à égale distance de l’une et l’autre. Enfin, travaillez à un volume raisonnable, pas plus fort qu’une voix humaine : cela protège vos oreilles et évite la fatigue auditive.

#3 Normaliser / Maximiser le volume

Ici Adobe Audition propose de normaliser une séquence, en pourcentage ou en décibels. En normalisant à 100 % ou 0 dB, l'amplitude de la séquence sera augmentée jusqu'à ce que la crête la plus haute atteigne le niveau maximal : 0 dB.

La normalisation est une fonction qui va modifier l’amplitude globale de ma séquence en se basant sur la valeur de son plus haut pic. Si je normalise à 100 %, le volume sonore de ma séquence va être augmenté jusqu'à ce que sa plus haute crête atteigne 0 dB.

C’est donc un processus intéressant qui permet d’augmenter le volume / l’intensité sonore d’une séquence, tout en étant certain de ne jamais dépasser 0 dB, synonyme de distorsion numérique et donc d'une saturation désagréable du signal.

Lors du mixage, on prend l’habitude de garder un œil sur ses différents niveaux de mesures: VUmètres, RMS ou LUFS, pour voir avec quelles intensités on doit composer, dans l’objectif de les contrôler et de les faire cohabiter au mieux.

#4 Atténuer les plus haut pics de niveau : compresseurs et limiteurs

La même séquence avant compression, après compression et après normalisation à -6dB. On voit que la compression a diminué l'amplitude des crêtes, permettant ensuite de relever le niveau général de la séquence.

Vous constatez sur la forme d’onde de votre séquence que l’énergie sonore n’est pas linéaire. La voix n’a pas toujours la même intensité. Il y a des pics et des creux selon les mots et les sons. Bref, le volume de la discussion est plus ou moins élevé selon les moments.

Pour gagner en volume sonore, le jeu va consister à réduire les plus hauts pics de volume, afin qu’ils ne dépassent jamais 0 dB lorsqu'on augmentera ensuite le volume global de la séquence. Par la même, on cherche à réduire la dynamique (l’écart entre les passages les plus forts et les plus faibles) pour éviter à l’auditeur de devoir ajuster sans cesse son volume d’écoute.

Il faut voir la compression comme une action du haut vers le bas, pour diminuer l’intensité des plus haut pics - de manière plus ou moins radicale - dès lors que ceux-ci dépassent un niveau donné. On parle de compression lorsque cette réduction est légère et progressive, et de limitation quand elle est plus extrême.

Par exemple : je décide que tout ce qui dépasse le seuil de -12 dB doit être divisé par 2 (ratio 2:1). Cela va ramener les plus hauts pics à un volume moyen et me permettre ensuite de gagner quelques dB sur le volume général de la séquence (en normalisant ou en augmentant le gain de la séquence). Il ne reste plus qu’à gérer la vitesse d’attaque et de relâchement pour trouver le bon compromis entre sonorité naturelle et amplitude contrôlée.

#5 Nettoyer ses prises

Cette phase de coupe vise à délester le contenu de passages inesthétiques ou inutiles.

Une fois le niveau de la séquence contrôlé et ajusté, traversez votre séquence à la recherche de défauts à supprimer : des silences trop longs, des respirations trop fortes, des bruits de bouche, raclements de gorge, "euh", bafouilles ou tics de langage... Vous aurez rapidement envie de travailler votre diction pour avoir le moins de travail possible lors de cette étape ; )

Attention toutefois à garder un résultat naturel. Sur les coupes au milieu de phrase, le ton de la voix ne doit pas sauter bizarrement (on parle plus fort lorsqu'on se reprend). Aussi vaut-il parfois mieux entendre une petite bafouille plutôt qu’une grosse coupe. Et enfin, attention au rythme : certains silences peuvent avoir du sens, ou souligner une émotion.

#6 Atténuateur de bruit - ou Denoiser

Sur cet exemple la réduction de bruit d'Adobe Audition permet d'atténuer un souffle présent sur une piste.

Le Denoiser permet d’atténuer l’amplitude de certaines fréquences gênantes sur un enregistrement. Cela fonctionne assez bien contre les bruits "continus" : le souffle d’une VMC, un buzz électrique, le ventilateur d’un ordinateur - bref l’ambiance diffuse et homogène d’une pièce. Cela fonctionne moins (voire pas du tout) sur un son de foule, une cour de récré, la machine à laver des voisins ou les sirènes de pompier.

De même, l’outil vise plus souvent à réduire les fréquences gênantes qu’à les faire disparaître totalement. D'ailleurs, s’il est trop poussé, on entend un effet subaquatique assez désagréable.

La plupart des “Denoisers” demandent à l’utilisateur de définir une "empreinte", un passage témoin avec uniquement le son gênant, pour pouvoir ensuite le soustraire de la séquence. C’est pourquoi il peut être intéressant de commencer votre enregistrement par quelques secondes de "silence" : cela permet d’avoir une empreinte du son de la pièce afin de l’atténuer si besoin lors du travail sur le volume général de la séquence.

#7 Mixage : équilibrer les différentes sources audio

L’objectif du mixage est de proposer un ensemble cohérent, une scène sonore réaliste, confortable, agréable à l’oreille. Un bon résultat doit faire oublier toute intervention technique à l’auditeur (micro, mixage... jusqu'au support d’écoute). Il s’agit donc d’avoir un volume sonore régulier entre les différentes sources sonores et tout au long de l’épisode : les voix entre elles, l'intro et l’interview, la musique et les extraits sonores s’il y en a.

Au mixage, il vaut toujours mieux baisser le niveau du plus fort que monter le plus faible. Si vous diffusez un extrait sonore ou musical, assurez-vous que le niveau ne dépasse pas celui des voix.

Technique simple et efficace : faites jouer les deux séquences en même temps, baissez complètement la piste à intégrer puis remontez-la progressivement jusqu'à ce que les niveaux vous paraissent égaux.

#8 Ajuster l'égalisation (ou équalization, EQ)

Ici la courbe de fréquence d'une voix de femme sur un égaliseur graphique.

Un égaliseur (ou equalizer) permet de contrôler la distribution d’un son sur la bande de fréquence. On va donc pouvoir rajouter ou enlever des graves, des médiums, des aigus...

L’objectif premier est d’avoir un résultat fidèle à ce qu’entendrait l’oreille. Un bon micro bien placé ne nécessitera pas d’égalisation, car le résultat sera réaliste. Avec un mauvais placement et/ou un mauvais micro, la voix sera déformée et on devra retravailler le signal.

Si le micro est trop proche de la bouche (c’est souvent le choix qui est fait quand la pièce résonne ou qu’il y a du bruit de fond), on va avoir un effet de proximité : un surplus de bas et le bas-médium. On pourra essayer d’atténuer ou couper complètement les fréquences en dessous de 50 à 120 Hz. On coupera aussi ces fréquences graves si l’on entend un "pop" désagréable sur certaines plosives.

À l’opposé du spectre, certains microphones pourront être trop sensibles aux aigus, ou au contraire en manquer et ternir le son. On pourra donc venir jouer légèrement sur les fréquences entre 6 et 12 kHz, selon le timbre, pour "ajouter de l’air" ou "faire briller" la voix. Avec parcimonie toutefois car le résultat peut devenir désagréable et fatigant.

À cette étape il faut faire attention : l’oreille s’habitue très vite et perd ses repères. Écoutez 15 secondes votre mixage avec les aigus surboostés et ils vous manqueront dès que vous les enlevez.

La solution : travailler avec un son de référence (un podcast pro dont vous aimez le son) et faire des aller-retours entre cette piste témoin et votre mixage.

#9 Atténuer les fréquences sifflantes avec un De-esser

On voit ici l'action du de-esser d'Ableton Live, représentée par la ligne jaune sur son histogramme : les fréquences autour de 6kHz sont divisées par 3 (ratio 3:1) dès qu'elles dépassent -15.2 dB (ligne bleue horizontale).

Certains sons (les "sss", les "tss", les "fff") peuvent occasionner un sifflement désagréable à l’oreille : une concentration d’énergie dans les hautes fréquences. Certaines voix ou manières de parler "sifflent" plus que d’autres, mais le phénomène peut aussi être accentué par le microphone choisi ou son positionnement.

Un De-esser est un compresseur qui va agir uniquement sur une certaine plage de fréquence. On règle cette plage, plus ou moins large, plus ou moins haute selon le timbre de voix, autour de 12 kHz en général. Comme un compresseur, on doit régler le seuil à partir duquel il va agir. On va donc partir d’en haut à 0 dB et descendre progressivement jusqu'à ce qu’il commence à fonctionner quand on entend des sifflantes.

Une fois encore il faut être parcimonieux : le but n’est pas de déformer le son, de le ternir, mais simplement de freiner un peu les plus grands pics d’aigus qui sont désagréables à l’oreille. Comparer le résultat avec et sans De-esser pour trouver le bon compromis entre son naturel et signal contrôlé.

#10 Augmenter le volume sonore général

La nouvelle norme R128 de l'European Broadcast Union est une mesure du "volume sonore perçu", en phase d'être adoptée par les grands acteurs du streaming. Elle préconise un volume final entre -23 et -16 LUFS - son unité de mesure qui signifie "Loudness Units referenced to Full Scale".

Vous avez peut-être remarqué que le volume de votre dernier épisode est bien plus bas que votre podcast préféré. On vous entend loin, on doit mettre le volume à fond. Il n’y a pas de secret : cela vient de l’étape du mixage, et particulièrement de l'utilisation de compresseurs et de limiteurs.

Comme on l’a vu, l’étape de compression va permettre de contrôler les plus hauts pics pour pouvoir augmenter le niveau sonore global de la séquence, sans jamais saturer. Il convient de le faire (avec parcimonie) séquence par séquence, piste par piste, mais aussi sur la piste "Master" : la piste qui reçoit toutes les pistes de votre mix. C’est ici qu’on va mettre la dernière couche de "liant", qui va finir de "coller" les sons les uns aux autres, et les faire appartenir à un même ensemble.

À cette étape, il ne doit pas rester beaucoup à faire, c’est à dire qu’il ne doit pas y avoir trop de pics incontrôlés qui feraient saturer le mix. Pour ces derniers, on va utiliser un limiteur (ou un compresseur assez radical) comme dernière barrière de sécurité.

Le limiteur va nous permettre d’augmenter le volume général de plusieurs dB en stoppant tout pic qui dépasserait 0 dB (ou moins, la valeur est souvent réglable). Mais attention le résultat sonore peut vite sonner "écrasé". C’est pourquoi il vient à la toute fin, en complément d’une bonne gestion des niveaux et de la compression. Encore une fois ici, on peut s’aider d’une piste témoin pour savoir si l’on doit sonner plus fort ou moins fort.

Pendant des années, les studios de musique se sont livré une guerre du volume (ou "loudness war") pour sonner plus fort que la concurrence. Aujourd'hui on en revient car tout sonne "écrasé" et les plateformes de diffusion commencent à s’accorder sur des standards.

Pour faire simple, on contrôle le niveau de signal numérique (dB Full Scale ou True Peak) afin de ne pas saturer le signal ; mais aussi le niveau de volume "perçu" (dB LUFS pour Loudness Unit Full Scale) à l’aide de plug-in de mesure (iZotope Insight, dpMeterXT2…).

La norme qui semble s’installer dans le podcast étant autour de -18dB LUFS.

À vous de jouer !

N'hésitez pas à me faire un retour ou à m'envoyer vos questions.

Aussi si vous souhaitez avoir le meilleur son et pour vous concentrer sur le développement de votre projet de podcast : je ne saurais que vous conseiller de faire appel à un professionnel du mixage audio ; )

À bientôt,

Morgan