Routage audio pour la diffusion en direct : gérer les flux audio multicanaux

Pourquoi le routage audio est plus important qu’on ne le pense

En ingénierie de diffusion en direct, l’audio est simultanément l’élément le plus important et le plus négligé de la chaîne de signal. Le public tolérera une image légèrement floue. Il ne tolérera pas un audio absent, une langue erronée, un stéréo en inversion de phase ou un microphone ouvert sur le mauvais canal. Un mauvais audio met fin aux diffusions. Un bon audio est invisible.

Le défi est que la production live moderne implique des exigences audio de plus en plus complexes : plusieurs langues, commentaires combinés au son ambiant, pistes descriptives pour les malentendants, et des configurations de canaux différentes selon les destinations. Un flux destiné à YouTube nécessite du stéréo. Le même flux envoyé à un partenaire de diffusion peut nécessiter du 5.1 surround. Le flux international nécessite le son naturel sans commentaire.

Ce guide explique comment gérer le routage audio dans le contexte d’une passerelle de streaming, avec des configurations pratiques pour les scénarios de diffusion courants.

Fondamentaux audio pour les ingénieurs streaming

Avant d’aborder le routage, établissons la terminologie et les concepts essentiels pour l’audio en streaming live.

Dispositions de canaux

Les flux audio transportent un ou plusieurs canaux dans une disposition définie :

DispositionCanauxUsage courant
Mono1Flux voix uniquement, IFB
Stéréo2 (G, D)Streaming web, plateformes sociales
Surround 5.16 (AG, AD, C, LFE, SG, SD)TV broadcast, streams premium
Surround 7.18 (AG, AD, C, LFE, SG, SD, ARG, ARD)Cinéma, audio immersif

La plupart des plateformes de streaming n’acceptent que le stéréo. Les partenaires de diffusion et les plateformes OTT peuvent exiger de l’audio multicanal. Votre passerelle doit gérer les deux à partir de la même source.

Audio embarqué vs. audio séparé

Dans le transport vidéo professionnel (SDI, SRT, RTMP), l’audio est embarqué dans le flux vidéo plutôt que transporté comme un signal distinct. Un flux SRT unique transporte généralement la vidéo plus plusieurs canaux audio sous forme de PCM entrelacé ou d’audio compressé (AAC, Opus).

Le nombre de canaux audio dans votre flux de transport dépend de la configuration de l’encodeur. Une configuration courante est de 8 canaux d’audio embarqué : canaux 1-2 pour le stéréo programme, canaux 3-4 pour les commentaires, canaux 5-6 pour le son naturel/ambiant, et canaux 7-8 pour une langue secondaire ou le retour plateau.

Fréquence d’échantillonnage et profondeur de bits

Pour le streaming broadcast :

  • Fréquence d’échantillonnage : 48 kHz (standard broadcast). N’utilisez jamais 44,1 kHz (standard CD) dans une chaîne de diffusion.
  • Profondeur de bits : 16 bits pour la diffusion compressée (AAC), 24 bits pour le transport non compressé (PCM en SRT/SDI).
  • Codec : AAC-LC pour la sortie RTMP/HLS, Opus pour les applications à faible latence, PCM pour le transport entre installations.

Scénarios courants de routage audio

Scénario 1 : commentaires multilingues

Vous distribuez un événement sportif en direct avec des commentaires en trois langues. Votre production crée un flux sonore international (ISF) et trois paires de commentaires.

Flux sources :

  • Entrée A (flux principal) : 8 canaux
    • Ch 1-2 : commentaires en anglais mixés avec l’ISF
    • Ch 3-4 : commentaires en français mixés avec l’ISF
    • Ch 5-6 : commentaires en espagnol mixés avec l’ISF
    • Ch 7-8 : ISF propre (son naturel uniquement)

Sorties requises :

DestinationAudio requisMapping de canaux
YouTube (anglais)Stéréo anglaisEntrée Ch 1-2 → Sortie Ch 1-2
YouTube (français)Stéréo françaisEntrée Ch 3-4 → Sortie Ch 1-2
YouTube (espagnol)Stéréo espagnolEntrée Ch 5-6 → Sortie Ch 1-2
Partenaire broadcastLes 8 canauxEntrée Ch 1-8 → Sortie Ch 1-8 (passthrough)
Enregistrement archiveISF propreEntrée Ch 7-8 → Sortie Ch 1-2

C’est un problème classique de routage par matrice audio. Sans une passerelle supportant le mapping de canaux, vous auriez besoin de cinq instances d’encodeur distinctes ou d’un routeur audio dédié.

Scénario 2 : downmix surround vers stéréo

Votre production délivre du son surround 5.1, mais vos destinations de streaming web n’acceptent que le stéréo. Vous devez effectuer un downmix du 5.1 vers le stéréo tout en préservant le mix surround pour la sortie broadcast.

Formule de downmix 5.1 vers stéréo :

L_out = FL + 0.707 * FC + 0.707 * SL
R_out = FR + 0.707 * FC + 0.707 * SR

Le canal LFE (subwoofer) est généralement écarté lors d’un downmix stéréo, car la plupart des appareils de lecture grand public ne peuvent pas le reproduire au niveau prévu.

Scénario 3 : audio-follow-video avec basculement

Vous disposez d’un flux vidéo principal et d’un flux de secours, chacun avec son propre audio embarqué. Lorsque la passerelle bascule du flux principal vers le flux de secours sur le failover vidéo, l’audio doit basculer simultanément. Toute désynchronisation audio/vidéo pendant le basculement est immédiatement perceptible.

C’est le paradigme audio-follow-video : les décisions de routage audio sont liées aux décisions de routage vidéo. Quand le moteur de basculement commute la vidéo, il doit également commuter les canaux audio correspondants.

Configurer la matrice audio dans Vajra Cast

Vajra Cast inclut une matrice audio intégrée qui gère jusqu’à 8 canaux par flux. La matrice opère au niveau de la route, entre vos entrées et vos sorties.

Mapping de canaux

Pour mapper des canaux d’entrée spécifiques vers des canaux de sortie spécifiques, configurez la matrice audio pour chaque sortie :

Exemple : extraire les commentaires français (canaux 3-4) vers une sortie stéréo pour un flux YouTube en français :

  1. Créez une route de votre entrée multicanal vers la sortie RTMP pour YouTube
  2. Ouvrez les paramètres de la matrice audio pour cette route
  3. Mappez le canal d’entrée 3 vers le canal de sortie 1 (gauche)
  4. Mappez le canal d’entrée 4 vers le canal de sortie 2 (droite)
  5. Laissez tous les autres canaux de sortie non mappés

Le résultat : la sortie YouTube reçoit un flux stéréo avec uniquement les commentaires français, tandis que l’entrée 8 canaux originale continue d’alimenter les autres sorties avec leurs propres mappings.

Contrôle de gain par canal

Chaque canal de la matrice dispose d’un contrôle de gain indépendant, mesuré en dB. Ajustements courants :

  • +0 dB : gain unitaire, aucune modification (valeur par défaut)
  • -3 dB : réduction de moitié de la puissance (réduction subtile)
  • -6 dB : réduction de moitié du volume perçu
  • -inf (mute) : silence complet sur le canal

Utilisez le gain par canal pour équilibrer les commentaires par rapport au son naturel, atténuez un microphone trop fort, ou coupez les canaux de retour plateau qui ne doivent pas atteindre le public.

Downmixage

Pour le downmix surround vers stéréo, la matrice audio de Vajra Cast vous permet de router plusieurs canaux d’entrée vers le même canal de sortie avec des ajustements de gain. Pour implémenter le downmix standard 5.1 :

Canal d’entréeMappé versGain
AG (Ch 1)Sortie G (Ch 1)0 dB
AD (Ch 2)Sortie D (Ch 2)0 dB
C (Ch 3)Sortie G (Ch 1)-3 dB
C (Ch 3)Sortie D (Ch 2)-3 dB
SG (Ch 5)Sortie G (Ch 1)-3 dB
SD (Ch 6)Sortie D (Ch 2)-3 dB
LFE (Ch 4)(non mappé)

Lorsque plusieurs entrées sont sommées vers un canal de sortie, les gains sont additifs. Les valeurs de -3 dB ci-dessus (-3 dB correspond approximativement à 0,707 en linéaire) garantissent que les canaux central et surround sont mixés au niveau correct par rapport aux canaux avant gauche et droit.

Audio-follow-video

Lorsque vous utilisez le système de basculement de Vajra Cast, l’audio suit la vidéo par défaut. La configuration de la matrice audio s’applique à l’entrée actuellement active. Si vos flux principal et de secours ont la même disposition de canaux (ce qui devrait être le cas), le routage audio reste cohérent lors des événements de basculement.

Si vos flux principal et de secours ont des dispositions de canaux différentes (par exemple, le principal a 8 canaux et le secours en a 2), vous pouvez configurer des profils de matrice audio distincts par entrée. La passerelle applique automatiquement le profil correct lors du basculement.

Surveillance des niveaux audio

La surveillance fait la différence entre un audio professionnel et de l’approximation. En diffusion en direct, vous devez voir les niveaux audio en temps réel et être alerté lorsqu’ils sortent des plages acceptables.

Mesure des niveaux

Niveaux cibles broadcast standard :

StandardNiveau crêteNiveau moyenNotes
EBU R128-1 dBTP-23 LUFSStandard broadcast européen
ATSC A/85-2 dBTP-24 LKFSStandard broadcast américain
YouTube/Web-1 dBTP-14 LUFSRecommandation des plateformes

LUFS (Loudness Units relative to Full Scale) mesure le volume perçu dans le temps, pas simplement l’amplitude crête. C’est important car un signal qui culmine à -1 dBFS peut sonner très différemment selon sa plage dynamique.

Que surveiller

Au minimum, surveillez ces paramètres audio pour chaque flux actif :

  1. Niveaux crêtes par canal : assurez-vous qu’aucun canal n’est en saturation (dépassement de 0 dBFS) ou mort (silence soutenu)
  2. Volume (LUFS) : le volume intégré doit rester dans votre plage cible
  3. Corrélation de phase : une valeur proche de +1,0 signifie que le signal stéréo est sain. Une valeur proche de -1,0 signifie que les canaux sont en inversion de phase et s’annuleront partiellement en lecture mono
  4. Présence des canaux : vérifiez que tous les canaux attendus sont actifs et transportent du signal

Détection de canal silencieux

L’une des pannes audio les plus courantes et embarrassantes est un canal mort : un audio qui devrait être présent mais qui est silencieux. Cela peut se produire lorsque :

  • Un point d’insertion audio en amont perd son flux
  • Un microphone est coupé à la source
  • Une erreur de mapping de canal route du silence vers la sortie
  • Un encodeur perd des canaux audio lors d’une reconnexion

Configurez des alertes pour le silence soutenu (plus de 5 à 10 secondes) sur tout canal de sortie qui devrait transporter de l’audio programme. La surveillance de Vajra Cast expose des statistiques audio par canal via son endpoint Prometheus /metrics, vous permettant d’intégrer la détection de silence dans votre pipeline d’alerte avec Grafana.

Workflows audio avancés

HLS multilingue avec pistes audio

Lors de la distribution via HLS, vous pouvez inclure plusieurs pistes audio comme des rendus distincts. Le lecteur présente un sélecteur de langue au spectateur.

Le workflow :

  1. Ingestez la source multicanal (8 canaux avec plusieurs langues)
  2. Créez des rendus audio HLS distincts, chacun mappé depuis les canaux source appropriés
  3. Le manifeste HLS référence tous les rendus audio
  4. Le lecteur vidéo (sur le web ou dans l’application) permet au spectateur de choisir sa langue

C’est l’approche standard pour les plateformes OTT et les événements live premium. La vidéo est encodée une seule fois ; seul l’audio diffère entre les rendus. La sortie HLS de Vajra Cast prend en charge plusieurs rendus audio, configurés via la matrice audio sur la route de chaque rendu.

Flux audio uniquement

Certains workflows nécessitent des sorties audio uniquement : simulcast radio, flux podcast ou flux audio pour les spectateurs à bande passante limitée. Configurez une route qui écarte la piste vidéo et ne produit que les canaux audio mappés, transcodés vers le codec approprié (AAC pour HLS, Opus pour WebRTC, MP3 pour les systèmes radio legacy).

Retour plateau et IFB

En production à distance, le retour plateau (communication du studio vers l’équipe terrain) et l’IFB (Interruptible Foldback, le mix d’audio programme plus les directives du réalisateur envoyé aux présentateurs à l’antenne) sont souvent transportés comme des canaux audio dédiés dans le flux de transport.

Ces canaux doivent être :

  • Routés uniquement vers les moniteurs/oreillettes terrain, jamais vers la sortie programme
  • Exclus de la matrice audio pour toutes les sorties destinées au public
  • À faible latence, pour que les directives du réalisateur arrivent à temps pour être utiles

Une disposition courante :

CanalContenuRouté vers
Ch 1-2Stéréo programmeToutes les sorties
Ch 3-4Son naturelPartenaire broadcast, archive
Ch 5-6Langue secondaireSorties spécifiques à la langue
Ch 7Retour plateau (studio → terrain)Retour terrain uniquement
Ch 8Mix IFBRetour oreillette présentateur uniquement

Dans Vajra Cast, vous gérez cela en ne mappant simplement pas les canaux 7-8 vers les sorties destinées au public. Ces canaux existent dans le flux de transport pour le chemin de retour vers les moniteurs terrain.

Dépannage des problèmes audio courants

Désynchronisation audio (lip sync)

L’audio qui arrive en avance ou en retard par rapport à la vidéo est appelé erreur de lip sync. Les causes incluent :

  • Délai audio de l’encodeur : certains encodeurs traitent l’audio plus rapidement que la vidéo, introduisant un décalage
  • Pipeline de transcodage : l’encodage vidéo matériel peut introduire un délai variable par rapport au passthrough audio
  • Gigue réseau : différences de synchronisation d’arrivée des paquets pour les données audio et vidéo

Solution : la plupart des passerelles, y compris Vajra Cast, maintiennent la synchronisation audio/vidéo via un traitement basé sur les horodatages. Si vous observez des erreurs de lip sync, vérifiez d’abord l’encodeur, car c’est la source la plus courante.

Inversion de phase stéréo

Si votre audio sonne creux, mince ou disparaît en lecture mono, un canal est probablement en inversion de phase. Cela se produit lorsqu’un câble est branché avec une polarité inversée ou qu’un étage de traitement numérique inverse un canal.

Vérifiez le mètre de corrélation de phase. Une lecture proche de -1,0 confirme l’inversion de phase. Corrigez-la à la source (permutez les broches 2/3 du XLR sur le canal concerné) ou appliquez un filtre d’inversion de phase dans la matrice audio.

Permutation de canaux

Les canaux gauche et droit sont inversés. Moins catastrophique que l’inversion de phase mais quand même incorrect. Utilisez la matrice audio pour permuter les canaux : mappez le canal d’entrée 1 vers le canal de sortie 2, et le canal d’entrée 2 vers le canal de sortie 1.

Canaux manquants après basculement

Si des canaux audio disparaissent après un événement de basculement, le flux de secours a probablement une disposition de canaux différente du flux principal. Standardisez votre disposition de canaux sur toutes les sources, ou configurez des profils de matrice audio par entrée dans votre passerelle.

Résumé des bonnes pratiques

  1. Standardisez les dispositions de canaux sur toutes les sources de votre production. Documentez quels canaux transportent quel contenu.
  2. Surveillez l’audio sur chaque sortie, pas seulement sur l’entrée. Une entrée correcte peut produire une sortie incorrecte si la matrice est mal configurée.
  3. Testez le basculement audio avant chaque événement. Confirmez que l’audio-follow-video fonctionne correctement et que tous les canaux sont présents après le basculement.
  4. Utilisez le gain par canal pour équilibrer votre mix au niveau de la passerelle, plutôt que de demander aux sources en amont de s’ajuster.
  5. Configurez des alertes de silence pour chaque canal de sortie destiné au public.
  6. Gardez les canaux de retour plateau et IFB hors des sorties publiques en ne les mappant pas explicitement.
  7. Documentez votre configuration de matrice audio et sauvegardez-la comme modèle pour les productions récurrentes.

Le routage audio est l’une de ces disciplines où bien faire les choses signifie que personne ne le remarque, et mal faire signifie que tout le monde le remarque. Une matrice audio bien configurée dans votre passerelle de streaming, combinée à une surveillance adéquate, constitue le fondement d’un audio multicanal fiable en diffusion en direct.

Pour la configuration associée, consultez le guide de passerelle SRT pour l’architecture complète d’ingestion à distribution, et les bonnes pratiques de basculement vidéo pour assurer la continuité audio lors de la commutation des entrées.