videocalling
Illustration of Sprachaktivitätserkennung (VAD) in video calling

Sprachaktivitätserkennung (VAD)

glossary.categories.technical

Technologie, die erkennt, ob ein Audiosignal menschliche Sprache enthält oder nicht.

Was ist Sprachaktivitätserkennung?

Sprachaktivitätserkennung (VAD – Voice Activity Detection) ist eine Technologie, die analysiert, ob ein Audiosignal menschliche Sprache enthält oder nur Hintergrundgeräusche. VAD ist eine fundamentale Komponente in Videokonferenz-Systemen und wird für verschiedene wichtige Funktionen eingesetzt.

Anwendungen in Videoanrufen

  • Aktiver-Sprecher-Erkennung: VAD bestimmt, wer gerade spricht, damit die Benutzeroberfläche den aktiven Sprecher hervorheben kann.
  • Bandbreiteneinsparung: Wenn kein Sprecher erkannt wird, kann der Audio-Encoder die Bitrate reduzieren oder Comfort Noise (Hintergrundrauschen) senden, anstatt Stille mit voller Bitrate zu übertragen.
  • Rauschunterdrückung: VAD hilft, zwischen Sprache und Hintergrundgeräuschen zu unterscheiden, was die Rauschunterdrückungsalgorithmen verbessert.
  • Stummschaltungs-Erinnerung: Erkennt, wenn ein Nutzer spricht, während er stummgeschaltet ist, und zeigt eine Benachrichtigung an.

Wie VAD funktioniert

VAD analysiert das Audiosignal in kurzen Zeitfenstern (typischerweise 10–30 ms) und klassifiziert jedes Fenster als „Sprache“ oder „Keine Sprache“. Traditionelle Methoden nutzen Energieschwellenwerte und Frequenzanalyse. Moderne Ansätze verwenden Machine-Learning-Modelle, die robuster gegenüber Hintergrundgeräuschen und unterschiedlichen Sprechern sind.

VAD in WebRTC

WebRTC enthält eine eingebaute VAD-Implementierung als Teil seiner Audioverarbeitungspipeline. Der Opus-Codec nutzt VAD für seine DTX-Funktion (Discontinuous Transmission), die die Bitrate während Sprechpausen reduziert und so Bandbreite spart.