Sprachaktivitätserkennung (VAD)

Was ist Sprachaktivitätserkennung?

Sprachaktivitätserkennung (VAD – Voice Activity Detection) ist eine Technologie, die analysiert, ob ein Audiosignal menschliche Sprache enthält oder nur Hintergrundgeräusche. VAD ist eine fundamentale Komponente in Videokonferenz-Systemen und wird für verschiedene wichtige Funktionen eingesetzt.

Anwendungen in Videoanrufen

Aktiver-Sprecher-Erkennung: VAD bestimmt, wer gerade spricht, damit die Benutzeroberfläche den aktiven Sprecher hervorheben kann.
Bandbreiteneinsparung: Wenn kein Sprecher erkannt wird, kann der Audio-Encoder die Bitrate reduzieren oder Comfort Noise (Hintergrundrauschen) senden, anstatt Stille mit voller Bitrate zu übertragen.
Rauschunterdrückung: VAD hilft, zwischen Sprache und Hintergrundgeräuschen zu unterscheiden, was die Rauschunterdrückungsalgorithmen verbessert.
Stummschaltungs-Erinnerung: Erkennt, wenn ein Nutzer spricht, während er stummgeschaltet ist, und zeigt eine Benachrichtigung an.

Wie VAD funktioniert

VAD analysiert das Audiosignal in kurzen Zeitfenstern (typischerweise 10–30 ms) und klassifiziert jedes Fenster als „Sprache“ oder „Keine Sprache“. Traditionelle Methoden nutzen Energieschwellenwerte und Frequenzanalyse. Moderne Ansätze verwenden Machine-Learning-Modelle, die robuster gegenüber Hintergrundgeräuschen und unterschiedlichen Sprechern sind.

VAD in WebRTC

WebRTC enthält eine eingebaute VAD-Implementierung als Teil seiner Audioverarbeitungspipeline. Der Opus-Codec nutzt VAD für seine DTX-Funktion (Discontinuous Transmission), die die Bitrate während Sprechpausen reduziert und so Bandbreite spart.

Was ist Sprachaktivitätserkennung?

Anwendungen in Videoanrufen

Wie VAD funktioniert

VAD in WebRTC

Verwandte Begriffe