Detección de Actividad de Voz (VAD)

¿Qué es la Detección de Actividad de Voz?

La Detección de Actividad de Voz (VAD), también conocida como Detección de Actividad de Habla (SAD), es una técnica de procesamiento de audio que determina si un segmento de audio dado contiene habla humana o solo ruido/silencio de fondo. En las videollamadas, VAD juega un papel crucial en la optimización del ancho de banda, la habilitación de funciones como el indicador de orador activo y la reducción del procesamiento innecesario.

Aplicaciones en videoconferencia

Indicador de orador activo: VAD determina quién está hablando actualmente, permitiendo que la interfaz resalte su video o cambie el diseño.
Ahorro de ancho de banda (DTX): Cuando VAD detecta que no estás hablando, el códec Opus puede activar Transmisión Discontinua (DTX), enviando solo ruido de confort mínimo en lugar de codificar silencio, ahorrando ancho de banda significativo.
Supresión de ruido: VAD ayuda a los algoritmos de supresión de ruido a distinguir entre habla y ruido de fondo.
Grabación inteligente: Evitar grabar segmentos de silencio, reduciendo el tamaño de las grabaciones.

VAD en WebRTC

WebRTC incluye VAD como parte de su pipeline de procesamiento de audio integrado. Se integra con el códec Opus para habilitar DTX y con la API getStats() para proporcionar niveles de audio que las aplicaciones pueden usar para mostrar indicadores visuales de quién está hablando. Los desarrolladores también pueden acceder a datos de audio sin procesar a través de la API Web Audio y la AudioWorklet para implementar lógica VAD personalizada.

¿Qué es la Detección de Actividad de Voz?

Aplicaciones en videoconferencia

VAD en WebRTC

Términos relacionados