videocalling
Illustration of Detecção de Atividade de Voz (VAD) in video calling

Detecção de Atividade de Voz (VAD)

glossary.categories.technical

Tecnologia que detecta a presença ou ausência de fala humana.

O que é Detecção de Atividade de Voz?

Detecção de Atividade de Voz (VAD) é uma técnica usada no processamento de fala para detectar se um humano está falando ou se há apenas silêncio/ruído de fundo. Ela age como um interruptor inteligente que sabe quando processar áudio e quando parar.

Por Que o VAD é Importante em Videochamadas?

  • Eficiência de Largura de Banda: Em uma chamada VoIP (como WebRTC), não há necessidade de transmitir pacotes de dados para silêncio. O VAD permite que o codificador pare de enviar quadros de áudio quando ninguém está falando, reduzindo significativamente o uso de largura de banda.
  • Redução de Ruído: Ao identificar com precisão segmentos sem fala, o VAD ajuda algoritmos de supressão de ruído a focar apenas na limpeza da fala real em vez de tentar processar zumbidos constantes de fundo.
  • Supressão de Eco: O VAD ajuda canceladores de eco a determinar quando o usuário local está ativo, evitando que cancelem a própria fala do usuário por engano.

Como Funciona

Algoritmos VAD analisam os níveis de energia e espectro de frequência do sinal de entrada. VADs simples procuram limites de energia (o som é alto o suficiente?), enquanto VADs avançados usam aprendizado de máquina para distinguir as características espectrais específicas da voz humana de outros sons como digitação ou tráfego.

VAD vs. Pressionar-para-Falar

Pressionar-para-falar é um VAD manual (controlado pelo usuário). VAD algorítmico é automático. No entanto, VAD excessivamente agressivo pode às vezes cortar o início ou final de uma frase (clipping), é por isso que ajustar os tempos de "ataque" e "liberação" é crucial para uma experiência de conversa natural.