
Detecção de Atividade de Voz (VAD)
glossary.categories.technicalTecnologia que detecta a presença ou ausência de fala humana.
O que é Detecção de Atividade de Voz?
Detecção de Atividade de Voz (VAD) é uma técnica usada no processamento de fala para detectar se um humano está falando ou se há apenas silêncio/ruído de fundo. Ela age como um interruptor inteligente que sabe quando processar áudio e quando parar.
Por Que o VAD é Importante em Videochamadas?
- Eficiência de Largura de Banda: Em uma chamada VoIP (como WebRTC), não há necessidade de transmitir pacotes de dados para silêncio. O VAD permite que o codificador pare de enviar quadros de áudio quando ninguém está falando, reduzindo significativamente o uso de largura de banda.
- Redução de Ruído: Ao identificar com precisão segmentos sem fala, o VAD ajuda algoritmos de supressão de ruído a focar apenas na limpeza da fala real em vez de tentar processar zumbidos constantes de fundo.
- Supressão de Eco: O VAD ajuda canceladores de eco a determinar quando o usuário local está ativo, evitando que cancelem a própria fala do usuário por engano.
Como Funciona
Algoritmos VAD analisam os níveis de energia e espectro de frequência do sinal de entrada. VADs simples procuram limites de energia (o som é alto o suficiente?), enquanto VADs avançados usam aprendizado de máquina para distinguir as características espectrais específicas da voz humana de outros sons como digitação ou tráfego.
VAD vs. Pressionar-para-Falar
Pressionar-para-falar é um VAD manual (controlado pelo usuário). VAD algorítmico é automático. No entanto, VAD excessivamente agressivo pode às vezes cortar o início ou final de uma frase (clipping), é por isso que ajustar os tempos de "ataque" e "liberação" é crucial para uma experiência de conversa natural.