
Voice Activity Detection (VAD,语音活动检测)
技术检测人类语音存在与否的技术。
什么是语音活动检测?
语音活动检测(VAD)是一种语音处理技术,用于检测人类是否在说话,还是只有静音/背景噪声。它就像一个智能开关,知道何时处理音频、何时停止。
为什么 VAD 在视频通话中很重要?
- 带宽效率:在 VoIP 通话(如 WebRTC)中,没有必要为静音传输数据包。VAD 允许编码器在无人说话时停止发送音频帧,显著减少带宽使用。
- 降噪:通过准确识别非语音片段,VAD 帮助噪声抑制算法仅专注于清理实际语音,而不是试图处理持续的背景嗡嗡声。
- 回声抑制:VAD 帮助回声消除器确定本地用户何时在说话,防止其错误地消除用户自己的语音。
工作原理
VAD 算法分析输入信号的能量水平和频谱。简单的 VAD 查看能量阈值(声音是否足够大?),而高级 VAD 使用机器学习来区分人声的特定频谱特征与打字声或交通噪音等其他声音。
VAD 与一键通话
一键通话是手动的 VAD(由用户控制)。算法 VAD 是自动的。然而,过于激进的 VAD 有时会截断句子的开头或结尾(削波),这就是为什么调整“起始”和“释放”时间对于自然对话体验至关重要。