videocalling
Illustration of VAD(音声アクティビティ検出) in video calling

VAD(音声アクティビティ検出)

技術

人間の音声の存在または不在を検出する技術。

音声アクティビティ検出とは?

音声アクティビティ検出(VAD)は、人間が話しているか、無音/バックグラウンドノイズのみかを検出するために使用される音声処理技術です。音声を処理するタイミングと停止するタイミングを知っているスマートスイッチとして機能します。

なぜVADはビデオ通話で重要なのか?

  • 帯域幅効率: VoIP通話(WebRTCなど)では、無音時にデータパケットを送信する必要がありません。VADにより、誰も話していないときにエンコーダーが音声フレームの送信を停止でき、帯域幅使用量を大幅に削減します。
  • ノイズ低減: 非音声セグメントを正確に特定することで、VADはノイズサプレッションアルゴリズムが一定のバックグラウンドハムを処理しようとするのではなく、実際の音声のクリーンアップにのみ集中するのを助けます。
  • エコー抑制: VADはエコーキャンセラーがローカルユーザーがアクティブであるタイミングを判断するのを助け、ユーザー自身の音声を誤ってキャンセルすることを防止します。

仕組み

VADアルゴリズムは入力信号のエネルギーレベルと周波数スペクトルを分析します。シンプルなVADはエネルギー閾値(音が十分に大きいか?)を検出し、高度なVADは機械学習を使用して人間の声の特定のスペクトル特性をタイピングや交通などの他の音と区別します。

VADとプッシュトゥトークの比較

プッシュトゥトークは手動VAD(ユーザーが制御)です。アルゴリズムVADは自動です。ただし、過度に積極的なVADは文の最初や最後を切り取ることがあり(クリッピング)、そのため「アタック」と「リリース」時間のチューニングが自然な会話体験にとって重要です。