videocalling
Illustration of ノイズサプレッション(Noise Suppression) in video calling

ノイズサプレッション(Noise Suppression)

技術

音声ストリームからバックグラウンドノイズをフィルタリングする技術。

ノイズサプレッションとは?

ノイズサプレッション(ノイズキャンセレーションまたはノイズリダクションとも呼ばれる)は、マイクロフォンの音声入力から不要なバックグラウンドサウンドをフィルタリングするために使用される信号処理技術です。キーボードの入力音、パソコンのファン、交通騒音、オフィスの雑談などの妨害を除去し、話者の声のみが送信されるようにします。

仕組み

従来のノイズサプレッションアルゴリズムはスペクトル減算を使用します。音声周波数を分析して一貫した定常的なノイズパターン(エアコンのハム音など)を特定し、信号から差し引きます。

最新の高度なノイズサプレッションはディープラーニング(AI)に依存しています。ニューラルネットワーク(RNNoiseなど)が何千時間もの音声とノイズデータで学習されています。これらのモデルはリアルタイムで人間の音声と非音声音声を区別でき、従来の方法では見逃しがちな犬の鳴き声や赤ちゃんの泣き声などの複雑で非定常的なノイズを効果的に抑制します。

WebRTCにおけるノイズサプレッション

ブラウザのWebRTC実装には通常、音声処理パイプラインの一部として組み込みのノイズサプレッションモジュールが含まれています。この標準的な抑制は定常状態のノイズに効果的です。しかし、多くの最新ビデオ通話アプリケーションは、プロフェッショナルグレードのクリアさを提供するために、追加のAIベースのノイズサプレッション層(WebAssemblyまたはクラウド処理を使用)を実装しています。

トレードオフ

非常に効果的である一方、積極的なノイズサプレッションは音声品質を劣化させることがあり、声がロボットのように聞こえたり、単語の語尾が切れたりすることがあります。また、通話にわずかな処理レイテンシが追加されます。