videocalling
Illustration of 空间音频 in video calling

空间音频

功能

根据参与者在屏幕上的位置定位声音的 3D 音频技术,实现自然对话体验

什么是空间音频?

空间音频(也称为 3D 音频或沉浸式音频)是一种在虚拟会议中重建自然声音定位的技术。与所有参与者的声音来自同一平面单声道或立体声源不同,空间音频将每个人的声音放置在与其屏幕位置对应的特定位置。当画廊视图左上角的某人说话时,他们的声音听起来就像是从那个方向传来的。

这个看似简单的改变对会议质量有深远的影响。我们的大脑进化到能够处理来自不同方向的声音——这就是我们如何在鸡尾酒会上导航、跟随群体对话以及在拥挤的房间里识别说话者。空间音频将这种自然能力带入虚拟会议。

空间音频的工作原理

空间音频技术结合多种技术来创建 3D 声音定位的错觉:

头部相关传输函数(HRTF)

在现实生活中,当声音到达你的耳朵时,根据其方向会在稍微不同的时间到达,并带有微妙的频率差异。HRTF 是模拟这些差异的数学模型,允许软件仅使用立体声耳机或扬声器将虚拟声源定位在 3D 空间的任何位置。

视频位置映射

在视频会议中,空间音频将画廊视图中每个参与者的位置映射到相应的音频位置。系统创建一个虚拟声场:

  • 屏幕左侧的参与者从左边被听到
  • 屏幕右侧的参与者从右边被听到
  • 距离线索使参与者向后靠时声音变轻,向前靠时声音变大

会议中空间音频的优势

即时识别说话者

最直接的好处之一是无需看就能知道谁在说话。在传统视频通话中,所有声音来自同一个地方,迫使你视觉扫描屏幕来识别说话者。有了空间音频,你本能地根据声音来源知道谁在说话——就像在真实的房间里一样。

更好地理解重叠语音

当传统视频通话中多人同时说话时,几乎不可能理解任何人。空间音频显著提高了对重叠语音的理解,因为你的大脑可以分离来自不同方向的声音——这种现象被称为"鸡尾酒会效应"。这使头脑风暴会议和热烈讨论变得更加可控。

减少会议疲劳

"Zoom 疲劳"部分是由不自然的音频引起的。当所有声音来自单一点时,你的大脑需要更努力地处理对话。空间音频通过提供你的大脑自然期望的音频线索来减少这种认知负荷,使长时间的会议日不那么令人疲惫。研究表明,空间定位的音频更接近面对面互动,减少了跟随对话所需的心理努力。

增强存在感和参与度

空间音频创造了与其他参与者"在一起"的更强烈感觉。这种增强的存在感可以提高参与度,使会议感觉更加个人化,并减少视频通话通常感觉不如面对面会议那么有连接感的心理距离。

平台支持

主要视频会议平台一直在推出空间音频功能:

Microsoft Teams

Teams 在会议和沉浸式活动中支持空间音频。在带有虚拟形象的沉浸式 3D 空间中,你甚至可以移动到更近的位置以更清楚地听到对话。要求包括 USB 有线立体声耳机或扬声器,会议必须有超过两名参与者在画廊视图中。

Zoom

Zoom 为会议和网络研讨会引入了空间音频,根据参与者在画廊或沉浸式视图中的位置在立体声场中定位声音。在 Zoom 桌面应用 6.0.10 及更高版本中可用,但目前仅限于有线立体声输出——尚不支持蓝牙设备。

专业平台

像 Kumospace 和 High Fidelity 这样的平台围绕空间音频构建了整个体验,创建了声音自然行为的虚拟办公室——你可以清楚地听到附近的对话,远处的对话则逐渐消失,就像在真实的办公室里一样。

当前限制

尽管有这些优势,视频会议中的空间音频仍有限制:

  • 硬件要求:大多数实现需要有线立体声耳机或扬声器;蓝牙支持有限
  • 仅基本立体声:当前实现通常提供扩展立体声而非真正的 3D 定位
  • 仅画廊视图:通常需要特定的视图模式才能运行
  • 设备兼容性:在房间系统中,功能可能仅限于特定认证的硬件

空间音频的未来

随着技术的发展,空间音频有望成为视频会议的标准:

  • 元宇宙会议:随着 VR/AR 会议空间的增长,空间音频对于 3D 环境中的自然交互变得至关重要
  • 头部追踪:未来的实现可能使用设备传感器来保持音频定位,即使你移动头部
  • AI 增强:机器学习可以通过更好地分离声音和减少背景噪音来改善空间音频,同时保持位置线索
  • 无线支持:像 LC3 这样的低延迟编解码器正在实现蓝牙上的空间音频

随着混合办公成为常态,像空间音频这样使虚拟会议更自然、更少疲劳的技术对于生产力和健康将变得越来越重要。

参考资料