videocalling
Illustration of 实时字幕 in video calling

实时字幕

功能

视频通话期间实时显示语音文本,用于无障碍访问和理解

什么是实时字幕?

实时字幕(也称为实时转录或即时字幕)是在视频通话期间,随着参与者说话而在屏幕上显示口语文本的功能。与后期制作中添加的预录字幕不同,实时字幕使用自动语音识别(ASR)技术实时生成,使聋人和听力障碍参与者以及任何需要通过阅读来辅助理解的人都能无障碍地参与对话。

到 2025 年,实时字幕已从基本的无障碍功能发展成为包容性视频通信的核心组件。现代实现支持多种语言、实时翻译、说话者识别和可自定义的显示选项——彻底改变了全球团队跨越语言障碍进行协作的方式。

实时字幕的工作原理

实时字幕涉及多种技术的实时协同工作:

自动语音识别(ASR)

ASR 是实时字幕的基础。它使用机器学习模型将语音转换为文本。现代 ASR 引擎以小块方式处理音频,通常在几秒钟的窗口内分析语音,然后以最小延迟输出识别的单词。该技术已取得显著进步——当代系统可以越来越准确地处理口音、技术术语和重叠语音。

说话者分离

在多方通话中,系统会识别谁在说话并相应地标记字幕。这种"说话者分离"通过显示"张三:让我们讨论一下时间表"而不是仅仅显示"让我们讨论一下时间表"来帮助参与者跟踪对话。

语言处理

在初始语音识别之后,语言模型会根据语法、标点和上下文来优化输出。这种后处理通过添加原始 ASR 输出可能遗漏的正确大写和标点来提高可读性。

实时翻译

许多平台现在提供翻译字幕,将一种语言的语音实时转录并翻译成另一种语言。一些系统,如 Google Meet 2025 年的功能,甚至提供语音配音——由合成语音与原始说话者同步提供翻译。

谁能从实时字幕中受益?

聋人和听力障碍参与者

这是主要的无障碍用例。实时字幕提供对话的视觉呈现,使聋人和听力障碍人士能够充分参与视频通话。这不仅仅是一种便利——通常也是无障碍通信的法律要求。

非母语使用者

使用第二(或第三)语言进行交流的人通常会发现同步阅读很有帮助。字幕可以增强理解,特别是对于不熟悉的词汇、语速快的说话者或浓重的口音。借助翻译字幕,参与者可以跟踪他们完全不懂的语言进行的会议。

处于嘈杂音频环境中的参与者

在嘈杂的咖啡馆、开放式办公室或音频设备不可靠的环境中的人可以通过字幕跟踪会议。这使得视频通话在仅靠音频会失败的情况下也能进行。

通过阅读更好地记忆信息的人

研究表明,许多人在同时听到和看到信息时理解和记忆效果更好。实时字幕可以提高会议参与度,并减少跟踪复杂讨论的认知负担。

平台支持

Google Meet

提供 AI 驱动的实时字幕,具有可自定义的字体大小、文本颜色和背景。2025 年 5 月,Google 推出了 AI 语音翻译(测试版)和实时语音配音——从英语-西班牙语翻译开始。转录和高级功能如"帮我做笔记"需要更高级别的 Workspace 计划。

Microsoft Teams

会议组织者可以为预定会议、网络研讨会和频道会议启用实时字幕。字幕使用 AI 自动生成。注意:翻译音频无法录制,转录只能以原始语言保存。

Zoom

提供 AI 驱动的实时转录和字幕,支持多种语言。用户可以调整字幕大小和位置。Zoom 还提供同声传译通道用于实时翻译。

准确性考量

虽然 ASR 技术已经有了显著改进,但它并不完美。了解其局限性很重要:

当前 ASR 准确率

现代 ASR 系统在理想条件下(清晰音频、常用词汇、主要语言)可达到 90-95% 的准确率。然而,准确率会在以下情况下降低:

  • 背景噪音和麦克风质量差
  • 浓重口音或不常见方言
  • 技术术语、专有名词和行业特定术语
  • 语速过快或说话者重叠
  • 训练数据有限的小语种

专业替代方案:CART

对于需要 99% 以上准确率的情况——法律程序、医疗咨询或正式的无障碍服务——计算机辅助实时转录(CART)使用人工转录员。混合解决方案将 ASR 用于初稿,人工编辑用于校正。

法律要求和合规性

组织有法律义务提供无障碍通信:

美国残疾人法案(ADA)

ADA 要求为听力障碍人士提供"有效沟通"。批准的辅助手段包括实时字幕、隐藏式字幕和相关技术。美国司法部 2024 年 4 月的最终规则将 WCAG 2.1 AA 级确立为无障碍数字内容的标准,合规期限为 2026-2027 年。

WCAG 指南

网页内容无障碍指南规定了字幕要求:

  • WCAG 1.2.2:预录视频必须包含准确、同步的字幕
  • WCAG 1.2.4:同步媒体中的直播音频必须包含字幕

重要提示:未经审核和编辑的自动生成字幕通常不符合 WCAG 标准。组织应验证准确性以确保合规。

质量标准

无障碍字幕的最佳实践要求:

  • 99% 以上准确率用于有效沟通
  • 同步:字幕与音频大约同时出现
  • 等效:内容包括说话者识别和相关声音效果
  • 可访问:便于需要者获取

自定义选项

现代平台提供广泛的自定义功能以满足个人需求:

  • 字体大小:可调整的文本大小以提高可见性
  • 文本和背景颜色:高对比度选项以提高可读性
  • 位置:选择字幕在屏幕上的显示位置
  • 字幕样式:开放式(始终可见)与隐藏式(可切换)字幕
  • 语言:选择与口语语言不同的字幕语言

实时字幕的未来

实时字幕技术持续进步:

  • AI 驱动的准确性提升:在更大数据集上训练的语言模型,具有更好的上下文理解能力
  • 通用实时翻译:无缝的多语言会议,每个人都可以用他们偏好的语言收听或阅读
  • 个性化词汇:学习公司专业术语和常用名称的系统
  • 情感语境:传达语气和强调的字幕,不仅仅是文字
  • AR 集成:在增强现实中叠加的字幕,用于现场会议

随着远程和混合办公成为常态,实时字幕正在从无障碍服务演变为一项改善每个人沟通的通用功能。

参考资料