videocalling
MCU(多点控制单元)

MCU(多点控制单元)

架构

将所有流混合成单个合成流的服务器

什么是 MCU?

多点控制单元(Multipoint Control Unit,简称 MCU)是一种集中式视频会议架构,它接收所有参与者的独立流,解码它们,混合成单个合成流,然后将统一的流发送回每个参与者。可以把它想象成服务器中的视频制作工作室——它接收多个摄像机信号并创建一个专业混合的输出。

与简单转发流的 SFU 或直接连接参与者的 P2P 不同,MCU 主动处理视频和音频。它解码每个传入流,将它们组合成单个布局(如显示所有参与者的网格视图),重新编码合成流,然后分发给每个人。

这是传统的企业视频会议方法,在 SFU 占主导地位之前,曾被 Cisco TelePresence 和 Polycom 等系统广泛使用。截至 2025 年,MCU 在一般视频通话中不太常见,但在其独特特性提供优势的特定场景中仍在使用。

MCU 工作原理:分步详解

1. 流上传

每个参与者连接到 MCU 并上传一次视频和音频流。与 SFU 类似,参与者只需将流发送到一个目的地,最小化上传带宽需求。

2. 流解码

MCU 接收所有传入流并完全解码它们。每个视频从其编码格式(H.264、VP8 等)解压缩成原始视频帧。每个音频流解码为 PCM(未压缩音频)。这在计算上非常昂贵——服务器必须同时解码每个参与者的流。

3. 混合和合成

这就是魔法发生的地方。MCU 将所有解码的流组合成单个输出:

  • 视频混合:创建一个布局,将所有参与者排列在图块、网格或活跃说话者视图中。调整每个视频源的大小并在合成画面中定位
  • 音频混合:组合所有音频流,应用增益控制以防止削波,消除回声,并平衡音量级别
  • 布局定制:可以根据参与者的偏好或带宽为不同参与者创建不同的布局

4. 重新编码

MCU 将混合的合成流编码成单个视频流。服务器可以根据每个参与者的可用带宽优化编码质量和比特率——网络慢的人会获得相同合成流的低比特率版本。

5. 分发

最后,MCU 将单个合成流发送给每个参与者。每个参与者接收一个包含会议中所有人的视频流,而不是像 SFU 那样接收多个独立流。

主要优势

保证参与者的带宽节省

无论会议中有多少人,每个参与者只下载一个流。在 50 人会议中,你下载的数据量与 5 人会议相同。这对于连接有限或按流量计费的参与者来说非常宝贵。

客户端要求最低

由于服务器处理所有混合,客户端只接收一个流,即使是性能很低的设备也能参与大型会议。旧电脑、基本智能手机或只能解码单个流的硬件视频会议终端在 MCU 中都能完美工作。

体验一致

每个人看到完全相同的布局(除非定制)。谁看到什么没有差异——服务器创建统一的视图。这对于录制会议或法律程序特别有价值,一致性很重要。

易于录制

由于 MCU 已经创建了完整的合成流,录制非常简单——只需保存输出流。不需要像 SFU 那样进行复杂的服务器端合成。

卓越的音频混合

MCU 可以应用专业的音频处理:自动增益控制、跨所有参与者的回声消除、降噪,以及智能混合,即使许多人同时说话也能防止音频失真。

重大缺点

服务器成本极高

这是 MCU 最大的问题。解码和编码视频需要大量 CPU。单个 MCU 服务器在 CPU 达到上限之前可能只能处理 20-30 个高清参与者,而 SFU 可以处理数百个。相同参与者数量下,服务器基础设施成本通常是 SFU 的 10 倍。

增加延迟

解码-混合-编码过程与 SFU 的约 50 毫秒相比增加了 100-300 毫秒的额外延迟。对于自然的对话流程,这种延迟很明显。视频会议感觉不那么实时,更像是广播。

质量损失

每次解码/编码循环都会略微降低质量。合成输出永远不如接收原始流那么清晰。快速运动或详细内容会受到重新编码引入的压缩失真的影响。

灵活性有限

每个人接收相同的合成流(或少数几个变体)。参与者不能像 SFU 那样单独选择要关注的说话者或自由重新排列布局。

可扩展性挑战

增加参与者会呈指数级增加服务器负载。参与者数量翻倍需要的 CPU 不止翻倍——服务器必须解码更多流,并创建更大、更复杂的合成流。

何时使用 MCU

尽管在 2025 年不那么常见,MCU 仍然适用于:

  • 大型网络研讨会或广播:当数百或数千名观众加入时,下载一个流比下载多个流更好
  • 遗留硬件兼容性:无法处理多个流的旧视频会议终端
  • 客户端带宽严重受限:网络非常慢的偏远地区,下载 2-3 个流都不可能
  • 专业录制要求:当需要完美同步、专业混合的录制时
  • 保证平等体验:法律证词、官方程序,每个人必须看到相同内容
  • 性能极低的设备:物联网设备、嵌入式系统或任何勉强能解码一个流的设备

MCU vs SFU vs P2P

理解权衡:

  • P2P:最适合 1-4 个参与者。零服务器成本,最高隐私,最低延迟。不可扩展
  • SFU:最适合 5-100+ 个参与者。中等服务器成本,良好质量,行业标准。客户端需要更多带宽
  • MCU:最适合遗留系统或极端客户端带宽约束。高服务器成本,增加延迟,保证客户端带宽节省

混合方法

一些现代平台使用混合 MCU/SFU 架构:

  • 活跃参与者接收 SFU 流以获得低延迟和高质量
  • 被动观众(如网络研讨会中)接收 MCU 混合的合成流以节省带宽
  • 移动客户端可能接收 MCU 合成流,而桌面用户获得 SFU 流

这提供了两全其美的效果:互动参与者获得 SFU 的质量和低延迟,而大量观众受益于 MCU 的带宽效率。

为什么 SFU 获胜

从 20 世纪 90 年代到 21 世纪 10 年代初,MCU 是企业视频会议的主导架构。但三个因素使行业转向 SFU:

  1. 网速提高:客户端下载带宽增加到足以接收多个流
  2. 移动设备性能提升:智能手机现在可以同时解码 4-6 个流,消除了 MCU 在客户端的优势
  3. 云经济:CPU 成本保持高位而带宽成本下降,使 SFU 的带宽换 CPU 的权衡在经济上更优

在 2025 年,MCU 主要存在于小众用例或作为混合架构的一部分。对于大多数视频通话应用,SFU 提供更好的经济性和用户体验。

总结

MCU 代表传统的集中式视频会议方法:最大的服务器处理以换取最小的客户端要求。虽然其高成本和增加的延迟使其在现代应用中不太常见,但在客户端带宽严重受限或需要遗留硬件兼容性的场景中,它仍然表现出色。

理解 MCU 有助于你理解为什么 SFU 成为行业标准——并认识到 MCU 的权衡在哪些特定情况下仍然有意义。

参考资料