MCU（多点控制单元）

什么是 MCU？

多点控制单元（Multipoint Control Unit，简称 MCU）是一种集中式视频会议架构，它接收所有参与者的独立流，解码它们，混合成单个合成流，然后将统一的流发送回每个参与者。可以把它想象成服务器中的视频制作工作室——它接收多个摄像机信号并创建一个专业混合的输出。

与简单转发流的 SFU 或直接连接参与者的 P2P 不同，MCU 主动处理视频和音频。它解码每个传入流，将它们组合成单个布局（如显示所有参与者的网格视图），重新编码合成流，然后分发给每个人。

这是传统的企业视频会议方法，在 SFU 占主导地位之前，曾被 Cisco TelePresence 和 Polycom 等系统广泛使用。截至 2025 年，MCU 在一般视频通话中不太常见，但在其独特特性提供优势的特定场景中仍在使用。

MCU 工作原理：分步详解

1. 流上传

每个参与者连接到 MCU 并上传一次视频和音频流。与 SFU 类似，参与者只需将流发送到一个目的地，最小化上传带宽需求。

2. 流解码

MCU 接收所有传入流并完全解码它们。每个视频从其编码格式（H.264、VP8 等）解压缩成原始视频帧。每个音频流解码为 PCM（未压缩音频）。这在计算上非常昂贵——服务器必须同时解码每个参与者的流。

3. 混合和合成

这就是魔法发生的地方。MCU 将所有解码的流组合成单个输出：

视频混合：创建一个布局，将所有参与者排列在图块、网格或活跃说话者视图中。调整每个视频源的大小并在合成画面中定位
音频混合：组合所有音频流，应用增益控制以防止削波，消除回声，并平衡音量级别
布局定制：可以根据参与者的偏好或带宽为不同参与者创建不同的布局

4. 重新编码

MCU 将混合的合成流编码成单个视频流。服务器可以根据每个参与者的可用带宽优化编码质量和比特率——网络慢的人会获得相同合成流的低比特率版本。

5. 分发

最后，MCU 将单个合成流发送给每个参与者。每个参与者接收一个包含会议中所有人的视频流，而不是像 SFU 那样接收多个独立流。

主要优势

保证参与者的带宽节省

无论会议中有多少人，每个参与者只下载一个流。在 50 人会议中，你下载的数据量与 5 人会议相同。这对于连接有限或按流量计费的参与者来说非常宝贵。

客户端要求最低

由于服务器处理所有混合，客户端只接收一个流，即使是性能很低的设备也能参与大型会议。旧电脑、基本智能手机或只能解码单个流的硬件视频会议终端在 MCU 中都能完美工作。

体验一致

每个人看到完全相同的布局（除非定制）。谁看到什么没有差异——服务器创建统一的视图。这对于录制会议或法律程序特别有价值，一致性很重要。

易于录制

由于 MCU 已经创建了完整的合成流，录制非常简单——只需保存输出流。不需要像 SFU 那样进行复杂的服务器端合成。

卓越的音频混合

MCU 可以应用专业的音频处理：自动增益控制、跨所有参与者的回声消除、降噪，以及智能混合，即使许多人同时说话也能防止音频失真。

重大缺点

服务器成本极高

这是 MCU 最大的问题。解码和编码视频需要大量 CPU。单个 MCU 服务器在 CPU 达到上限之前可能只能处理 20-30 个高清参与者，而 SFU 可以处理数百个。相同参与者数量下，服务器基础设施成本通常是 SFU 的 10 倍。

增加延迟

解码-混合-编码过程与 SFU 的约 50 毫秒相比增加了 100-300 毫秒的额外延迟。对于自然的对话流程，这种延迟很明显。视频会议感觉不那么实时，更像是广播。

质量损失

每次解码/编码循环都会略微降低质量。合成输出永远不如接收原始流那么清晰。快速运动或详细内容会受到重新编码引入的压缩失真的影响。

灵活性有限

每个人接收相同的合成流（或少数几个变体）。参与者不能像 SFU 那样单独选择要关注的说话者或自由重新排列布局。

可扩展性挑战

增加参与者会呈指数级增加服务器负载。参与者数量翻倍需要的 CPU 不止翻倍——服务器必须解码更多流，并创建更大、更复杂的合成流。

何时使用 MCU

尽管在 2025 年不那么常见，MCU 仍然适用于：

大型网络研讨会或广播：当数百或数千名观众加入时，下载一个流比下载多个流更好
遗留硬件兼容性：无法处理多个流的旧视频会议终端
客户端带宽严重受限：网络非常慢的偏远地区，下载 2-3 个流都不可能
专业录制要求：当需要完美同步、专业混合的录制时
保证平等体验：法律证词、官方程序，每个人必须看到相同内容
性能极低的设备：物联网设备、嵌入式系统或任何勉强能解码一个流的设备

MCU vs SFU vs P2P

理解权衡：

P2P：最适合 1-4 个参与者。零服务器成本，最高隐私，最低延迟。不可扩展
SFU：最适合 5-100+ 个参与者。中等服务器成本，良好质量，行业标准。客户端需要更多带宽
MCU：最适合遗留系统或极端客户端带宽约束。高服务器成本，增加延迟，保证客户端带宽节省

混合方法

一些现代平台使用混合 MCU/SFU 架构：

活跃参与者接收 SFU 流以获得低延迟和高质量
被动观众（如网络研讨会中）接收 MCU 混合的合成流以节省带宽
移动客户端可能接收 MCU 合成流，而桌面用户获得 SFU 流

这提供了两全其美的效果：互动参与者获得 SFU 的质量和低延迟，而大量观众受益于 MCU 的带宽效率。

为什么 SFU 获胜

从 20 世纪 90 年代到 21 世纪 10 年代初，MCU 是企业视频会议的主导架构。但三个因素使行业转向 SFU：

网速提高：客户端下载带宽增加到足以接收多个流
移动设备性能提升：智能手机现在可以同时解码 4-6 个流，消除了 MCU 在客户端的优势
云经济：CPU 成本保持高位而带宽成本下降，使 SFU 的带宽换 CPU 的权衡在经济上更优

在 2025 年，MCU 主要存在于小众用例或作为混合架构的一部分。对于大多数视频通话应用，SFU 提供更好的经济性和用户体验。

总结

MCU 代表传统的集中式视频会议方法：最大的服务器处理以换取最小的客户端要求。虽然其高成本和增加的延迟使其在现代应用中不太常见，但在客户端带宽严重受限或需要遗留硬件兼容性的场景中，它仍然表现出色。

理解 MCU 有助于你理解为什么 SFU 成为行业标准——并认识到 MCU 的权衡在哪些特定情况下仍然有意义。

参考资料

多点控制单元（MCU）架构 - Stream
多点控制单元（MCU）及其在视频会议中的作用 - DigitalSamba
什么是视频会议的 MCU（多点控制单元）？ - TrueConf
P2P、SFU 和 MCU - WebRTC 架构详解 - DigitalSamba
多点会议单元（MCU） - Flashphoner