mHC: Manifold-Constrained Hyper-Connections

2026年01月01日

Model DeepSeek

这篇论文由 DeepSeek-AI 团队发布，题为 《mHC: Manifold-Constrained Hyper-Connections》（流形约束的超连接）。

简单来说，这篇论文提出了一种新的神经网络架构设计 mHC，旨在解决大模型训练中“超连接”（Hyper-Connections, HC）带来的不稳定性和系统开销问题，在保持高性能的同时实现了训练的稳定性和可扩展性。

以下是论文的核心内容解读：

1. 背景与问题：高性能但“失控”的 HC

残差连接的演变： 现代大模型（如 Transformer）的核心基石是残差连接（Residual Connection），特别是“恒等映射”（Identity Mapping），它保证了信号在深层网络中能够无损传播，是训练深层网络的关键。
HC 的引入与缺陷： 最近的研究提出了“超连接”（HC），通过拓宽残差流（Residual Stream）的宽度并增加连接的复杂性来提升模型性能。
- 问题： 这种未加约束的 HC 破坏了原本残差连接的“恒等映射”属性。随着层数加深，信号会被无限放大或衰减，导致训练极不稳定（梯度爆炸或消失）。
- 代价： HC 还会带来巨大的显存访问开销和通信成本，阻碍了其在大规模模型上的应用。

2. 核心方法：mHC (流形约束的超连接)

为了解决上述问题，作者提出了 mHC，其核心思想是给连接矩阵加上数学约束：

流形投影（Manifold Projection）： mHC 将残差连接矩阵投影到一个特定的流形上——双随机矩阵（Doubly Stochastic Matrices）（即 Birkhoff 多胞形）。这意味着矩阵的每一行和每一列的和都必须等于 1。
算法实现： 使用 Sinkhorn-Knopp 算法对连接矩阵进行迭代归一化，使其满足双随机性质。
数学意义：
- 恢复恒等映射： 这种约束使得信号传播变成了特征的“凸组合”（Convex Combination），从而保持了特征均值的不变性。
- 范数保持： 这种矩阵的谱范数受限，有效防止了梯度爆炸，确保了深层网络的数值稳定性。

3. 系统级优化：确保高效运行

为了抵消拓宽残差流带来的计算和显存压力，论文进行了深度的系统优化：

算子融合（Kernel Fusion）： 使用 TileLang 开发了混合精度算子，减少内存访问瓶颈。
选择性重计算（Recomputing）： 针对性地丢弃部分中间激活值并在反向传播时重算，以节省显存。
通信重叠（DualPipe）： 扩展了 DualPipe 调度策略，掩盖了 mHC 带来的额外通信延迟。
结果： 在 27B 参数的模型规模下，mHC 带来的额外时间开销仅为 6.7%。

4. 实验结果

稳定性： 相比于标准的 HC，mHC 极大地平滑了训练损失曲线和梯度范数，消除了训练中期的不稳定性。
性能提升： 在 BBH、DROP、MATH 等多个下游任务评测中，mHC 的表现优于基线模型和标准 HC 模型。
可扩展性： 从 3B 到 27B 的扩展实验表明，mHC 能够支持大规模模型的稳定训练。

💡 总结与比喻

你可以把神经网络中的信号传播想象成水流在管道中流动：

标准残差连接（ResNet）： 就像一根直通的主管道，水流顺畅，不会乱跑（恒等映射）。
普通超连接（HC）： 为了让水流携带更多信息，把管道加粗并分叉成了复杂的管网。但因为没有控制，有些地方水压过大把管子撑爆了，有些地方则干涸了（数值不稳定）。
mHC（本论文的方法）： 作者给这些复杂的管网安装了这就叫“双随机”的精密阀门。这些阀门确保无论水流怎么分叉和混合，进出的总水量始终保持平衡。这样既享受了宽管道带来的大流量（高性能），又保证了管道系统的安全稳定（训练稳定性）。

留言讨论 0