虎嗅

微软MAI-Base-1的MFU ，为什么看上去仅有DeepSeek-V3的一半

2026-06-04 阅读原文

核心内容总结

这篇文章围绕微软万亿参数大模型MAI-Base-1的算力利用率（MFU）展开，核心结论是：MAI-Base-1的MFU仅20%左右，看似比DeepSeek-V3（39%~44%）低很多，但这不是微软技术“不行”，而是复杂MoE模型（混合专家模型）在不断升级过程中，系统效率被拉低后又努力追回的结果。文章还拆解了MFU差异的关键因素，并指出前沿大模型竞争本质是“算力利用效率”的比拼。

1. 先搞懂：MFU到底是啥？

MFU（模型算力利用率）是衡量“硬件理论最大计算能力，实际有多少用在训练模型上”的指标。打个比方：

你买了一台每秒能做100道数学题的超级计算器（理论峰值算力），但训练模型时，它可能只用来算20道题（MFU=20%），剩下80%要么在等数据传输，要么在处理无关杂事。

注意：MFU≠GPU利用率（GPU转不转），而是看“真正用来算模型的部分占比”，是系统整体效率的核心指标。

2. 微软MAI-Base-1的20%：不是“菜”，是复杂模型的“成长痛”

MAI-Base-1是万亿参数的MoE模型（类似一群专家分工干活，每个数据只找几个专家处理）。它从v1到v5的升级，每次加新功能都会先让MFU下降，再通过优化拉回：

v2版本：用4096颗GPU，模型更深更窄，初始MFU仅18%→优化通信/代码后拉到22%；
v3版本：换更高效的路由方式（不丢弃数据），但同步成本增加→优化后维持22%；
v4版本：专家数从192→512，路由从选4个→8个，GPU扩到8192颗→MFU掉到16%→优化内核/CPU开销拉回20%；
v5版本：参数从600B→1T，初始用ZeRO-3优化但通信变慢→换ZeRO-2+卸载激活值，维持20%。

这个20%是微软在“提升模型能力”和“维持系统效率”之间的平衡结果，不是没优化，而是MoE模型本身协调成本高。

3. DeepSeek-V3的高MFU：硬件受限下的“极致榨干”

DeepSeek-V3同样是MoE模型，但MFU能到39%（causal）或44%（non-causal），原因是：

硬件约束驱动：它用的H800 GPU（比微软GB200弱，且有出口限制），中国团队必须把硬件“榨干”——减少数据传输浪费、降低内存开销、优化代码内核，让模型结构贴合硬件；
极致优化：在模型架构、精度（BF16）、路由方式、并行策略等方面做了深度软硬件协同，不像微软只是适配平台。

简单说：硬件不如人，就靠“精细优化”把算力用得更高效。

4. 为啥MFU差这么多？关键因素拆解

MFU高低由5个核心因素决定：

模型形态：稠密模型（一个大矩阵算到底）像完整生产线，效率高；MoE模型（多个小专家）像分散小车间，协调成本高→MFU低；
GPU规模：GPU越多，数据传输/同步越复杂（像工厂越大，部门沟通越慢）→MFU易下降；
并行策略：数据/模型拆分方式决定传输速度（同一机架内快，跨机架慢）；
精度格式：FP8/BF16等精度影响速度/内存，但不同报告口径不同，不能直接比；
软件工具：用FlashAttention/Triton内核等优化工具，像工厂加自动化设备→效率提升。

5. 行业启示：模型竞争，本质是“算力利用效率”的竞争

大模型训练成本极高（比如训练一次GPT-3要上千万美元），谁能把MFU提上去，就能用更少钱、更快速度训练出更好模型。比如DeepSeek在硬件受限下靠优化赢效率，就能和用更先进硬件的微软竞争。

未来，大模型比拼的不只是“能不能回答问题”，更是“能不能把每一分算力都用在刀刃上”。

一句话总结：大模型的“卷”，已经从“比参数大小”转向“比算力用得值不值”。

（全文完）