虎嗅

マイクロソフトのMAI-Base-1におけるMFU：なぜDeepSeek-V3の半分しか見えないのか？（Microsoft’s MAI-Base-1 and MFU: Why does it seem to have only half the capacity of DeepSeek-V3?）

原文：微软MAI-Base-1的MFU ，为什么看上去仅有DeepSeek-V3的一半

2026-06-04 阅读原文

核要のまとめ

この記事は、マイクロソフトが開発したトリリオンパラメータを持つ大規模モデル「MAI-Base-1」の計算能力利用率（MFU）に焦点を当てています。主な結論として、「MAI-Base-1のMFUは約20％に過ぎず、DeepSeek-V3（39％～44％）よりも大幅に低いように見えるが、これはマイクロソフトの技術力が劣っているからではなく、複雑なMoE（混合専門家モデル）がアップグレードされる過程でシステム効率が低下した後、再びそれを回復しようと努力している結果だ」と述べています。また、MFUの差異に影響を与える主要な要因を分析し、最先端の大規模モデル間の競争の本質は「計算能力の利用効率」であると指摘しています。

1. MFUとは何か？

MFU（Model Compute Efficiency）とは、「ハードウェアが持つ理論上の最大計算能力のうち、実際にモデル訓練にどれだけが使用されているか」を測る指標です。例えば、1秒間に100問の数学問題を解くことができるスーパーコンピュータを購入したとしても、モデル訓練時にはそのうち20問しか使用されず（MFU=20％）、残りの80％はデータ転送や無関係な処理に費やされてしまいます。

注意：MFUはGPUの利用率とは異なり、モデル計算に実際に使用される部分の割合を示すものであり、システム全体の効率を評価する重要な指標です。

2. マイクロソフトMAI-Base-1の20％：「劣っている」わけではなく、複雑なモデルの成長過程での課題

MAI-Base-1はトリリオンパラメータを持つMoEモデルであり、複数の専門家が協力して処理を行う仕組みです。v1からv5へのアップグレード過程で、新機能の追加によりMFUは一時的に低下しましたが、その後の最適化によって効率を回復しています：

v2バージョン：4096個のGPUを使用し、モデルの構造がより複雑になったためMFUは18％だったが、通信やコードの最適化により22％に向上。
v3バージョン：より効率的なデータ転送方法を採用したが、同期処理のコストが増加したためMFUは22％で維持。
v4バージョン：専門家の数を192から512に増やし、データ転送方法を改善したが、GPUを8192個に拡張したためMFUは16％に低下した。その後の最適化により20％に回復。
v5バージョン：パラメータ量を600Bから1Tに増やしたが、通信速度が遅くなったためZeRO-3を使用して最適化し、その後ZeRO-2を採用してMFUを20％に維持。

この20％という数値は、モデルの能力向上とシステム効率のバランスの結果であり、最適化が行われていないわけではなく、MoEモデル自体の調整コストが高いためです。

3. DeepSeek-V3の高いMFU：ハードウェアの制約の中での「極限までの効率化**

DeepSeek-V3もMoEモデルですが、MFUは39％（causal）や44％（non-causal）に達しています。その理由は：

ハードウェアの制約：使用されているH800 GPUはマイクロソフトのGB200よりも性能が劣り、データ転送の無駄を減らし、メモリ使用量を抑え、モデル構造をハードウェアに最適化することで効率を上げている。
徹底的な最適化：モデルアーキテクチャ、精度（BF16）、データ転送方法、並列処理戦略などの面でハードウェアとソフトウェアを高度に統合している。

簡単に言えば、ハードウェアが劣っている場合は「精緻な最適化」によって計算能力を効率的に活用するのだ。

4. MFUの差異の原因

MFUの高低は5つの主要な要因によって決まります：

モデルの構造：密なモデル（大きな行列を一度に計算する）は効率が高いが、MoEモデル（複数の専門家が分散して処理する）は調整コストが高くなるためMFUが低い。
GPUの規模：GPUの数が多いほどデータ転送や同期処理が複雑になり、MFUが低下しやすい。
並列処理戦略：データやモデルの分割方法によって転送速度が変わる（同じラック内では速いが、異なるラック間では遅くなる）。
精度形式：FP8やBF16などの精度は速度やメモリ使用量に影響するが、報告方法によって比較が難しい。
ソフトウェアツール：FlashAttentionやTritonコアなどの最適化ツールを使用することで効率を向上させる。

5. 業界への示唆：モデル競争の本質は「計算能力の利用効率」

大規模モデルの訓練コストは非常に高く（例えばGPT-3の訓練には数千万ドルかかる）、MFUを高めることができれば、より少ないコストでより迅速に優れたモデルを開発できる。DeepSeekはハードウェアの制約下でも最適化によって効率を上げ、より高性能なハードウェアを使用するマイクロソフトと競争できている。

将来的には、大規模モデルの競争は「問題を解決できるかどうか」だけでなく、「計算能力を最大限に活用できるか」が鍵となる。

結論：大規模モデルの競争は、「パラメータ量の多さ」から「計算能力の有効利用」へと移行している。

（全文終わり）