虎嗅

**マイクロソフトのMAI-Base-1におけるMFU:なぜDeepSeek-V3の半分しか見えないのか?** (Microsoft’s MAI-Base-1 and MFU: Why does it seem to have only half the capacity of DeepSeek-V3?)

原文:微软MAI-Base-1的MFU ,为什么看上去仅有DeepSeek-V3的一半

核要のまとめ

この記事は、マイクロソフトが開発したトリリオンパラメータを持つ大規模モデル「MAI-Base-1」の計算能力利用率(MFU)に焦点を当てています。主な結論として、「MAI-Base-1のMFUは約20%に過ぎず、DeepSeek-V3(39%~44%)よりも大幅に低いように見えるが、これはマイクロソフトの技術力が劣っているからではなく、複雑なMoE(混合専門家モデル)がアップグレードされる過程でシステム効率が低下した後、再びそれを回復しようと努力している結果だ」と述べています。また、MFUの差異に影響を与える主要な要因を分析し、最先端の大規模モデル間の競争の本質は「計算能力の利用効率」であると指摘しています。

1. MFUとは何か?

MFU(Model Compute Efficiency)とは、「ハードウェアが持つ理論上の最大計算能力のうち、実際にモデル訓練にどれだけが使用されているか」を測る指標です。例えば、1秒間に100問の数学問題を解くことができるスーパーコンピュータを購入したとしても、モデル訓練時にはそのうち20問しか使用されず(MFU=20%)、残りの80%はデータ転送や無関係な処理に費やされてしまいます。

注意:MFUはGPUの利用率とは異なり、モデル計算に実際に使用される部分の割合を示すものであり、システム全体の効率を評価する重要な指標です。

2. マイクロソフトMAI-Base-1の20%:「劣っている」わけではなく、複雑なモデルの成長過程での課題

MAI-Base-1はトリリオンパラメータを持つMoEモデルであり、複数の専門家が協力して処理を行う仕組みです。v1からv5へのアップグレード過程で、新機能の追加によりMFUは一時的に低下しましたが、その後の最適化によって効率を回復しています:

  • v2バージョン:4096個のGPUを使用し、モデルの構造がより複雑になったためMFUは18%だったが、通信やコードの最適化により22%に向上。
  • v3バージョン:より効率的なデータ転送方法を採用したが、同期処理のコストが増加したためMFUは22%で維持。
  • v4バージョン:専門家の数を192から512に増やし、データ転送方法を改善したが、GPUを8192個に拡張したためMFUは16%に低下した。その後の最適化により20%に回復。
  • v5バージョン:パラメータ量を600Bから1Tに増やしたが、通信速度が遅くなったためZeRO-3を使用して最適化し、その後ZeRO-2を採用してMFUを20%に維持。

この20%という数値は、モデルの能力向上とシステム効率のバランスの結果であり、最適化が行われていないわけではなく、MoEモデル自体の調整コストが高いためです。

3. DeepSeek-V3の高いMFU:ハードウェアの制約の中での「極限までの効率化**

DeepSeek-V3もMoEモデルですが、MFUは39%(causal)や44%(non-causal)に達しています。その理由は:

  • ハードウェアの制約:使用されているH800 GPUはマイクロソフトのGB200よりも性能が劣り、データ転送の無駄を減らし、メモリ使用量を抑え、モデル構造をハードウェアに最適化することで効率を上げている。
  • 徹底的な最適化:モデルアーキテクチャ、精度(BF16)、データ転送方法、並列処理戦略などの面でハードウェアとソフトウェアを高度に統合している。

簡単に言えば、ハードウェアが劣っている場合は「精緻な最適化」によって計算能力を効率的に活用するのだ。

4. MFUの差異の原因

MFUの高低は5つの主要な要因によって決まります:

  • モデルの構造:密なモデル(大きな行列を一度に計算する)は効率が高いが、MoEモデル(複数の専門家が分散して処理する)は調整コストが高くなるためMFUが低い。
  • GPUの規模:GPUの数が多いほどデータ転送や同期処理が複雑になり、MFUが低下しやすい。
  • 並列処理戦略:データやモデルの分割方法によって転送速度が変わる(同じラック内では速いが、異なるラック間では遅くなる)。
  • 精度形式:FP8やBF16などの精度は速度やメモリ使用量に影響するが、報告方法によって比較が難しい。
  • ソフトウェアツール:FlashAttentionやTritonコアなどの最適化ツールを使用することで効率を向上させる。

5. 業界への示唆:モデル競争の本質は「計算能力の利用効率」

大規模モデルの訓練コストは非常に高く(例えばGPT-3の訓練には数千万ドルかかる)、MFUを高めることができれば、より少ないコストでより迅速に優れたモデルを開発できる。DeepSeekはハードウェアの制約下でも最適化によって効率を上げ、より高性能なハードウェアを使用するマイクロソフトと競争できている。

将来的には、大規模モデルの競争は「問題を解決できるかどうか」だけでなく、「計算能力を最大限に活用できるか」が鍵となる。

結論:大規模モデルの競争は、「パラメータ量の多さ」から「計算能力の有効利用」へと移行している。

(全文終わり)