虎嗅

Microsofts MAI-Base-1: Warum sieht der MFU nur halb so aus wie der DeepSeek-V3? Dieser Titel beschreibt eine Untersuchung zu den Leistungsmerkmalen von Microsofts neuem Algorithmus MAI-Base-1 im Vergleich zum bekannten DeepSeek-V3. Er richtet sich an Leser, die sich mit Künstlichen Intelligenzen und Algorithmen in der Finanzbranche beschäftigen.

原文：微软MAI-Base-1的MFU ，为什么看上去仅有DeepSeek-V3的一半

2026-06-04 阅读原文

Zusammenfassung der Kerninhalte

Dieser Artikel befasst sich mit der Auslastungsrate der Rechenleistung (MFU – Model Compute Utilization) des riesigen Modells MAI-Base-1 von Microsoft. Die Schlussfolgerung lautet: Obwohl die MFU von MAI-Base-1 nur bei etwa 20% liegt und damit deutlich niedriger ist als die von DeepSeek-V3 (39 %–44 %), liegt das nicht an mangelnder Technologiekompetenz von Microsoft, sondern daran, dass die Systemeffizienz durch die kontinuierliche Weiterentwicklung des komplexen MoE-Modells (Mixed Expert Model) zunächst gesunken ist und anschließend wieder verbessert werden musste. Der Artikel analysiert die entscheidenden Faktoren für diese Unterschiede in der MFU und weist darauf hin, dass der Wettbewerb zwischen den aktuellen Großmodellen im Wesentlichen auf der Effizienz der Rechenleistungsauslastung basiert.

1. Was ist eigentlich die MFU?

Die MFU (Model Compute Utilization) gibt an, wie viel von der theoretischen maximalen Rechenleistung des Hardwareausstattungsgegenstands tatsächlich für das Training des Modells genutzt wird. Um es zu veranschaulichen: Stellen Sie sich vor, Sie kaufen einen Supercomputer, der pro Sekunde 100 Mathematikaufgaben lösen kann (theoretische Spitzenleistung), aber beim Modelltraining wird nur eine Menge von etwa 20 Aufgaben bearbeitet (MFU = 20 %). Der Rest der Rechenleistung wird entweder für die Datenübertragung oder für andere, unzureichend relevante Aufgaben verwendet.

Hinweis: MFU ist nicht gleichbedeutend mit der Auslastungsrate des GPUs – es geht vielmehr um den Anteil der Rechenleistung, der tatsächlich für das Modelltraining genutzt wird, und somit um einen zentralen Indikator für die Gesamteffizienz des Systems.

2. Microsofts MAI-Base-1 mit 20 %: kein Zeichen von Schwäche, sondern ein „Wachstumsproblem“ komplexer Modelle

MAI-Base-1 ist ein MoE-Modell mit Billionen von Parametern, das auf der Arbeit mehrerer „Experten“ basiert (jeder Experte kümmert sich um bestimmte Aspekte des Datensatzes). Bei den Upgrades von Version v1 bis v5 sank die MFU jeweils anfangs, bevor sie durch Optimierungen wieder erhöht werden konnte:

Version v2: Mit 4096 GPUs; das Modell wurde tiefer und enger strukturiert – die MFU fiel auf 18 %, stieg jedoch nach Optimierungen der Kommunikations- und Codeabläufe auf 22 %.
Version v3: Durch den Wechsel zu effizienteren Datenübertragungsmethoden blieb die MFU bei 22 %.
Version v4: Die Anzahl der „Experten“ stieg von 192 auf 512; die Anzahl der zu verwendenden Routen erhöhte sich von 4 auf 8; die Anzahl der GPUs wurde auf 8192 erhöht – die MFU fiel auf 16 %, verbesserte sich jedoch durch Optimierungen der Kern- und CPU-Auslastung wieder auf 20 %.
Version v5: Die Anzahl der Parameter stieg von 600 Milliarden auf 1 Billion; obwohl erste Optimierungen (ZeRO-3) zu Verzögerungen bei der Datenübertragung führten, konnte die MFU durch den Wechsel zu ZeRO-2 und dem Entladen von Aktivierungswerten wieder auf 20 % erhöht werden.

Diese 20-%-Werte sind das Ergebnis eines Balancierens zwischen der Steigerung der Modelleffizienz und der Aufrechterhaltung einer hohen Systemeffizienz – es handelt sich nicht um mangelnde Optimierungen, sondern um die hohen Koordinierungskosten des MoE-Modells.

3. DeepSeek-V3 mit hoher MFU: „Extreme Effizienz unter Hardwarebeschränkungen“

Auch DeepSeek-V3 ist ein MoE-Modell, dessen MFU bei 39 % (kausal) bzw. 44 % (non-causal) liegt. Der Grund dafür ist:

Hardwarebedingungen: DeepSeek verwendet H800-GPUs, die schwächer sind als Microsofts GB200-GPUs; das chinesische Entwicklerteam musste die Hardwareleistung so weit wie möglich ausnutzen, indem es Datenübertragungsverluste reduzierte, den Speicherverbrauch verringerte und den Code optimierte, um die Modellstruktur an die Hardware anzupassen.
Ausgeklügelte Optimierungen: Es wurden tiefgreifende Anpassungen in der Modellarchitektur, der Genauigkeit (BF16), den Datenübertragungsmethoden und den parallelen Berechnungsstrategien vorgenommen – im Gegensatz zu Microsoft, das sich lediglich an die vorhandene Hardware anpasste.

Kurz gesagt: Da die Hardware nicht auf dem neuesten Stand ist, wird durch detaillierte Optimierungen die Rechenleistung effizienter genutzt.

4. Warum gibt es solche Unterschiede in der MFU?

Die MFU hängt von fünf entscheidenden Faktoren ab:

Modellarchitektur: Dichte Modelle (eine große Matrix, die durchgängig berechnet wird) sind effizienter als komplexe MoE-Modelle mit vielen kleinen „Experten“, da die Koordinierungskosten höher sind.
GPU-Ausstattung: Je mehr GPUs vorhanden sind, desto komplizierter ist die Datenübertragung – dies führt zu einer sinkenden MFU.
Paralleles Rechnen: Die Art und Weise, wie Daten und Modelle verteilt werden, beeinflusst die Übertragungsgeschwindigkeit (innerhalb eines Racks schneller als zwischen verschiedenen Racks).
Genauigkeitsformat: Genauigkeitsformate wie FP8 oder BF16 haben Auswirkungen auf die Rechenleistung und den Speicherverbrauch; jedoch variieren die Angaben in verschiedenen Berichten, wodurch direkte Vergleiche schwierig sind.
Softwarewerkzeuge: Die Verwendung von Optimierungstools wie FlashAttention oder Triton verbessert die Effizienz des Rechenprozesses.

5. Implikationen für den Branchenwettbewerb: Der Wettbewerb um Großmodelle dreht sich um die Effizienz der Rechenleistungsauslastung

Die Kosten für das Training großer Modelle sind extrem hoch (zum Beispiel kostet das Trainieren von GPT-3 Millionen von Dollar). Wer es schafft, die MFU zu erhöhen, kann damit weniger Ressourcen und in kürzerer Zeit bessere Modelle entwickeln. DeepSeek hat beispielsweise unter Hardwarebeschränkungen durch Optimierungen eine höhere Effizienz erreicht und kann so mit Microsoft konkurrieren, das über fortschrittlichere Hardware verfügt.

In Zukunft wird der Wettbewerb um Großmodelle nicht nur darum gehen, ob sie Fragen beantworten können, sondern auch darum, ob jede Einheit Rechenleistung effektiv eingesetzt wird.

Zusammenfassung: Der Wettbewerb um Großmodelle hat sich von einem Vergleich der Parametergrößen auf einen Vergleich der Effizienz der Rechenleistungsauslastung verlagert.

(Das ist der vollständige Inhalt des Artikels.)