虎嗅

**Microsoft MAI-Base-1 : Pourquoi le MFU semble-il n’être que la moitié de celui de DeepSeek-V3 ?** *(Microsoft MAI-Base-1: Why does the MFU seem to be only half of that of DeepSeek-V3?)*

原文:微软MAI-Base-1的MFU ,为什么看上去仅有DeepSeek-V3的一半

Résumé des principaux points

Cet article porte essentiellement sur le taux d’utilisation de la puissance de calcul (MFU) du modèle géant à plusieurs billions de paramètres de Microsoft, MAI-Base-1. La conclusion principale est que le MFU de MAI-Base-1 n’est que d’environ 20 %, ce qui semble beaucoup plus faible que celui de DeepSeek-V3 (39 % à 44 %). Cependant, cela ne signifie pas que la technologie de Microsoft est inférieure, mais plutôt que l’efficacité du système est affectée par le processus d’amélioration continue des modèles MoE (modèles hybrides d’experts), avant de pouvoir être de nouveau améliorée. L’article analyse également les facteurs clés expliquant ces différences dans le MFU et souligne que la compétition entre les grands modèles repose essentiellement sur l’efficacité de l’utilisation de la puissance de calcul.

1. Qu’est-ce que le MFU ?

Le MFU (Model Compute Efficiency) est un indicateur qui mesure dans quelle mesure la capacité de calcul théorique du matériel est réellement utilisée pour l’entraînement des modèles. Pour illustrer : vous achetez une supercalculatrice capable de résoudre 100 problèmes mathématiques par seconde (capacité de calcul théorique maximale), mais lors de l’entraînement d’un modèle, elle n’en utilisera peut-être que 20 (MFU = 20 %). Les 80 % restants seront consacrés à l’attente des données ou à des tâches secondaires. Il est important de noter que le MFU n’est pas équivalent au taux d’utilisation de la carte graphique (GPU) ; il s’agit plutôt du pourcentage de la puissance réellement alloué à l’entraînement du modèle, ce qui constitue un indicateur clé de l’efficacité globale du système.

2. Le MFU de 20 % de Microsoft MAI-Base-1 : pas un signe d’incompétence, mais le prix à payer pour la complexité des modèles MoE

MAI-Base-1 est un modèle MoE à plusieurs billions de paramètres, fonctionnant comme un groupe d’experts qui traitent les données de manière séparée. Lors des mises à jour de la version v1 à v5, le MFU a diminué à chaque fois avant de pouvoir être augmenté grâce à des optimisations :

  • Version v2 : 4096 cartes graphiques utilisées ; le modèle est plus complexe et moins efficace (MFU initial de 18 %) → amélioration de l’efficacité grâce à des optimisations des communications et du code, portant le MFU à 22 %.
  • Version v3 : changement de méthode de routage plus efficace (pas de perte de données) ; cependant, les coûts de synchronisation ont augmenté → maintien d’un MFU de 22 % après optimisations.
  • Version v4 : augmentation du nombre d’experts de 192 à 512, passage de 4 à 8 routes pour la distribution des données, et augmentation du nombre de cartes graphiques à 8192 → MFU tombé à 16 % → amélioration de l’efficacité grâce à des optimisations des noyaux et des coûts CPU, ramenant le MFU à 20 %.
  • Version v5 : augmentation du nombre de paramètres de 600 Go à 1 To ; premières optimisations avec ZeRO-3, mais ralentissement des communications → passage à ZeRO-2 et désactivation des valeurs d’activation pour maintenir un MFU de 20 %.

Ce taux de 20 % reflète l’équilibre entre l’amélioration des capacités du modèle et la préservation de l’efficacité du système. Il s’agit non pas d’un manque d’optimisations, mais plutôt des coûts élevés liés à la coordination des composants du modèle MoE.

3. Le haut MFU de DeepSeek-V3 : une extrême efficacité malgré les contraintes matérielles

DeepSeek-V3 est également un modèle MoE, mais son MFU peut atteindre 39 % (cas causal) ou 44 % (cas non causal). Les raisons en sont :

  • Contraintes matérielles : il utilise des cartes graphiques H800, moins puissantes que les GB200 de Microsoft, et l’équipe chinoise a dû optimiser au maximum le matériel pour réduire les pertes de données, diminuer les consommations en mémoire et adapter la structure du modèle aux capacités de l’hôte.
  • Optimisations poussées : des améliorations approfondies sur l’architecture du modèle, la précision (BF16), les méthodes de routage et les stratégies de parallélisme, contrairement à Microsoft qui s’est contenté d’adapter le modèle à l’hôte.

En somme, si le matériel est moins performant, il faut recourir à des optimisations minutieuses pour maximiser l’utilisation de la puissance de calcul.

4. Pourquoi y a-t-il une telle différence dans le MFU ?

Le MFU dépend de cinq facteurs clés :

  • Structure du modèle : les modèles densément connectés (une seule grande matrice) sont plus efficaces que ceux composés de plusieurs petits modules (modèles MoE), car ils nécessitent plus d’efforts de coordination.
  • Taille de la carte graphique : plus il y a de cartes graphiques, plus les opérations de transfert et de synchronisation sont complexes, ce qui diminue l’efficacité du modèle.
  • Stratégies de parallélisme : la manière dont les données et le modèle sont divisées influence la vitesse des transferts (plus rapide à l’intérieur d’un même rack, plus lente entre différents racks).
  • Format de précision : les formats de précision tels que FP8 ou BF16 ont un impact sur la vitesse et la consommation en mémoire ; cependant, les données fournies dans les rapports peuvent varier, rendant les comparaisons difficiles.
  • Outils logiciels : l’utilisation d’outils d’optimisation tels que FlashAttention ou Triton permet d’améliorer encore davantage l’efficacité du modèle.

5. Enseignements pour l’industrie

La compétition entre les grands modèles repose essentiellement sur l’efficacité de l’utilisation de la puissance de calcul. Le coût d’entraînement des grands modèles est extrêmement élevé (par exemple, l’entraînement de GPT-3 peut coûter des millions de dollars). Celui qui parvient à augmenter le MFU pourra ainsi entraîner des modèles plus performants avec moins de ressources et en moins de temps. DeepSeek, par exemple, a réussi à rivaliser avec Microsoft grâce à des optimisations efficaces malgré des contraintes matérielles. À l’avenir, la compétition ne se concentrera pas seulement sur la capacité des modèles à répondre aux questions, mais aussi sur leur capacité à utiliser au mieux chaque unité de puissance disponible.

En résumé : La course aux grands modèles évolue désormais vers une comparaison de l’efficacité avec laquelle la puissance de calcul est utilisée, plutôt que simplement du nombre de paramètres. (Fin de l’article.)