虎嗅

¿Por qué el MFU de Microsoft MAI-Base-1 parece tener solo la mitad del tamaño del DeepSeek-V3?

原文：微软MAI-Base-1的MFU ，为什么看上去仅有DeepSeek-V3的一半

2026-06-04 阅读原文

Resumen del contenido principal

Este artículo se centra en el índice de utilización de la potencia de cálculo (MFU) del modelo de gran tamaño de Microsoft con billones de parámetros, MAI-Base-1. La conclusión principal es que el MFU de MAI-Base-1 es de solo alrededor del 20%, lo cual puede parecer mucho más bajo que el de DeepSeek-V3 (entre el 39% y el 44%). Sin embargo, esto no se debe a una deficiencia en la tecnología de Microsoft, sino a que el complejo modelo MoE (Modelo de Expertos Híbridos) está en un proceso constante de actualización, lo que conlleva a una disminución en la eficiencia del sistema, que luego se esfuerza por recuperar. El artículo también analiza los factores clave que explican las diferencias en el MFU y señala que la competencia entre los modelos de gran tamaño se trata esencialmente de quién utiliza la potencia de cálculo de manera más eficiente.

1. ¿Qué es el MFU?

El MFU (Model Compute Utilization) es un indicador que mide cuánta de la capacidad de cálculo teórica del hardware se utiliza realmente para entrenar modelos. Por ejemplo, supongamos que has comprado una calculadora superpotente capaz de resolver 100 problemas matemáticos por segundo (capacidad teórica máxima), pero al entrenar un modelo, solo puede usarla para resolver 20 problemas (MFU = 20%). El 80% restante podría estar esperando la transferencia de datos o ocupado en tareas irrelevantes. Ten en cuenta que el MFU no es lo mismo que la tasa de utilización de la GPU; se trata del porcentaje de la capacidad total del sistema dedicada al cálculo del modelo, lo que constituye un indicador clave de su eficiencia general.

2. El 20% de MAI-Base-1: no es una señal de debilidad, sino el precio que debe pagarse por los modelos complejos

MAI-Base-1 es un modelo MoE con billones de parámetros. Desde su versión v1 hasta la v5, cada actualización incorporaba nuevas funcionalidades, lo que inicialmente causaba una disminución en el MFU, para luego recuperarlo mediante optimizaciones:

Versión v2: Utilizó 4096 GPUs; el modelo se volvió más complejo y su MFU inicial fue del 18%, pero después de las optimizaciones aumentó al 22%.
Versión v3: Se cambió el método de enrutamiento para reducir la pérdida de datos, pero el costo de sincronización aumentó; sin embargo, el MFU se mantuvo en el 22% tras las optimizaciones.
Versión v4: El número de expertos aumentó de 192 a 512, y el método de enrutamiento pasó de seleccionar 4 a 8 opciones; además, se incrementaron las GPUs a 8192, lo que llevó a una disminución en el MFU al 16%, pero nuevas optimizaciones en los núcleos y la CPU recuperaron el 20%.
Versión v5: El número de parámetros aumentó de 600B a 1T; aunque las primeras optimizaciones con ZeRO-3 redujeron la eficiencia, el cambio a ZeRO-2 y la eliminación de valores de activación permitieron mantener el MFU en el 20%.

Este 20% representa el equilibrio alcanzado por Microsoft entre mejorar la capacidad del modelo y mantener la eficiencia del sistema. No se trata de una falta de optimizaciones, sino de los altos costos de coordinación inherentes al modelo MoE.

3. El alto MFU de DeepSeek-V3: el máximo aprovechamiento posible debido a las limitaciones del hardware

DeepSeek-V3 también es un modelo MoE, pero su MFU puede alcanzar el 39% (en casos causales) o el 44% (en casos no causales). La razón es la siguiente:

Restricciones de hardware: Utiliza GPUs H800, que son menos potentes que las GB200 de Microsoft, y el equipo chino tuvo que maximizar su rendimiento reduciendo la pérdida de datos en la transferencia, disminuyendo el consumo de memoria y optimizando los núcleos del código para adaptar el modelo al hardware.
Optimizaciones exhaustivas: Se realizaron mejoras profundas en la arquitectura del modelo, la precisión (BF16), los métodos de enrutamiento y las estrategias de paralelismo, a diferencia de Microsoft, que se limitó a adaptar el modelo al hardware.

En resumen, si el hardware no es tan potente, se debe recurrir a optimizaciones detalladas para utilizar la potencia de cálculo de manera más eficiente.

4. ¿Por qué hay tantas diferencias en el MFU? Análisis de los factores clave

El MFU está determinado por cinco factores principales:

Forma del modelo: Los modelos densos (que utilizan una única matriz grande para el cálculo) son más eficientes, mientras que los modelos MoE (con múltiples expertos que trabajan de manera independiente) requieren más coordinación y, por lo tanto, tienen un MFU más bajo.
Tamaño de la GPU: Cuantas más GPUs se utilicen, más compleja es la transferencia y la sincronización de datos; esto conduce a una disminución en el MFU.
Estrategias de paralelismo: La forma en que se dividen los datos y el modelo afecta la velocidad de transferencia (es más rápida dentro del mismo rack, pero más lenta entre racks).
Formato de precisión: Formatos como FP8 y BF16 influyen en la velocidad y el consumo de memoria, aunque las mediciones pueden variar según los informes.
Herramientas software: El uso de herramientas de optimización como FlashAttention y Triton aumenta la eficiencia del sistema, similar al uso de equipos automatizados en una fábrica.

5. Lecciones para la industria: la competencia entre modelos se trata de quién utiliza mejor la potencia de cálculo

El costo de entrenar modelos de gran tamaño es extremadamente alto (por ejemplo, el entrenamiento de GPT-3 puede costar decenas de millones de dólares). Aquellos que logren mejorar el MFU podrán entrenar modelos mejores con menos recursos y en menor tiempo. Como ejemplo, DeepSeek ha conseguido ser más eficiente gracias a optimizaciones, lo que le permite competir con Microsoft, que cuenta con hardware más avanzado.

En el futuro, la competencia entre los modelos de gran tamaño no se centrará únicamente en su capacidad para responder preguntas, sino también en cómo utilizar al máximo cada unidad de potencia de cálculo disponible.

En resumen: La competencia entre los modelos de gran tamaño ha pasado de comparar el número de parámetros a evaluar la eficiencia con la que se utiliza la potencia de cálculo.

(Fin del artículo)