虎嗅

Почему MFU в проекте Microsoft MAI-Base-1 выглядит всего лишь половиной по размерам по сравнению с DeepSeek-V3?

原文:微软MAI-Base-1的MFU ,为什么看上去仅有DeepSeek-V3的一半

Краткое содержание статьи

Статья посвящена анализу эффективности использования вычислительных ресурсов в масштабных моделях Microsoft, в частности в модели MAI-Base-1 с триллионами параметров. Основной вывод заключается в следующем: хотя уровень эффективности использования ресурсов (MFU) модели MAI-Base-1 составляет всего около 20% (что кажется низким по сравнению с 39–44% в модели DeepSeek-V3), это не свидетельствует о недостатках технологий Microsoft, а скорее является результатом сложных процессов оптимизации в рамках использования гибридных экспертных моделей (MoE). В статье также рассматриваются ключевые факторы, влияющие на различия в показателях MFU, и подчеркивается, что суть конкуренции между крупными моделями заключается в эффективности использования вычислительных ресурсов.

1. Что такое MFU?

MFU (Model Compute Efficiency) — это показатель, отражающий процент теоретической мощности оборудования, который фактически используется для тренировки модели. Например, если вы приобрели суперкомпьютер, способный решать 100 математических задач в секунду, но при тренировке модели он может использовать только 20 из них (MFU = 20%), а оставшиеся 80% ресурсов тратятся на передачу данных или выполнение других задач. Следует отметить, что MFU не равно уровню использования возможностей GPU; это ключевой показатель общей эффективности системы.

2. Уровень эффективности Microsoft MAI-Base-1 в 20%: не признак слабости модели, а следствие особенностей ее архитектуры

MAI-Base-1 представляет собой гибридную экспертную модель (MoE), в которой для обработки данных задействовано несколько алгоритмов. В процессе улучшения версий модели (v1–v5) показатель MFU сначала снижался, но затем вновь повышался благодаря оптимизациям:

  • Версия v2: использование 4096 GPU; начальный уровень эффективности — 18%; после оптимизации коммуникаций и кода показатель повышен до 22%.
  • Версия v3: изменение способов передачи данных; после дополнительных оптимизаций уровень эффективности остался на уровне 22%.
  • Версия v4: увеличение количества алгоритмов до 512; изменение способов выбора оптимальных вариантов обработки данных с 4 до 8; увеличение числа GPU до 8192; показатель MFU снизился до 16%, но после дополнительных оптимизаций восстановлен до 20%.

Этот уровень эффективности является результатом баланса между повышением производительности модели и поддержанием ее стабильной работы.

3. Высокий уровень эффективности DeepSeek-V3: результат интенсивных оптимизаций

DeepSeek-V3 также является гибридной экспертной моделью, но ее показатель MFU достигает 39% (для случаев с причинно-следственными связями в данных) или 44% (для случаев без таких связей). Причины этого заключаются в следующем:

  • Ограничения оборудования: модель использует GPU типа H800, менее мощные по сравнению с GPU Microsoft GB200; китайская команда разработчиков пришлась настойчиво оптимизировать алгоритмы для максимального использования ресурсов (сокращение потерь при передаче данных, уменьшение затрат на память, адаптация архитектуры модели под характеристики оборудования).
  • Интенсивные инженерные решения: были проведены глубокие оптимизации в области архитектуры модели, формата точности вычислений (BF16), способов передачи данных и стратегий параллельной обработки.

4. Ключевые факторы, влияющие на показатель MFU

Уровень эффективности использования ресурсов определяется пятью основными факторами:

  • Архитектура модели: более компактные модели (с использованием одной большой матрицы для обработки данных) обладают высокой эффективностью; гибридные экспертные модели требуют дополнительных усилий для координации работы различных алгоритмов, что снижает показатель MFU.
  • Количество GPU: чем больше GPU, тем сложнее процесс передачи и синхронизации данных; это приводит к снижению эффективности модели.
  • Стратегии параллельной обработки: способ разделения данных и модели влияет на скорость передачи информации между компонентами системы.
  • Форматы представления данных: используемые форматы точности (FP8, BF16) влияют на производительность и потребление памяти; однако разные исследования могут использовать разные критерии для оценки эффективности.
  • Инструменты программного обеспечения: использование оптимизированных инструментов (например, FlashAttention, Triton) повышает эффективность работы модели.

5. Значение результатов для индустрии

Конкуренция между крупными моделями в основном сводится к соревнованию в области эффективности использования вычислительных ресурсов. Стоимость тренировки таких моделей (например, GPT-3) составляет миллионы долларов; модели с более высоким показателем MFU позволяют получать лучшие результаты при использовании меньшего количества ресурсов и в более короткие сроки. Например, благодаря интенсивным оптимизациям команда DeepSeek смогла конкурировать с Microsoft, использующей более современное оборудование.

Вывод: Суть соревнования между крупными моделями уже изменилась с сравнения их размера параметров на оценку эффективности использования вычислительных ресурсов.