Краткое содержание статьи
Статья посвящена анализу эффективности использования вычислительных ресурсов в масштабных моделях Microsoft, в частности в модели MAI-Base-1 с триллионами параметров. Основной вывод заключается в следующем: хотя уровень эффективности использования ресурсов (MFU) модели MAI-Base-1 составляет всего около 20% (что кажется низким по сравнению с 39–44% в модели DeepSeek-V3), это не свидетельствует о недостатках технологий Microsoft, а скорее является результатом сложных процессов оптимизации в рамках использования гибридных экспертных моделей (MoE). В статье также рассматриваются ключевые факторы, влияющие на различия в показателях MFU, и подчеркивается, что суть конкуренции между крупными моделями заключается в эффективности использования вычислительных ресурсов.
1. Что такое MFU?
MFU (Model Compute Efficiency) — это показатель, отражающий процент теоретической мощности оборудования, который фактически используется для тренировки модели. Например, если вы приобрели суперкомпьютер, способный решать 100 математических задач в секунду, но при тренировке модели он может использовать только 20 из них (MFU = 20%), а оставшиеся 80% ресурсов тратятся на передачу данных или выполнение других задач. Следует отметить, что MFU не равно уровню использования возможностей GPU; это ключевой показатель общей эффективности системы.
2. Уровень эффективности Microsoft MAI-Base-1 в 20%: не признак слабости модели, а следствие особенностей ее архитектуры
MAI-Base-1 представляет собой гибридную экспертную модель (MoE), в которой для обработки данных задействовано несколько алгоритмов. В процессе улучшения версий модели (v1–v5) показатель MFU сначала снижался, но затем вновь повышался благодаря оптимизациям:
- Версия v2: использование 4096 GPU; начальный уровень эффективности — 18%; после оптимизации коммуникаций и кода показатель повышен до 22%.
- Версия v3: изменение способов передачи данных; после дополнительных оптимизаций уровень эффективности остался на уровне 22%.
- Версия v4: увеличение количества алгоритмов до 512; изменение способов выбора оптимальных вариантов обработки данных с 4 до 8; увеличение числа GPU до 8192; показатель MFU снизился до 16%, но после дополнительных оптимизаций восстановлен до 20%.
Этот уровень эффективности является результатом баланса между повышением производительности модели и поддержанием ее стабильной работы.
3. Высокий уровень эффективности DeepSeek-V3: результат интенсивных оптимизаций
DeepSeek-V3 также является гибридной экспертной моделью, но ее показатель MFU достигает 39% (для случаев с причинно-следственными связями в данных) или 44% (для случаев без таких связей). Причины этого заключаются в следующем:
- Ограничения оборудования: модель использует GPU типа H800, менее мощные по сравнению с GPU Microsoft GB200; китайская команда разработчиков пришлась настойчиво оптимизировать алгоритмы для максимального использования ресурсов (сокращение потерь при передаче данных, уменьшение затрат на память, адаптация архитектуры модели под характеристики оборудования).
- Интенсивные инженерные решения: были проведены глубокие оптимизации в области архитектуры модели, формата точности вычислений (BF16), способов передачи данных и стратегий параллельной обработки.
4. Ключевые факторы, влияющие на показатель MFU
Уровень эффективности использования ресурсов определяется пятью основными факторами:
- Архитектура модели: более компактные модели (с использованием одной большой матрицы для обработки данных) обладают высокой эффективностью; гибридные экспертные модели требуют дополнительных усилий для координации работы различных алгоритмов, что снижает показатель MFU.
- Количество GPU: чем больше GPU, тем сложнее процесс передачи и синхронизации данных; это приводит к снижению эффективности модели.
- Стратегии параллельной обработки: способ разделения данных и модели влияет на скорость передачи информации между компонентами системы.
- Форматы представления данных: используемые форматы точности (FP8, BF16) влияют на производительность и потребление памяти; однако разные исследования могут использовать разные критерии для оценки эффективности.
- Инструменты программного обеспечения: использование оптимизированных инструментов (например, FlashAttention, Triton) повышает эффективность работы модели.
5. Значение результатов для индустрии
Конкуренция между крупными моделями в основном сводится к соревнованию в области эффективности использования вычислительных ресурсов. Стоимость тренировки таких моделей (например, GPT-3) составляет миллионы долларов; модели с более высоким показателем MFU позволяют получать лучшие результаты при использовании меньшего количества ресурсов и в более короткие сроки. Например, благодаря интенсивным оптимизациям команда DeepSeek смогла конкурировать с Microsoft, использующей более современное оборудование.
Вывод: Суть соревнования между крупными моделями уже изменилась с сравнения их размера параметров на оценку эффективности использования вычислительных ресурсов.