ملخص المحتوى الأساسي
تركز هذه المقالة على معدل استغلال القدرة الحسابية (MFU) لنموذج مايكروسوفت الضخم MAI-Base-1 ذو التريليونات من المعاملات، والاستنتاج الرئيسي هو أن MFU لـ MAI-Base-1 يبلغ حوالي 20% فقط، وهو ما قد يبدو أقل بكثير من DeepSeek-V3 (الذي يتراوح بين 39% و44%). ولكن هذا لا يعني أن تقنية مايكروسوفت ضعيفة، بل نتيجة لأن النموذج المعقد من نوع MoE (النموذج المختلط للخبراء) يتطور باستمرار، مما يؤدي إلى انخفاض كفاءة النظام أولاً ثم تعود إلى مستوياتها بجهد. كما تحلل المقالة العوامل الرئيسية التي تؤثر على اختلافات MFU، وتشير إلى أن منافسة النماذج الكبيرة في جوهرها تدور حول كفاءة استغلال القدرة الحسابية.
1. ما هو MFU؟
MFU (معدل استغلال قدرة النموذج) هو مؤشر يقيس مدى استخدام القدرة الحسابية النظرية القصوى للهاردوير في تدريب النموذج الفعلي. على سبيل المثال:
إذا اشتريت حاسوبًا فائقًا يمكنه حل 100 مسألة رياضية في الثانية (قدرة حسابية نظرية قصوى)، فقد يستخدم فقط لحل 20 مسألة أثناء التدريب (MFU = 20%)، بينما يتم إهدار الـ 80% الباقية إما في انتظار نقل البيانات أو في معالجة مهام غير ذات صلة.
ملحوظة: MFU لا يساوي معدل استغلال وحدة المعالجة الرسومية (GPU)، بل يُقيس النسبة المئوية من القدرة الحسابية التي تُستخدم فعلاً لتشغيل النموذج، وهو مؤشر أساسي على كفاءة النظام بأكمله.
2. معدل استغلال MAI-Base-1 البالغ 20%: ليس دليلاً على ضعف التقنية، بل على تحديات نماذج MoE المعقدة
MAI-Base-1 هو نموذج من نوع MoE يحتوي على التريليونات من المعاملات (يشبه مجموعة من الخبراء يعملون بشكل منسق، حيث يتم تكليف خبير واحد فقط بمعالجة كل قطعة من البيانات). خلال الترقيات من الإصدار v1 إلى v5، انخفض MFU في كل مرة تم فيها إضافة ميزات جديدة، ثم تم استعادته عبر التحسينات:
- الإصدار v2: باستخدام 4096 وحدة معالجة رسومية GPU، أصبح النموذج أكثر تعقيدًا وانخفض MFU من 18% إلى 22% بعد التحسينات؛
- الإصدار v3: تم استبدال طريقة الربط بين أجزاء النموذج بطريقة أكثر كفاءة، لكن تكلفة المزامنة ارتفعت؛ بعد التحسينات، ظل MFU عند 22%؛
- الإصدار v4: زاد عدد الخبراء من 192 إلى 512، وتم تغيير طريقة الربط من اختيار أربعة خبراء إلى ثمانية، كما تم توسيع عدد وحدات المعالجة الرسومية إلى 8192، مما أدى إلى انخفاض MFU إلى 16%؛ ثم تم استعادته إلى 20% بعد تحسينات في الأنوية وتكاليف وحدة المعالجة المركزية؛
- الإصدار v5: زاد عدد المعاملات من 600 مليار إلى تريليون، واستُخدمت تقنيات تحسين ZeRO-3 في البداية لكنها أدت إلى بطء في عملية نقل البيانات؛ ثم تم استبدالها بتقنية ZeRO-2 مع إلغاء بعض القيم المفعلة، مما أدى إلى الحفاظ على MFU عند 20%.
هذا المعدل البالغ 20% هو نتيجة لتوازن مايكروسوفت بين تحسين قدرات النموذج والحفاظ على كفاءة النظام، وليس دليلاً على عدم وجود تحسينات، بل بسبب التكاليف العالية المرتبطة باستخدام نموذج MoE.
3. معدل استغلال DeepSeek-V3 العالي: نتيجة لقيود الهاردوير
DeepSeek-V3 أيضًا نموذج من نوع MoE، ولكن MFU يصل إلى 39% (في الحالات السببية) أو 44% (في الحالات غير السببية)، والسبب في ذلك هو:
- قيود الهاردوير: يستخدم نموذج DeepSeek-V3 وحدات معالجة رسومية من نوع H800 (أضعف من وحدات GB200 المستخدمة في مايكروسوفت)، ويجب على الفريق الصيني استغلال هذه الوحدات بشكل أمثل عبر تقليل هدر نقل البيانات وتخفيض تكاليف الذاكرة وتحسين الأكواد؛
- التحسينات المتقدمة: تم إجراء تحسينات عميقة في هندسة النموذج ودقة المعالجة (BF16) وطرق الربط واستراتيجيات المعالجة المتزامنة، بخلاف مايكروسوفت التي تركز فقط على التكيف مع الهاردوير.
ببساطة: إذا كان الهاردوير أقل كفاءة، يتم استغلال القدرة الحسابية بشكل أكثر فعالية من خلال التحسينات المفصلة.
4. لماذا هناك فروق كبيرة في معدلات MFU؟
تحدد خمسة عوامل رئيسية معدل استغلال القدرة الحسابية:
- شكل النموذج: النماذج المكثفة (التي تعتمد على مصفوفات كبيرة واحدة للحسابات) أكثر كفاءة من النماذج المعقدة التي تحتوي على عدة خبراء؛
- حجم وحدات المعالجة الرسومية: كلما زاد عدد وحدات المعالجة الرسومية، أصبح نقل ومزامنة البيانات أكثر تعقيدًا؛
- استراتيجيات المعالجة المتزامنة: طريقة تقسيم البيانات والنموذج تؤثر على سرعة نقلها (أسرع داخل الرف الواحد، أبطأ بين الأرفف المختلفة)؛
- تنسيقات الدقة: تؤثر دقة المعالجة (مثل FP8 وBF16) على سرعة واستهلاك الذاكرة، لكن التقارير المختلفة قد تُقدم بيانات متباينة؛
- الأدوات البرمجية: استخدام أدوات تحسين مثل FlashAttention وTriton يمكن أن يعزز كفاءة النظام.
5. الدروس المستفادة من هذا الموضوع لصناعة التكنولوجيا:
منافسة النماذج الكبيرة تتمحور حول كفاءة استغلال القدرة الحسابية، وهو ما يؤثر بشكل كبير على تكلفة التدريب (على سبيل المثال، تكلفة تدريب نموذج GPT-3 تصل إلى عشرات الملايين من الدولارات). من يتمكن من رفع معدل استغلال القدرة الحسابية سيتمكن من تدريب نماذج أفضل بتكلفة أقل.
هذا يشير إلى أهمية التحسينات المستمرة واختيار الأدوات والهاردوير المناسبة لتحقيق أعلى كفاءة في تطبيقات التكنولوجيا.
في الختام، فإن موضوع استغلال القدرة الحسابية يُظهر مدى تأثير التفاصيل الصغيرة على أداء النماذج الكبيرة، ويؤكد على ضرورة البحث المستمر والتطوير لتحقيق التقدم في مجال التكنولوجيا.