虎嗅

العنوان العربي: نموذج الهيكلية الجديدة HRM-Text يحقق رقمًا قياسيًا في الابتكار؛ 1 مليار معامل وسعر 1000 دولار أمريكي… حتى الفائزون بجائزة تورينغ شاركوا شخصيًا في تطويره!

原文:新架构模型HRM-Text创新纪录,1B参数、1000美元,图灵奖得主都亲自下场了

ملخص المحتوى الأساسي

HRM-Text هو نموذج ذكاء اصطناعي يحتوي على 1 مليار معامل (1B)، وتكلفة تدريبه كانت فقط 1500 دولار أمريكي (باستخدام 16 بطاقة رسومية من نوع H100 لمدة أقل من يومين)، ومع ذلك تفوق العديد من النماذج التي تحتوي على 2 مليار إلى 7 مليار معامل في اختبارات المعايير مثل المنطق الرياضي (MATH بـ 56.2 نقطة) والحساب الأساسي للمرحلة الابتدائية (GSM8K بـ 84.5 نقطة). الابتكار الرئيسي فيه يكمن في التخلي عن المسار التقليدي للنماذج الكبيرة الذي يعتمد على تراكم المعاملات والبيانات والقوة الحاسوبية، من خلال إعادة تصميم هيكل النموذج (الحساب التكراري المتدرج) وأهداف التدريب (التركيز على الإجابات على الأسئلة). تم تدريبه من الصفر باستخدام كمية قليلة جدًا من البيانات (فقط 40 مليار رمز فريد، وهو ما يعادل 1/225 من حجم بيانات Llama3.2). الهدف منه هو إثبات أن الابتكار في الهيكل يمكن أن يحسن الكفاءة حتى مع الموارد المحدودة، وقد اتبعه أيضًا الحائز على جائزة تورينغ، يوشوا بنجيو، في أبحاث مماثلة، مما يفتح آفاقًا جديدة لتطوير النماذج الكبيرة.

التفصيل:

1. لماذا يمكن للنماذج الصغيرة أن “تتفوق على الكبيرة”؟ – ليس بالاعتماد على كمية الموارد ولكن على الحساب الذكي

المنطق التقليدي للنماذج الكبيرة هو أن “كلما كان أكبر كان أفضل”: المزيد من المعاملات، والمزيد من البيانات، والمزيد من القوة الحاسوبية تؤدي إلى ذكاء أعلى. لكن HRM-Text يتبع نهجًا مختلفًا: باستخدام 1 مليار معامل فقط (أقل من العديد من النماذج)، وتكلفة تدريبية بـ 1500 دولار أمريكي (أقل بكثير من الملايين من الدولارات المطلوبة للنماذج الكبيرة)، وكمية قليلة جدًا من البيانات، ومع ذلك حقق نتائج جيدة. السر يكمن في تحسين كفاءة الحساب – بحيث تقوم المعاملات المحدودة بإجراء المزيد من العمليات الداخلية الفعالة قبل إصدار النتائج، بدلاً من مجرد زيادة عدد المعاملات. مثل الطهاة العاديين الذين يستخدمون نفس المكونات لصنع وجبة، لكن الطاهي الماهر يقوم بمعالجتها مرارًا وتكرارًا لإنتاج طبق رائع؛ HRM هو ذلك “الطاهي الماهر”.

2. الابتكار في الهيكل: جعل النموذج يفكر أكثر من مرة قبل الإصدار

النماذج التقليدية من نوع Transformer تعمل على نظام “خط التجميع”: حيث تمر المدخلات عبر كل طبقة واحدة تلو الأخرى، وكل طبقة تعالجها مرة واحدة فقط. HRM-Text تستخدم نهجًا تكراريًا:

  • يحتوي على وحدتين رئيسيتين: الطبقة العليا H (تتغير ببطء، مسؤولة عن السياق الكلي، مثل تذكر جوهر المشكلة بأكملها) والطبقة السفلى L (تتغير بسرعة، مسؤولة عن التصحيحات المحلية، مثل تعديل خطوات الحساب).
  • قبل إصدار أي نتيجة، يقوم النموذج بتحديث حالته الداخلية عدة مرات (مثل 6 تحديثات في L و2 تحديثات في H قبل التنبؤ بكلمة)، مما يعادل جعل النموذج “يفكر أكثر من مرة” قبل الإجابة.

لمنع تعطل النموذج نتيجة التكرار المستمر (مثل أن تصبح النتائج غير مفهومة)، استخدم الفريق طريقتين:

  • MagicNorm: للسيطرة على التقلبات في البيانات أثناء الحساب ومنع فقدان السيطرة على النتائج.
  • المسؤولية التدريجية: في بداية التدريب، يتم جعل النموذج مسؤولًا فقط عن أحدث خطوات التفكير، ثم تتوسع المسؤولية تدريجيًا لتشمل الخطوات السابقة (مثل المعلم الذي يصحح أولاً الواجبات الأخيرة ثم يتحقق تدريجيًا من الواجبات السابقة).

3. أهداف التدريب: التركيز على “الإجابة” فقط وليس على “نسخ المسائل”

عند تدريب النماذج العادية، يتم التنبؤ بكل كلمة في النص (بما في ذلك المسألة نفسها)، لكن HRM-Text يقوم فقط بحساب أخطاء الإجابات. على سبيل المثال، عند إعطاء النموذج مسألة رياضية، لا يحتاج إلى تعلم كيفية إعادة سرد المسألة، بل فقط كيفية حساب الإجابة الصحيحة. في الوقت نفسه، يستخدم PrefixLM لفهم المسألة بالكامل (بحيث تكون جزء التعليمات مرئيًا في كلا الاتجاهين) قبل إنتاج الإجابة. هذا يشبه المعلم الذي يصحح الواجبات ويركز فقط على صحة الإجابة دون التحقق مما إذا كانت مكررة أم لا، مما يجعل التدريب أكثر تركيزًا وأكفاءة.

4. النقاط الضعيفة والمستقبل: قوة في المنطق لكن نقص في المعرفة، هناك حاجة إلى “تقسيم العمل”

HRM-Text يؤدي بشكل جيد في مهام المنطق (مثل المسائل الرياضية)، لكنه لا يفوق النماذج الأكبر في الاختبارات التي تتطلب معرفة واسعة (مثل MMLU التي تقيس المعرفة في مجالات مختلفة). السبب بسيط: كمية البيانات المستخدمة قليلة وعدد المعاملات صغير، مما يحد من قدرته على تذكر المعلومات. الاتجاه المستقبلي هو فصل المنطق عن المعرفة – حيث يمكن لنماذج مثل HRM التركيز على الحساب، بينما تتولى قواعد البيانات الخارجية أو أنظمة البحث مهمة تخزين المعرفة (مثلما يفعل البشر عند البحث عن المعلومات). لقد حقق الفريق بالفعل نتائج أولية في هذا الاتجاه، لكنها غير معلنة بعد.

5. الأهمية الصناعية: فتح مسار جديد للتنافس في صناعة النماذج الكبيرة

في الماضي، كانت صناعة النماذج الكبيرة تتنافس على من يمتلك أكبر عدد من المعاملات وأقوى قوة حاسوبية، مما رفع الحواجز بشكل متزايد. HRM-Showed that it’s possible to achieve good results with fewer resources, opening up new possibilities for innovation and competition.

HRM-Proof that smaller, more cost-effective models can still be highly efficient and competitive in certain applications, challenging the traditional notion of large-scale computing being essential for advanced tasks.