虎嗅

العنوان العربي: arXiv: كيف تشكل الألعاب ذكاء النماذج الكبيرة؟

原文:arXiv:游戏如何塑造大模型智能

ملخص المحتوى الرئيسي

تدور هذه المقالة حول موضوع “النماذج الكبيرة والألعاب”, وتستعرض ثلاث دراسات رئيسية:

1. استخدام الألعاب كبيئة للتعلم غير الرسمي لتدريب النماذج الكبيرة، بهدف تحسين قدراتها على التفكير العام.

2. مراقبة سلوك اتخاذ القرار لدى النماذج الكبيرة من خلال لعبة الشطرنج، واكتشاف أنها تظهر صفات وردود فعل عاطفية مشابهة للبشر.

3. إشراك النماذج الكبيرة في إنشاء قواعد الألعاب، لتصبح مساعدين إبداعيين للبشر.

تمثل هذه الدراسات ثلاث مراحل رئيسية في تطور الذكاء: تعلم القواعد، وتطبيق القواعد، وإنشاء القواعد، وتستكشف كيف يمكن للألعاب أن تصبح أداة مهمة لفهم وتحسين ذكاء النماذج الكبيرة.

أولاً: الألعاب كـ “فصل دراسي شامل”: لتجنب تخصص النماذج الكبيرة

تقوم الطرق التقليدية في تدريب النماذج الكبيرة على تعلم مهارات محددة بشكل منفصل (مثل الرياضيات أولاً، ثم الألعاب الاستراتيجية، ثم المهارات الاجتماعية)، لكن النتيجة هي أن النموذج قد يكون متميزًا في مهمة واحدة فقط بينما تتدهور قدراته في مجالات أخرى (مثل عدم القدرة على كتابة المقالات).

لكن دراسة GIFT اعتمدت نهجًا تدريبيًا متكاملاً، حيث طُلب من النموذج في جولة واحدة حل مسائل رياضية، واللعب بلعبة السجناء، والمشاركة في لعبة “من هو الجاسوس”، ولم يتمكن من الحصول على درجات عالية إلا إذا أدى جيدًا في جميع المهام.

يمكن مقارنة ذلك بطفل يقوم يوميًا بأداء واجبات رياضية، واللعب مع أصدقائه، والمشاركة في مناقشات جماعية، بدلاً من التركيز على الرياضيات فقط.

وقد أظهرت هذه الدراسة أن التدريب المتكامل يحسّن القدرات العامة للنموذج (مثل التفكير، والكتابة، وفهم العلاقات الاجتماعية) بشكل متزامن، دون تخصص في مجال واحد. والسبب هو أن التدريب المتكامل يجبر النموذج على التكيف بين المهام المختلفة، مما يؤدي إلى تطوير طرق تفكير أكثر عمومية.

ثانيًا: لعبة الشطرنج تكشف عن “المزاج الصغير” للذكاء الاصطناعي: هل لدى النماذج الكبيرة شخصيات وعواطف؟

استخدم الباحثون لعبة الشطرنج لاختبار ست نماذج كبيرة رئيسية، واكتشفوا ظاهرتين مثيرتين للاهتمام:

1. الشخصيات المتطرفة: انقسمت النماذج إلى فئتين؛ النماذج التي تركز على إكمال المهام (مثل إرسال الطائرات إلى النقطة النهائية) والنماذج التي تركز على بدء مهام جديدة دون الاهتمام بالمهام القائمة.

2. اتخاذ قرارات عاطفية: عند إبلاغ النموذج بأن خصمًا أعاد طائرته إلى المستودع، قام بعض النماذج بتغيير قراراته بنسبة 33% (حتى لو كان القرار الجديد غير أفضل)، وكانت احتمالات التصرف العدائي مختلفة بين النماذج المختلفة.

الأمر المثير للسخرية هو أن تغيير شخصية النموذج إلى “شخصية محافظة” لم يؤدِ إلا إلى زيادة نسبة اتخاذ قرارات عدائية (من 66% إلى 88%)، مما يدل على أن الشخصية الأصلية للذكاء الاصطناعي صعبة التغيير.

ثالثًا: الذكاء الاصطناعي كمصمم ألعاب: من اللعب إلى الإبداع

تركز الدراسة الثالثة على استخدام النماذج الكبيرة في إنشاء قواعد ألعاب جديدة. قام الباحثون باستخدام نموذج CodeLlama لتفكيك قواعد الألعاب الموجودة (مثل الغو والشطرنج) إلى كلمات رئيسية، ثم طلبوا من النموذج تغيير هذه القواعد بشكل عشوائي لإنشاء ألعاب جديدة. تم اختيار الألعاب الممتازة بعد أربع مراحل من التصفية (القدرة على العمل، المتعة، والاستراتيجية).

على سبيل المثال، تم إنشاء لعبة جديدة تجمع بين قواعد الغو والشطرنج، يمكن فيها الفوز باستخدام استراتيجيات الغو أو آليات الإحاطة المستخدمة في الشطرنج، وقد قيّم الخبراء أن هذه اللعبة لها إمكانية أن تصبح كلاسيكية.

هذا يدل على أن الذكاء الاصطناعي يمكن أن يكون مساعدًا إبداعيًا للبشر، حتى لو لم يكن قادرًا على إنشاء أعمال فنية رائعة بشكل مستقل، إلا أنه يمكنه إنتاج نماذج أولية قابلة للعب بسرعة، مما يفتح آفاقًا جديدة.

رابعًا: جوهر الذكاء وراء الألعاب: من “تعلم القواعد” إلى “إنشائها”

عند دمج الدراسات الثلاث، نرى أنها تمثل ثلاث مراحل رئيسية في تطور الذكاء:

1. تعلم القواعد: من خلال الألعاب، يتعلم النموذج التفكير بشكل متعدد المهام (دراسة GIFT).

2. تطبيق القواعد: إظهار السلوكيات والعواطف أثناء اللعب (دراسة لعبة الشطرنج).

3. إنشاء القواعد: من اللعب إلى تصميم الألعاب، مع تجاوز حدود القواعد الموجودة (دراسة GAVEL).

تطرح هذه الدراسات سؤالًا عميقًا: هل جوهر الذكاء يكمن في “إتقان القواعد الموجودة” أم في “إنشاء قواعد جديدة”؟ تُعد الألعاب بيئة مرنة تسمح للنماذج الكبيرة بتطوير مهاراتها (تعلم وتطبيق القواعد) واختبار أفكارها (إنشاء قواعد جديدة)، وربما تكون السبيل لنمو مستمر للذكاء الاصطناعي.

خلاصة

الألعاب ليست مجرد ألعاب بالنسبة للنماذج الكبيرة؛ فهي أيضًا “ميدان تدريب” وأداة إبداعية. تُظهر هذه الدراسات أن النماذج الكبيرة ليست مجرد آلات حسابية باردة، بل كائنات ذكية ذات شخصيات وعواطف. كما تثير التساؤل: هل سيتعلم الذكاء الاصطناعي في المستقبل التفكير المعقد أثناء اللعب مثل البشر، وربما يخلق قواعد جديدة لا نتخيلها؟ ربما تكون هذه الطريقة مفتاحًا لتطورات مذهلة في عالم التكنولوجيا.