虎嗅

هذا العام في امتحانات القبول الجامعي، جعلت 12 نظامًا ذكيًا من أفضل الأنظمة الذكية تخوض امتحانات اللغة الصينية والرياضيات معًا، وكانت النتائج مفاجئة بعض الشيء.

原文：今年高考，我让12个顶级AI一起考了语文和数学，结果有点意外。

2026-06-08 阅读原文

ملخص المحتوى الرئيسي

في موسم امتحانات القبول الجامعي لعام 2026، نظم المؤلف اختبارًا لـ12 نموذجًا كبيرًا شائعًا محليًا ودوليًا (مثل GPT-5.5، Claude Opus 4.8، Xiaomi MiMo v2.5 Pro، إلخ) في مواد اللغة الصينية والرياضيات. لضمان العدالة، تم استخدام واجهة برمجية موحدة (API)، وتم إدخال الأسئلة كنص خالص باستخدام لغة LaTeX، وقام أربعة معلمين ذوي خبرة في تصحيح الأوراق بتقييم النتائج. أظهرت النتائج أن الفارق في الدرجات بين أفضل النماذج كان ضئيلًا للغاية (التسعة الأوائل فقط اختلافوا بنقطتين)، حيث حل MiMo وKimi في المركزين الأول والثاني بفارق 0.01 نقطة؛ كما أظهر بعض النماذج تفوقًا في مادة دون أخرى (مثل DeepSeek الذي كان قويًا في الرياضيات وضعيفًا في اللغة الصينية، بينما كان GLM5.1 قويًا في اللغة الصينية وضعيفًا قليلًا في الرياضيات)؛ أما في تقييم المقالات، فإن المعلمين أولوا البنية والوجهات النظر والأدلة بشكل كبير. كانت نسبة الإجابات الصحيحة في الأسئلة الرياضية عالية، لكن جميع النماذج فشلوا في السؤال الأخير من نوع "الملء الفارغ". كما تمت مقارنة تطور أداء النماذج في اختبارات القبول الجامعي باستخدام التكنولوجيا الذكية من عام 2023 إلى 2026، مما يدل على تحسن سريع في قدراتها في المواد الأساسية.

أولًا: عدالة اختبارات القبول الجامعي "مستوى الاختبارات الرسمية": لمنع أي نموذج من التحيز

لضمان تنافس النماذج بشكل عادل مثل الطلاب البشر، قام المؤلف بتنفيذ عدة إجراءات لمنع الغش:

قواعد اختبار موحدة: استخدم جميع النماذج واجهة برمجية موحدة (API)، وتم منع استخدام أدوات مساعدة مثل البحث عن الإجابات أو حل الأسئلة باستخدام الكود، دون تقييد طول الإجابات؛ باستثناء شركتي iFlytek وBaidu، استخدم جميع النماذج منصة OpenRouter لتجنب التأثيرات المحتملة للاختلافات في واجهات البرمجية.
توحيد أوراق الإجابة: تم إدخال الأسئلة الرياضية واللغوية كنص خالص باستخدام لغة LaTeX (مما يعادل أوراق إجابة بتنسيق موحد)، وتم كتابة سكريبتات خاصة للتحقق من دقة التحويل إلى نصوص قابلة للقراءة.
تصحيح أوراق الإجابة بشكل عشوائي: لم يعرف المعلمون أسماء النماذج أثناء التصحيح، بل رأوا فقط أرقامًا مؤقتة (مثل A أو B) لتجنب التحيزات الناتجة عن تفضيل نماذج معينة؛ تم أخذ متوسط الدرجات من ثلاثة معلمين في المواد اللغوية لتقليل التأثيرات الشخصية.
تقييم مرونة للأسئلة من نوع "الملء الفارغ": تم منح الدرجات بناءً على القيم الصحيحة، بغض النظر عن طريقة كتابتها (مثل 1/2 أو 0.5)، مع التأكيد على دقة الأرقام فقط.

هذه الإجراءات تضمن أن جميع النماذج تتنافس في نفس الظروف، تمامًا مثل استخدام قلم رصاص من نوع 2B وأوراق إجابة مغلقة في امتحانات القبول الجامعي.

ثانيًا: النتائج: الفارق في الدرجات بين أفضل النماذج ضئيل للغاية

كانت النتيجة الأكثر إثارة للدهشة هو أن الفارق في الدرجات بين أفضل النماذج كان ضئيلًا جدًا:

حل MiMo وKimi في المركزين الأول والثاني بفارق 0.01 نقطة (حيث كان MiMo أقل بنقطة في اللغة الصينية وKimi أعلى بنقطة في الرياضيات)؛
من المركز الثالث (Claude Opus) إلى التاسع (GLM5.1/Gemini)، كان الفارق في الدرجات بين سبعة نماذج أقل من نقطتين فقط.

هذا يدل على أن أفضل النماذج الحالية متقاربة جدًا في المهارات الأساسية في كلا المادتين، تمامًا مثل الطلاب المتفوقين في الفصول الدراسية حيث يكون التنافس شديدًا ويمكن أن يؤدي فارق نقطة واحدة إلى تغيير كبير في الترتيب، لكن مستوياتهم جميعًا متشابهة.

ثالثًا: النماذج أيضًا لديها "تفوق في مواد معينة": بعضها قوي في الرياضيات والبعض الآخر في اللغة الصينية

مثل الطلاب، يظهر على النماذج أيضًا تفوق في مواد معينة:

النماذج المتميزة في اللغة الصينية: GLM5.1 وGemini 3.1 Pro حللا في المركز الأول، لكن أداؤهما كان ضعيفًا قليلًا في الرياضيات؛
النماذج المتميزة في الرياضيات: DeepSeek V4 Pro وMiMo وWenxin Ernie 5.1 حللا في المركز الأول، لكن أداءهما كان ضعيفًا في اللغة الصينية (خاصة في مقالات الإجابة)؛
النماذج المتوازنة: حل MiMo وKimi في المراكز الأولى لأنهما لم يظهرا أي نقاط ضعف واضحة في أي من المادتين.

قد يكون هذا التفوه بسبب اختلافات في اتجاهات تدريب النماذج: قد يركز DeepSeek على التفكير الرياضي، بينما يمكن أن يستثمر GLM5.1 المزيد من الموارد في فهم اللغة، تمامًا مثل الطلاب الذين يتميزون في مواد علمية مقارنة بأولئك الذين يتميزون في المواد الأدبية.

رابعًا: تقييم المقالات: المعلمين أولوا البنية والوجهات النظر والأدلة

كشفت تعليقات المعلمين عن نقاط ضعف مقالات النماذج:

مشاكل شائعة: عدم وضوح أسلوب الكتابة (لا يبدو أن المقال كتب بطريقة منظمة)، وعدم وجود أدلة كافية لدعم الأفكار المطروحة.

خامسًا: استنتاجات

تظهر هذه النتائج أن التقدم في تكنولوجيا الذكية ملحوظ، وأن النماذج أصبحت قادرة على أداء مهام معقدة بشكل مقبول. لكن لا يزال هناك حاجة إلى تحسينات في بعض الجوانب، مثل تحسين دقة التقييم وتحسين أداء النماذج في ظروف اختبارية أكثر تعقيدًا.