虎嗅

Cette année, pour le baccalauréat, j’ai fait passer 12 systèmes d’intelligence artificielle de haut niveau à un examen de chinois et de mathématiques… Le résultat a été quelque peu surprenant.

原文:今年高考,我让12个顶级AI一起考了语文和数学,结果有点意外。

Résumé des principaux points

Lors de la saison des examens d'entrée à l'université en 2026, l'auteur a organisé une compétition entre 12 grands modèles réputés, tant nationaux qu'internationaux (tels que GPT-5.5, Claude Opus 4.8, Xiaomi MiMo v2.5 Pro, etc.), pour qu'ils passent des tests de langue chinoise et de mathématiques. Afin d'assurer l'équité, des mesures ont été prises, comme l'utilisation d'une API standardisée, une saisie de texte en LaTeX pur, ainsi que l'évaluation anonyme par des enseignants expérimentés. Les résultats montrent que la différence de score entre les modèles de pointe est extrêmement faible (seuls 2 points séparent les 9 premiers), avec MiMo et Kimi terminant respectivement premier et deuxième à seulement 0,01 point d'écart. Certains modèles présentent des spécialisations dans certaines matières (par exemple, DeepSeek est fort en mathématiques mais plus faible en langue chinoise, tandis que GLM5.1 est bon en langue chinoise mais moins performant en mathématiques). Lors de l'évaluation des compositions, les enseignants ont particulièrement souligné l'importance de la structure, des idées et des arguments. Le taux de réussite dans les questions de mathématiques était globalement élevé, mais tous les candidats ont échoué à la dernière question de type remplissage. Une comparaison des tests AI de 2023 à 2026 met en évidence une amélioration rapide des capacités des modèles dans ces matières fondamentales.

I. Équité au niveau des examens d'entrée à l'université

Pour que les modèles concourent de manière équitable, comme des étudiants réels, l'auteur a mis en place plusieurs mesures anti-triche :

  • Règles d'examen unifiées : tous les modèles ont utilisé une API commune, et l'utilisation d'outils tels que la recherche d'informations ou le calcul de solutions par programmation a été interdite. Seuls Xunfei et Baidu ont utilisé des interfaces différentes, mais tous les autres ont recouru à la plateforme OpenRouter pour éviter d'éventuelles disparités dans les résultats.
  • Cartes de réponses standardisées : les questions de mathématiques et de langue chinoise ont été saisies en LaTeX, ce qui correspond à des formats de cartes de réponses uniformes. Des scripts ont également été créés pour vérifier l'exactitude de la conversion en texte LaTeX, afin d'éviter d'éventuelles erreurs.
  • Évaluation anonyme : les enseignants n'ont pas pu voir le nom des modèles pendant l'évaluation ; ils ne voyaient que des codes identifiants (par exemple, A ou B), ce qui a évité tout biais lié à une marque particulière. Pour les questions subjectives, la note moyenne a été calculée par trois enseignants de langue chinoise pour réduire les influences personnelles.
  • Attribution flexible des points aux questions de remplissage : différentes représentations d'un même nombre (par exemple, 1/2 ou 0.5) ont été acceptées tant que la valeur était correcte, sans se soucier du format.

Ces mesures assurent que tous les modèles partent sur un pied d'égalité, tout comme l'utilisation de crayons 2B et de feuilles de réponses scellées lors des examens d'entrée à l'université en Chine.

II. Résultats : la différence de score entre les meilleurs modèles est infime

Le résultat le plus surprenant est l'extrême proximité des scores des modèles de pointe :

  • MiMo et Kimi, premiers et deuxièmes, ne diffèrent que de 0,01 point (MiMo a moins d'un point en langue chinoise et plus en mathématiques).
  • Entre le troisième rang (Claude Opus) et le neuvième rang (GLM5.1/Gemini), la différence de score est inférieure à 2 points pour sept modèles.

Cela indique que les meilleurs modèles actuels sont très proches en termes de compétences de base en langue chinoise et en mathématiques, tout comme les meilleurs élèves d'une classe, où un petit écart peut entraîner de grandes différences dans le classement.

III. Les modèles ont également des spécialisations

Comme les étudiants, les modèles présentent des préférences pour certaines matières :

  • Modèles forts en langue chinoise : GLM5.1 et Gemini 3.1 Pro se partagent la première place, mais GLM5.1 est plus faible en mathématiques.
  • Modèles forts en mathématiques : DeepSeek V4 Pro, MiMo et Wenxin Ernie 5.1 sont à égalité en mathématiques, mais DeepSeek a des résultats médiocres en langue chinoise, principalement en raison de ses performances décevantes dans la composition.
  • Modèles équilibrés : MiMo et Kimi ont des scores globalement élevés car ils n'ont pas de faiblesses significatives dans aucune matière.

Ces préférences pour certaines matières peuvent être liées à la direction de leur entraînement : par exemple, DeepSeek pourrait se concentrer davantage sur les raisonnements mathématiques, tandis que GLM5.1 aurait investi plus de ressources dans la compréhension du langage, tout comme certains étudiants sont naturellement plus doués en sciences ou en lettres.

IV. Évaluation des compositions

L'évaluation des compositions a révélé les points faibles des modèles :

  • Problèmes fréquents : absence de style littéraire clair, structure confuse, idées floues, exemples peu pertinents, et manque de lien avec les événements actuels.
  • Exemples concrets : bien que le modèle GLM5.1 ait obtenu la note la plus élevée, son texte a été critiqué pour une structure insuffisamment claire. Le texte de DeepSeek a également reçu des critiques négatives pour un style et des arguments insatisfaisants.

Cela montre que les modèles ne comprennent pas encore entièrement les critères d'évaluation des compositions d'entrée à l'université : il s'agit moins de savoir qui écrit le mieux, mais de respecter des normes précises (structure claire, idées claires, argumentation solide et lien avec le contexte actuel).

V. Évolution en quatre ans

Une comparaison des tests AI de 2023 à 2026 montre une progression significative :

  • 2023 : Seul GPT-4 était capable d'écrire des compositions, et les modèles chinois étaient rares.
  • 2024 : Les modèles chinois se sont améliorés, mais ils commettaient encore souvent des erreurs graves (réponses inappropriées).
  • 2025 : Certains modèles ont atteint un niveau suffisant en mathématiques pour être considérés comme compétents.
  • 2026 : La différence de score entre les modèles de pointe est très faible, et les méthodes d'évaluation se sont modernisées (passage d'une copie manuelle à des scripts automatisés et à des sites d'évaluation professionnels).

Ces quatre années reflètent non seulement l'amélioration des capacités des modèles, mais aussi la précision croissante des méthodes d'analyse de l'auteur. Le test est devenu plus rigoureux, car les examens d'entrée à l'université en Chine ont une importance considérable.

En conclusion, bien que les résultats soient principalement à titre informatif, ils montrent que les modèles AI sont désormais très proches des capacités humaines dans les matières fondamentales et pourraient bientôt remplacer les humains dans de nombreuses tâches complexes. Cependant, leurs préférences pour certaines matières et leurs faiblesses en composition indiquent qu'ils ont encore du chemin à parcourir pour comprendre pleinement la pensée et l'expression humaines.