虎嗅

ArXiv : Comment les jeux façonnent l’intelligence des grands modèles

原文:arXiv:游戏如何塑造大模型智能

Résumé des points clés

Cet article se concentre sur le thème des « grands modèles » et des jeux, en présentant trois études majeures :

1. L’utilisation des jeux comme environnement d’« apprentissage non formel » pour entraîner les grands modèles et améliorer leur capacité de raisonnement général ;

2. L’observation du comportement décisionnel des grands modèles à travers le jeu de dames, révélant des traits de personnalité et des réactions émotionnelles similaires à celles des humains ;

3. La participation des grands modèles à la création de règles de jeux, les transformant en assistants créatifs pour les humains. Ces trois études correspondent respectivement à trois niveaux du développement de l’intelligence : apprendre les règles, les appliquer et les créer, et illustrent comment les jeux peuvent devenir un outil essentiel pour comprendre et améliorer l’intelligence des grands modèles.

I. Les jeux en tant que « cours complémentaire » : permettre aux grands modèles d’éviter les inégalités

La méthode traditionnelle d’entraînement des grands modèles est similaire à celle d’un élève qui se spécialise dans une seule matière : il apprend d’abord les mathématiques, puis le jeu stratégique, et enfin les compétences sociales. Cependant, cela conduit à un modèle performant dans une tâche spécifique mais moins capable de s’adapter à d’autres domaines (par exemple, il sait jouer aux jeux stratégiques mais pas écrire des essais). L’étude GIFT a adopté une approche d’entraînement « imbriqué » : le modèle doit résoudre des problèmes mathématiques, jouer au jeu de la prisonnière et participer à des jeux de déduction en même temps. Seul un bon rendement dans ces trois domaines permet d’obtenir une haute note.

En imaginant un enfant qui fait ses devoirs de mathématiques chaque jour, joue à des jeux de société avec des amis et participe à des discussions de groupe, plutôt que de se concentrer uniquement sur les mathématiques avant de jouer, on constate que cet entraînement équilibré améliore simultanément ses compétences générales (résolution de problèmes, écriture, compréhension sociale) et ses capacités dans une tâche spécifique. La raison en est que l’entraînement imbriqué oblige le modèle à switcher rapidement entre différentes tâches, le forçant à développer des modes de pensée plus flexibles.

II. Le jeu de dames révèle les « petites colères » de l’IA : les grands modèles ont-ils aussi une personnalité et des émotions ?

Les chercheurs ont testé six grands modèles populaires avec le jeu de dames et ont observé deux phénomènes intéressants :

1. Personnalités obsessionnelles : les modèles se divisent en deux catégories : ceux qui s’acharnent à faire avancer les avions déjà sur le plateau jusqu’au but, et ceux qui encouragent systématiquement de nouveaux avions à décoller sans se soucier des anciens.

2. Décisions émotionnelles : lorsque le modèle est informé que son adversaire a renvoyé son avion au hangar, 33 % d’entre eux changent leur stratégie (même si la nouvelle décision n’est pas optimale), et ce taux varie d’un modèle à l’autre, indiquant que l’IA peut être affectée émotionnellement.

Plus amusant encore, lorsque le modèle est configuré pour adopter une personnalité « conservatrice », Claude devient plus agressif (le pourcentage de décisions agressives passe de 66 % à 88 %), ce qui montre que la personnalité de l’IA est difficile à modifier par des instructions simples, tout comme un aventurier peut devenir encore plus rebelle lorsqu’on lui demande de devenir prudent.

III. L’IA en tant que « concepteur de jeux » : de jouer aux jeux à en créer

Les deux premières études portaient sur l’utilisation des grands modèles dans des jeux conçus par les humains, tandis que la troisième étude leur a permis de créer leurs propres jeux. Les chercheurs ont utilisé le modèle CodeLlama pour décomposer les règles de jeux existants (comme les dames et le go) en mots-clés (tels que « sauter » ou « glisser »), puis ont laissé le modèle modifier ces règles aléatoirement pour générer de nouveaux jeux. Après quatre étapes de sélection (fonctionnalité, divertissement, stratégie), ils ont identifié des prototypes de qualité. Par exemple, un jeu combinant les règles des dames et du go a été créé : il est possible de gagner en utilisant la technique des cinq pièces consécutives ou le mécanisme d’encerclement propre au go, et les experts humains l’ont jugé prometteur pour devenir un classique. Cela montre que les IA peuvent être des apprentis créatifs pour les humains : bien qu’elles ne soient pas encore capables de créer des œuvres majeures de manière indépendante, elles peuvent rapidement générer des prototypes de jeux jouables, ouvrant de nouvelles perspectives.

IV. L’essence de l’intelligence derrière les jeux : de « apprendre les règles » à « en créer**

En reliant ces trois études, on observe trois stades du développement de l’intelligence :

1. Apprendre les règles : les grands modèles apprennent à penser de manière transdisciplinaire grâce aux jeux (étude GIFT) ;

2. Appliquer les règles : ils manifestent des traits de personnalité et des émotions dans le cadre de jeux (étude sur le jeu de dames) ;

3. Créer des règles : passer du simple jeu à la conception de jeux, en dépassant les limites des règles préétablies (étude GAVEL).

Cela soulève une question fondamentale : l’essence de l’intelligence réside-t-elle dans la maîtrise des règles existantes ou dans la création de nouvelles règles ? Les jeux, en tant qu’environnement flexible, permettent aux grands modèles d’exercer leurs capacités et d’expérimenter (apprentissage et application des règles, création de règles), ce qui pourrait être la clé pour leur croissance continue.

Conclusion

Les jeux ne sont pas seulement des « jouets » pour les grands modèles, mais aussi un terrain d’entraînement, un outil de observation précise et une source d’inspiration créative. Ils nous montrent que ces modèles ne sont pas de simples machines de calcul, mais des entités intelligentes dotées de personnalités. Ils nous amènent également à réfléchir à la question suivante : l’IA du futur apprendra-t-elle à penser de manière plus complexe en jouant, et créera-t-elle même de nouvelles règles que nous ne pouvons pas imaginer ? Cela pourrait représenter une voie intéressante vers l’intelligence artificielle générale.