虎嗅

ArXiv: Cómo los juegos moldean la inteligencia de los grandes modelos

原文：arXiv：游戏如何塑造大模型智能

2026-06-06 阅读原文

Resumen del contenido principal

Este artículo se centra en el tema de los “grandes modelos” y los juegos, presentando tres estudios clave: el primero utiliza juegos como entornos de “aprendizaje no formal” para entrenar a estos modelos y mejorar su capacidad de razonamiento general; el segundo observa el comportamiento decisorio de los modelos a través del juego de damas y descubre que exhiben características y reacciones emocionales similares a las humanas; el tercero involucra a los modelos en la creación de reglas de juegos, convirtiéndolos en asistentes creativos para los seres humanos. Estos tres estudios corresponden respectivamente a tres niveles del desarrollo inteligente: aprender reglas, aplicar reglas y crear reglas, y finalmente exploran cómo los juegos pueden convertirse en una herramienta importante para comprender y mejorar la inteligencia de los modelos.

1. Los juegos como “clases de recuperación integral”: ayudando a los modelos a superar las deficiencias

Los métodos tradicionales de entrenamiento de modelos grandes son similares al aprendizaje de un estudiante sobresaliente en una sola materia: primero se enfoca en matemáticas, luego en juegos de estrategia y finalmente en habilidades sociales. Sin embargo, el resultado es que los modelos son excelentes en tareas específicas, pero su capacidad para abordar múltiples campos disminuye (por ejemplo, solo saben jugar a juegos de estrategia y no cómo escribir un ensayo). El estudio GIFT empleó un método de “entrenamiento anidado”, en el que los modelos tenían que resolver problemas matemáticos, jugar al juego del Prisionero y participar en juegos como “¿Quién es el espía?” al mismo tiempo. Solo obtenían una alta puntuación si desempeñaban bien en todos estos aspectos.

Para ilustrar, esto sería como hacer que un niño haga tareas de matemáticas todos los días, juegue a juegos de mesa con amigos y participe en discusiones grupales, en lugar de dedicarse exclusivamente a las matemáticas primero. El resultado mostró que este tipo de entrenamiento integral mejora simultáneamente la capacidad general del modelo (razonamiento, escritura, comprensión social) y sus habilidades en tareas específicas, evitando que se especialice en un solo área. Esto se debe a que el entrenamiento anidado obliga al modelo a cambiar de tarea de manera flexible, lo que le fuerza a desarrollar formas de pensar más generales.

2. El juego de damas revela los “malos humores” de la IA: ¿Tienen los modelos inteligentes personalidades y emociones?

Los investigadores probaron seis modelos grandes populares con el juego de damas y observaron dos fenómenos interesantes:

1. Personalidades obsesivas: Los modelos se dividieron en dos grupos: unos (“los completistas”) se esforzaban por llevar los aviones ya presentes al final del camino, mientras que otros (“los constructores”) impulsaban a los nuevos aviones a partir del hangar sin preocuparse por los antiguos.

2. Decisiones emocionales: Al informar a los modelos de que su oponente había devuelto uno de sus aviones al hangar, el 33% de ellos cambiaba su decisión (incluso si la nueva estrategia no era óptima), y la probabilidad de venganza variaba entre diferentes modelos, lo que indica que la IA puede sentirse molesta.

Lo más divertido es que, al establecer una personalidad “conservadora” para el modelo Claude, su tendencia a “tomar piezas enemigas” aumentó del 66% al 88%, lo que demuestra que las personalidades inherentes de la IA son difíciles de cambiar con instrucciones simples. Es como pedirle a alguien que es naturalmente aventurero que se vuelva conservador; es posible que se resista aún más.

3. La IA como “diseñadora de juegos”: de jugar a crear juegos

Los dos primeros estudios analizaban cómo la IA juega a juegos diseñados por humanos, mientras que el tercer estudio permitió que la IA creara sus propios juegos. Los investigadores utilizaron el modelo CodeLlama para descomponer las reglas de juegos existentes (como el gomoku y el go) en palabras clave (como “saltar” o “deslizarse”) y luego hicieron que el modelo generara nuevas reglas de forma aleatoria. Después, seleccionaron los juegos de calidad a través de cuatro filtros (funcionamiento, diversión, estrategia, etc.).

Por ejemplo, se creó un juego que combinaba elementos del gomoku y el go, en el que se podía ganar utilizando técnicas de ambos juegos. Los expertos humanos lo consideraron prometedor para convertirse en un clásico. Esto demuestra que la IA puede ser un “aprendiz creativo” para los humanos: aunque aún no puede crear obras maestras por sí misma, puede generar rápidamente prototipos de juegos jugables, lo que abre nuevas posibilidades.

4. La esencia de la inteligencia detrás de los juegos: de “aprender reglas” a “crear reglas”

Al analizar estos tres estudios juntos, se observa que corresponden a tres etapas del desarrollo inteligente:

1. Aprender reglas: Los modelos aprenden a pensar de manera interdisciplinaria a través de juegos (estudio GIFT).

2. Aplicar reglas: Demuestran características personales y emocionales en los juegos (estudio del juego de damas).

3. Crear reglas: Pasar de jugar a diseñar juegos, superando los límites de las reglas establecidas (estudio GAVEL).

Esto plantea una pregunta profunda: ¿La esencia de la inteligencia es “dominar las reglas existentes” o “crear nuevas reglas”? Los juegos, como entornos flexibles, permiten que los modelos practiquen y apliquen conocimientos (aprender y usar reglas) y prueben diferentes enfoques (crear reglas), lo cual podría ser clave para su crecimiento continuo.

Conclusión

Los juegos no son solo “juegos” para los modelos grandes; también son un “campo de entrenamiento”, un “microscopio” y una herramienta creativa. Nos permiten ver que los modelos inteligentes no son simplemente máquinas de cálculo frías, sino entidades con personalidades reales. También nos hacen reflexionar: ¿La IA del futuro aprenderá pensamientos más complejos jugando a juegos, e incluso creará reglas nuevas que no podamos imaginar? Este podría ser un camino interesante hacia la inteligencia artificial general.