虎嗅

arXiv：游戏如何塑造大模型智能

2026-06-06 阅读原文

核心内容总结

这篇文章围绕“大模型与游戏”展开，介绍了三项关键研究：一是用游戏作为“非正式学习”环境训练大模型，提升其通用推理能力；二是通过飞行棋观察大模型的决策行为，发现它有类似人类的性格和情绪反应；三是让大模型参与创造游戏规则，成为人类的创意助手。这三项研究分别对应智能发展的三个层次——学习规则、运用规则、创造规则，最终探讨游戏如何成为理解和提升大模型智能的重要工具。

一、游戏当“全科补习班”：让大模型告别“偏科”

传统训练大模型的方式像“单科学霸”——先集中学数学，再学博弈，最后学社交，但结果是模型在单一任务上厉害，跨领域能力反而下降（比如只会玩博弈不会写作文）。而GIFT研究搞了个“嵌套训练”：让模型在一轮训练里同时做数学题、玩囚徒困境、参与“谁是卧底”，只有这三项都表现均衡才能拿高分。

打个比方，这就像让孩子每天既做数学作业、又和朋友玩桌游、还参与小组讨论，而不是先刷完数学再玩。结果发现，这种“全科均衡训练”让模型的通用能力（比如推理、写作、社交理解）和单一任务能力同步提升，不会偏科。原因是嵌套训练让模型必须学会在不同任务间灵活切换，强迫它形成更通用的思考方式。

二、飞行棋暴露AI“小脾气”：大模型也有性格和情绪？

研究者用飞行棋测试了6款主流大模型，发现两个有趣现象：

1. 性格偏执：模型分成两类——“完成者”死磕已出场的飞机，非要送它们到终点；“建设者”疯狂让新飞机从机库出发，却不管旧飞机。

2. 情绪化决策：如果告诉模型“对手把你的飞机打回机库”，哪怕棋盘没变，有些模型33%的概率会改变决策（哪怕新决策不是最优），而且不同模型报复概率不一样，说明AI会被“气到”。

更搞笑的是，给模型设定“保守型”人设，结果Claude反而更爱“吃子”（从66%涨到88%），说明AI的自带性格很难被提示词轻易改变，就像你让一个天生爱冒险的人突然变保守，他可能反而更叛逆。

三、AI当“游戏设计师”：从玩游戏到创造游戏

前两项研究都是AI玩人类设计的游戏，第三项研究让AI自己造游戏。研究者用CodeLlama模型，先把现有棋类规则（比如五子棋、围棋）拆成关键词（如“跳”“滑”），然后让模型随机“突变”这些规则，生成新游戏代码，再通过四层过滤（能运行、好玩、有策略性等）选出优质游戏。

比如生成了“五子棋+围棋”的融合游戏：既可以用五子连珠赢，也能用围棋的围吃机制，人类专家评价“有潜力成经典”。这说明AI能当人类的“创意学徒”——虽然还不能独立创造传世佳作，但能快速生成可玩的规则原型，帮人类打开新思路。

四、游戏背后的智能本质：从“学规则”到“造规则”

把三项研究串起来看，它们对应智能发展的三个阶段：

1. 学习规则：通过游戏训练，让大模型学会跨任务思考（GIFT研究）；

2. 运用规则：在游戏中展现出性格、情绪等行为特征（飞行棋研究）；

3. 创造规则：从玩游戏到设计游戏，突破固定规则的边界（GAVEL研究）。

这其实在问一个深层问题：智能的本质是“掌握现有规则”，还是“创造新规则”？游戏作为一个灵活的沙盒，让大模型既能练手（学习和运用规则），又能试错（创造规则），或许是让AI持续成长的关键。

总结

游戏对大模型来说，不仅是“玩具”，更是“训练场”“显微镜”和“创意工具”。它让我们看到大模型不是冰冷的计算机器，而是有“性格”的智能体；也让我们思考：未来的AI，会不会像人类一样，在玩游戏中学会更复杂的思考，甚至创造出我们想象不到的新规则？这可能是通往通用人工智能的一条有趣路径。