虎嗅

arXiv:游戏如何塑造大模型智能

核心内容总结

这篇文章围绕“大模型与游戏”展开,介绍了三项关键研究:一是用游戏作为“非正式学习”环境训练大模型,提升其通用推理能力;二是通过飞行棋观察大模型的决策行为,发现它有类似人类的性格和情绪反应;三是让大模型参与创造游戏规则,成为人类的创意助手。这三项研究分别对应智能发展的三个层次——学习规则、运用规则、创造规则,最终探讨游戏如何成为理解和提升大模型智能的重要工具。

一、游戏当“全科补习班”:让大模型告别“偏科”

传统训练大模型的方式像“单科学霸”——先集中学数学,再学博弈,最后学社交,但结果是模型在单一任务上厉害,跨领域能力反而下降(比如只会玩博弈不会写作文)。而GIFT研究搞了个“嵌套训练”:让模型在一轮训练里同时做数学题、玩囚徒困境、参与“谁是卧底”,只有这三项都表现均衡才能拿高分。

打个比方,这就像让孩子每天既做数学作业、又和朋友玩桌游、还参与小组讨论,而不是先刷完数学再玩。结果发现,这种“全科均衡训练”让模型的通用能力(比如推理、写作、社交理解)和单一任务能力同步提升,不会偏科。原因是嵌套训练让模型必须学会在不同任务间灵活切换,强迫它形成更通用的思考方式。

二、飞行棋暴露AI“小脾气”:大模型也有性格和情绪?

研究者用飞行棋测试了6款主流大模型,发现两个有趣现象:

1. 性格偏执:模型分成两类——“完成者”死磕已出场的飞机,非要送它们到终点;“建设者”疯狂让新飞机从机库出发,却不管旧飞机。

2. 情绪化决策:如果告诉模型“对手把你的飞机打回机库”,哪怕棋盘没变,有些模型33%的概率会改变决策(哪怕新决策不是最优),而且不同模型报复概率不一样,说明AI会被“气到”。

更搞笑的是,给模型设定“保守型”人设,结果Claude反而更爱“吃子”(从66%涨到88%),说明AI的自带性格很难被提示词轻易改变,就像你让一个天生爱冒险的人突然变保守,他可能反而更叛逆。

三、AI当“游戏设计师”:从玩游戏到创造游戏

前两项研究都是AI玩人类设计的游戏,第三项研究让AI自己造游戏。研究者用CodeLlama模型,先把现有棋类规则(比如五子棋、围棋)拆成关键词(如“跳”“滑”),然后让模型随机“突变”这些规则,生成新游戏代码,再通过四层过滤(能运行、好玩、有策略性等)选出优质游戏。

比如生成了“五子棋+围棋”的融合游戏:既可以用五子连珠赢,也能用围棋的围吃机制,人类专家评价“有潜力成经典”。这说明AI能当人类的“创意学徒”——虽然还不能独立创造传世佳作,但能快速生成可玩的规则原型,帮人类打开新思路。

四、游戏背后的智能本质:从“学规则”到“造规则”

把三项研究串起来看,它们对应智能发展的三个阶段:

1. 学习规则:通过游戏训练,让大模型学会跨任务思考(GIFT研究);

2. 运用规则:在游戏中展现出性格、情绪等行为特征(飞行棋研究);

3. 创造规则:从玩游戏到设计游戏,突破固定规则的边界(GAVEL研究)。

这其实在问一个深层问题:智能的本质是“掌握现有规则”,还是“创造新规则”?游戏作为一个灵活的沙盒,让大模型既能练手(学习和运用规则),又能试错(创造规则),或许是让AI持续成长的关键。

总结

游戏对大模型来说,不仅是“玩具”,更是“训练场”“显微镜”和“创意工具”。它让我们看到大模型不是冰冷的计算机器,而是有“性格”的智能体;也让我们思考:未来的AI,会不会像人类一样,在玩游戏中学会更复杂的思考,甚至创造出我们想象不到的新规则?这可能是通往通用人工智能的一条有趣路径。