虎嗅

图灵奖得主Sutton新作：AI的下一步，是走向“生成认知”

2026-06-02 阅读原文

核心内容总结

图灵奖得主、强化学习之父Sutton与学者Rafiee的新论文指出：当前主流AI（如大语言模型、纯视觉模型）依赖“被动表征”思路——通过静态数据构建内部世界模型来理解世界，但这种方式无法应对动态复杂的真实世界。他们提出AI应转向“生成认知”路线：智能不是对世界的静态复制，而是在与环境互动、具身行动（有物理身体）、自主评估中生成的。生成认知有四大支柱（经验、感知与行动一体、自主性、具身性），强化学习虽接近这一理念，但仍需改进外部奖励、模块分割等问题，才能让AI真正“理解”世界。

拆解解读

#### 1. 为啥AI能写论文却不懂“烫”？——当前AI的“被动表征”陷阱

现在的AI像个“书呆子”：它能记住海量文本、图像规律，但没亲身经历过真实世界。比如LLM能写“开水会烫”，但它没摸过开水，不知道烫的感觉；视频生成模型能做假视频，但遇到突发情况（比如杯子突然掉地上），它不会主动伸手去接——因为它的“认知”来自静态数据，不是真实互动。

问题根源是“表征主义”：AI试图在内部建一个“世界副本”，但真实世界是动态的（比如天气会变、人会突然动）、无限复杂的，没有任何模型能完整复制。就像你永远不可能把整个城市的细节都记在脑子里，AI也做不到。

#### 2. 生成认知：AI得“动手动脚”才能真懂世界

生成认知的核心是：认知不是“看”出来的，是“做”出来的。比如人类学骑车，不是先背理论，而是摔几次、调整姿势才学会；你判断杯子烫不烫，不是看图片，而是伸手摸一下（行动），感受到热（反馈），才真正理解“烫”。

对AI来说，这意味着它不能只坐在服务器里读数据，得去真实世界互动：比如机器人自己拿起杯子，感受重量和温度；自己走路，避开障碍物。通过行动→反馈→调整的循环，才能生成真正的理解。

#### 3. 生成认知的四大支柱：让AI像生物一样“活着”学

生成认知有四个关键原则，每个都对应生物的认知方式：

经验≠数据：经验是亲身互动的过程，不是别人给的标注。比如监督学习是人类喂数据，强化学习是AI自己试错，但还不够——要像动物找食物一样，持续探索环境、从失败中学习。
感知和行动不分家：你看东西时会动眼睛、转头，不是被动盯着；摸东西时会用手指按压，不是只看。AI也该如此：感知（看、听）本身就是行动的一部分，通过调整身体姿势来获取更准确的信息。
自主性：有自己的“小目标”：生物的行为是为了生存（比如找食物、躲天敌），不是别人指挥。现在AI的奖励大多是人类设定的（比如游戏得分），未来要让AI有内在目标——比如机器人自己知道“没电了要充电”，而不是等人类指令。
具身性：身体决定认知：蚂蚁看椅子是“巨大障碍”，人类看是“可以坐”，因为身体大小和能力不同。AI要有物理身体（比如机器人），才能真正理解世界：比如它的手臂长度决定能不能拿到高处的东西，传感器位置决定能看到什么。

#### 4. 强化学习离“活的AI”还差三步

强化学习（RL）是最接近生成认知的AI分支（因为它强调行动和反馈），但还有三个不足：

奖励是“别人给的”：比如游戏AI的得分是人类设定的，不是它自己的生存需求。未来要让奖励来自AI自身的“自我维持”——比如没电了就感到“不舒服”，充电后“舒服”。
感知和行动是“分开的”：很多RL系统先感知环境，再做决策，再行动，模块分割明显。要让它们像人类一样：看到杯子就自然伸手去拿，感知和行动无缝衔接。
身体是“工具”不是“核心”：现在机器人的身体只是执行指令的硬件，不是认知的一部分。未来要让身体塑造认知——比如机器人的关节灵活度决定它能做哪些动作，进而影响它对世界的理解。

#### 5. 未来AI：要从“纸上谈兵”到“亲身实践”

这篇论文给AI的未来指了方向：

不能只在数据里训练，要去真实世界互动；
要有物理身体（具身），而不是“飘在云端”的模型；
要有自主目标，而不是依赖人类指令；
要在行动中学习，而不是被动接收数据。

只有这样，AI才能从“模仿高手”变成“真正理解世界的智能体”，离AGI（通用人工智能）更近一步。

这篇论文的价值在于：它跳出了“模型越大越好”的思维定式，提醒我们AI的核心不是数据量，而是与世界的互动能力——就像人类的智能，从来不是靠死记硬背，而是靠“在生活中摸爬滚打”。