虎嗅

图灵奖得主Sutton新作:AI的下一步,是走向“生成认知”

核心内容总结

图灵奖得主、强化学习之父Sutton与学者Rafiee的新论文指出:当前主流AI(如大语言模型、纯视觉模型)依赖“被动表征”思路——通过静态数据构建内部世界模型来理解世界,但这种方式无法应对动态复杂的真实世界。他们提出AI应转向“生成认知”路线:智能不是对世界的静态复制,而是在与环境互动、具身行动(有物理身体)、自主评估中生成的。生成认知有四大支柱(经验、感知与行动一体、自主性、具身性),强化学习虽接近这一理念,但仍需改进外部奖励、模块分割等问题,才能让AI真正“理解”世界。

拆解解读

#### 1. 为啥AI能写论文却不懂“烫”?——当前AI的“被动表征”陷阱

现在的AI像个“书呆子”:它能记住海量文本、图像规律,但没亲身经历过真实世界。比如LLM能写“开水会烫”,但它没摸过开水,不知道烫的感觉;视频生成模型能做假视频,但遇到突发情况(比如杯子突然掉地上),它不会主动伸手去接——因为它的“认知”来自静态数据,不是真实互动。

问题根源是“表征主义”:AI试图在内部建一个“世界副本”,但真实世界是动态的(比如天气会变、人会突然动)、无限复杂的,没有任何模型能完整复制。就像你永远不可能把整个城市的细节都记在脑子里,AI也做不到。

#### 2. 生成认知:AI得“动手动脚”才能真懂世界

生成认知的核心是:认知不是“看”出来的,是“做”出来的。比如人类学骑车,不是先背理论,而是摔几次、调整姿势才学会;你判断杯子烫不烫,不是看图片,而是伸手摸一下(行动),感受到热(反馈),才真正理解“烫”。

对AI来说,这意味着它不能只坐在服务器里读数据,得去真实世界互动:比如机器人自己拿起杯子,感受重量和温度;自己走路,避开障碍物。通过行动→反馈→调整的循环,才能生成真正的理解。

#### 3. 生成认知的四大支柱:让AI像生物一样“活着”学

生成认知有四个关键原则,每个都对应生物的认知方式:

  • 经验≠数据:经验是亲身互动的过程,不是别人给的标注。比如监督学习是人类喂数据,强化学习是AI自己试错,但还不够——要像动物找食物一样,持续探索环境、从失败中学习。
  • 感知和行动不分家:你看东西时会动眼睛、转头,不是被动盯着;摸东西时会用手指按压,不是只看。AI也该如此:感知(看、听)本身就是行动的一部分,通过调整身体姿势来获取更准确的信息。
  • 自主性:有自己的“小目标”:生物的行为是为了生存(比如找食物、躲天敌),不是别人指挥。现在AI的奖励大多是人类设定的(比如游戏得分),未来要让AI有内在目标——比如机器人自己知道“没电了要充电”,而不是等人类指令。
  • 具身性:身体决定认知:蚂蚁看椅子是“巨大障碍”,人类看是“可以坐”,因为身体大小和能力不同。AI要有物理身体(比如机器人),才能真正理解世界:比如它的手臂长度决定能不能拿到高处的东西,传感器位置决定能看到什么。

#### 4. 强化学习离“活的AI”还差三步

强化学习(RL)是最接近生成认知的AI分支(因为它强调行动和反馈),但还有三个不足:

  • 奖励是“别人给的”:比如游戏AI的得分是人类设定的,不是它自己的生存需求。未来要让奖励来自AI自身的“自我维持”——比如没电了就感到“不舒服”,充电后“舒服”。
  • 感知和行动是“分开的”:很多RL系统先感知环境,再做决策,再行动,模块分割明显。要让它们像人类一样:看到杯子就自然伸手去拿,感知和行动无缝衔接。
  • 身体是“工具”不是“核心”:现在机器人的身体只是执行指令的硬件,不是认知的一部分。未来要让身体塑造认知——比如机器人的关节灵活度决定它能做哪些动作,进而影响它对世界的理解。

#### 5. 未来AI:要从“纸上谈兵”到“亲身实践”

这篇论文给AI的未来指了方向:

  • 不能只在数据里训练,要去真实世界互动;
  • 要有物理身体(具身),而不是“飘在云端”的模型;
  • 要有自主目标,而不是依赖人类指令;
  • 要在行动中学习,而不是被动接收数据。

只有这样,AI才能从“模仿高手”变成“真正理解世界的智能体”,离AGI(通用人工智能)更近一步。

这篇论文的价值在于:它跳出了“模型越大越好”的思维定式,提醒我们AI的核心不是数据量,而是与世界的互动能力——就像人类的智能,从来不是靠死记硬背,而是靠“在生活中摸爬滚打”。