虎嗅

对话橡木果姜峣： “语言没有本能，操作有”，一群清华博士用8年时间押注具身新路线

2026-06-02 阅读原文

核心内容总结

清华姜峣团队（8名博士全跟随）反主流AI路线，从神经科学发现“操作有本能、语言无本能”，花8年走“本能驱动”机器人操作路径——不靠大数据堆模型，而是给机器人植入类似人类的触觉本能反射（如抓东西时感知滑移自动调力），解决了VLA（视觉-语言-动作）和世界模型在工业场景失灵的问题，目前在化妆品、香薰等快消行业商用，主打“换产不用调机器”的痛点。

一、为啥他们不追AI热点？——操作和语言根本不是一回事

主流AI（比如ChatGPT）靠“大数据堆模型”成功，所以大家觉得机器人操作也能这么干：用视觉看、语言指令，再堆数据训练动作。但姜峣在哈佛研究人脑时发现：语言是后天学的（不教不会说话），但抓东西不用教人人都会，而且方式几乎一样——这说明操作背后有“本能”，不是靠数据堆出来的。

举个例子：抓一瓶水，传统方法要先知道水的重量、摩擦系数（没抓之前根本不知道）；数据驱动要模拟各种情况（重的、软的、滑的），数据量大到离谱。但本能驱动不用这些：机器人感知到物体滑移，就自动加力；不滑了就松点，像人一样“凭手感”。

二、VLA和世界模型为啥失灵？——硬件差异和接触力学是死穴

去年火的VLA（视觉-语言-动作）和今年的世界模型，在工业场景都栽了跟头：

VLA的问题：把“任务（比如抓东西）”和“硬件（机器人的手）”绑死了。比如两个一模一样的夹爪，松紧不同，VLA训练的模型就不能通用——硬套过去，机器人直接抓不住。而且VLA缺触觉，只会模仿视觉动作（比如人扶眼镜，机器人也学，但其实对抓东西没用）。
世界模型的问题：想靠仿真模拟真实物理世界，但接触行为（比如推一支笔）比预测星球运动还难——仿真器根本仿不出所有细节（比如摩擦系数、硬件阻力）。脱离真实环境的仿真，就是纸上谈兵。

三、怎么让机器人有“手感”？——触觉传感器+三种本能反射

姜峣团队花7年做触觉传感器，能获取物体的软硬、摩擦、滑移等信息，然后给机器人植入三种“本能反射”：

1. 定向反射：看到东西，手自动靠过去；

2. 探索反射：关灯也能摸（靠触觉找物体）；

3. 抓握反射：感知滑移自动调力。

比如机器人抓身份证：它没有大拇指，抠不起来，就自己把身份证翘起来夹——这不是程序写死的，是本能催生出的“涌现行为”，像小孩自己摸索解决问题。

四、商用为啥先选快消？——汽车行业碰壁，快消痛点太精准

一开始他们找汽车行业，结果傻眼：汽车产线节拍太快（一分钟100个动作），必须机械化；而且主机厂利润薄，不愿花钱。后来发现快消行业（化妆品、香薰）的痛点正好对口：

产品种类多（上百种），换产频繁（几周一次），传统自动化每次换产都要调机器，停产损失大；
比如香薰扶正灯芯：灯芯软、粗细不一，力大拔出来，力小拽不动——必须靠触觉本能。一条线七八百人干的活，机器人两台就能搞定。

他们的优势是“零部署成本”：机器人不用调，一上来就能用，越用越熟练。

五、8个博士为啥全跟他创业？——信念比高薪重要，创业是唯一出路

团队选拔时就卡“对本能的信念”：计算机背景的学生如果改不了数据驱动思维，根本进不来。8个博士全跟随，是因为：

信念一致：相信本能驱动是对的，不想走主流路线；
学校迭代慢：学校三年做一台样机，市场化企业一年卖几千台，不创业就会被超越；
姜峣的坚持：他愿意花10-30年走这条路，团队信任他能成。

创业后虽然累（半年像过五年），但速度上来了：产品能出货，在用户那里采数据闭环，越来越成熟。

最后：反共识的价值

当主流AI都在“堆数据、搞仿真”时，姜峣团队从人类本能出发，找到了机器人操作的另一条路——不是追求“通用操作”，而是先把“抓东西”做到比人好。这种“反共识”的坚持，恰恰解决了行业的真实痛点，也给AI发展提供了新方向：向人类本身学习，可能比堆数据更有效。