虎嗅

对话橡木果姜峣: “语言没有本能,操作有”,一群清华博士用8年时间押注具身新路线

核心内容总结

清华姜峣团队(8名博士全跟随)反主流AI路线,从神经科学发现“操作有本能、语言无本能”,花8年走“本能驱动”机器人操作路径——不靠大数据堆模型,而是给机器人植入类似人类的触觉本能反射(如抓东西时感知滑移自动调力),解决了VLA(视觉-语言-动作)和世界模型在工业场景失灵的问题,目前在化妆品、香薰等快消行业商用,主打“换产不用调机器”的痛点。

一、为啥他们不追AI热点?——操作和语言根本不是一回事

主流AI(比如ChatGPT)靠“大数据堆模型”成功,所以大家觉得机器人操作也能这么干:用视觉看、语言指令,再堆数据训练动作。但姜峣在哈佛研究人脑时发现:语言是后天学的(不教不会说话),但抓东西不用教人人都会,而且方式几乎一样——这说明操作背后有“本能”,不是靠数据堆出来的。

举个例子:抓一瓶水,传统方法要先知道水的重量、摩擦系数(没抓之前根本不知道);数据驱动要模拟各种情况(重的、软的、滑的),数据量大到离谱。但本能驱动不用这些:机器人感知到物体滑移,就自动加力;不滑了就松点,像人一样“凭手感”。

二、VLA和世界模型为啥失灵?——硬件差异和接触力学是死穴

去年火的VLA(视觉-语言-动作)和今年的世界模型,在工业场景都栽了跟头:

  • VLA的问题:把“任务(比如抓东西)”和“硬件(机器人的手)”绑死了。比如两个一模一样的夹爪,松紧不同,VLA训练的模型就不能通用——硬套过去,机器人直接抓不住。而且VLA缺触觉,只会模仿视觉动作(比如人扶眼镜,机器人也学,但其实对抓东西没用)。
  • 世界模型的问题:想靠仿真模拟真实物理世界,但接触行为(比如推一支笔)比预测星球运动还难——仿真器根本仿不出所有细节(比如摩擦系数、硬件阻力)。脱离真实环境的仿真,就是纸上谈兵。

三、怎么让机器人有“手感”?——触觉传感器+三种本能反射

姜峣团队花7年做触觉传感器,能获取物体的软硬、摩擦、滑移等信息,然后给机器人植入三种“本能反射”:

1. 定向反射:看到东西,手自动靠过去;

2. 探索反射:关灯也能摸(靠触觉找物体);

3. 抓握反射:感知滑移自动调力。

比如机器人抓身份证:它没有大拇指,抠不起来,就自己把身份证翘起来夹——这不是程序写死的,是本能催生出的“涌现行为”,像小孩自己摸索解决问题。

四、商用为啥先选快消?——汽车行业碰壁,快消痛点太精准

一开始他们找汽车行业,结果傻眼:汽车产线节拍太快(一分钟100个动作),必须机械化;而且主机厂利润薄,不愿花钱。后来发现快消行业(化妆品、香薰)的痛点正好对口

  • 产品种类多(上百种),换产频繁(几周一次),传统自动化每次换产都要调机器,停产损失大;
  • 比如香薰扶正灯芯:灯芯软、粗细不一,力大拔出来,力小拽不动——必须靠触觉本能。一条线七八百人干的活,机器人两台就能搞定。

他们的优势是“零部署成本”:机器人不用调,一上来就能用,越用越熟练。

五、8个博士为啥全跟他创业?——信念比高薪重要,创业是唯一出路

团队选拔时就卡“对本能的信念”:计算机背景的学生如果改不了数据驱动思维,根本进不来。8个博士全跟随,是因为:

  • 信念一致:相信本能驱动是对的,不想走主流路线;
  • 学校迭代慢:学校三年做一台样机,市场化企业一年卖几千台,不创业就会被超越;
  • 姜峣的坚持:他愿意花10-30年走这条路,团队信任他能成。

创业后虽然累(半年像过五年),但速度上来了:产品能出货,在用户那里采数据闭环,越来越成熟。

最后:反共识的价值

当主流AI都在“堆数据、搞仿真”时,姜峣团队从人类本能出发,找到了机器人操作的另一条路——不是追求“通用操作”,而是先把“抓东西”做到比人好。这种“反共识”的坚持,恰恰解决了行业的真实痛点,也给AI发展提供了新方向:向人类本身学习,可能比堆数据更有效