核心内容总结
清华姜峣团队(8名博士全跟随)反主流AI路线,从神经科学发现“操作有本能、语言无本能”,花8年走“本能驱动”机器人操作路径——不靠大数据堆模型,而是给机器人植入类似人类的触觉本能反射(如抓东西时感知滑移自动调力),解决了VLA(视觉-语言-动作)和世界模型在工业场景失灵的问题,目前在化妆品、香薰等快消行业商用,主打“换产不用调机器”的痛点。
一、为啥他们不追AI热点?——操作和语言根本不是一回事
主流AI(比如ChatGPT)靠“大数据堆模型”成功,所以大家觉得机器人操作也能这么干:用视觉看、语言指令,再堆数据训练动作。但姜峣在哈佛研究人脑时发现:语言是后天学的(不教不会说话),但抓东西不用教人人都会,而且方式几乎一样——这说明操作背后有“本能”,不是靠数据堆出来的。
举个例子:抓一瓶水,传统方法要先知道水的重量、摩擦系数(没抓之前根本不知道);数据驱动要模拟各种情况(重的、软的、滑的),数据量大到离谱。但本能驱动不用这些:机器人感知到物体滑移,就自动加力;不滑了就松点,像人一样“凭手感”。
二、VLA和世界模型为啥失灵?——硬件差异和接触力学是死穴
去年火的VLA(视觉-语言-动作)和今年的世界模型,在工业场景都栽了跟头:
- VLA的问题:把“任务(比如抓东西)”和“硬件(机器人的手)”绑死了。比如两个一模一样的夹爪,松紧不同,VLA训练的模型就不能通用——硬套过去,机器人直接抓不住。而且VLA缺触觉,只会模仿视觉动作(比如人扶眼镜,机器人也学,但其实对抓东西没用)。
- 世界模型的问题:想靠仿真模拟真实物理世界,但接触行为(比如推一支笔)比预测星球运动还难——仿真器根本仿不出所有细节(比如摩擦系数、硬件阻力)。脱离真实环境的仿真,就是纸上谈兵。
三、怎么让机器人有“手感”?——触觉传感器+三种本能反射
姜峣团队花7年做触觉传感器,能获取物体的软硬、摩擦、滑移等信息,然后给机器人植入三种“本能反射”:
1. 定向反射:看到东西,手自动靠过去;
2. 探索反射:关灯也能摸(靠触觉找物体);
3. 抓握反射:感知滑移自动调力。
比如机器人抓身份证:它没有大拇指,抠不起来,就自己把身份证翘起来夹——这不是程序写死的,是本能催生出的“涌现行为”,像小孩自己摸索解决问题。
四、商用为啥先选快消?——汽车行业碰壁,快消痛点太精准
一开始他们找汽车行业,结果傻眼:汽车产线节拍太快(一分钟100个动作),必须机械化;而且主机厂利润薄,不愿花钱。后来发现快消行业(化妆品、香薰)的痛点正好对口:
- 产品种类多(上百种),换产频繁(几周一次),传统自动化每次换产都要调机器,停产损失大;
- 比如香薰扶正灯芯:灯芯软、粗细不一,力大拔出来,力小拽不动——必须靠触觉本能。一条线七八百人干的活,机器人两台就能搞定。
他们的优势是“零部署成本”:机器人不用调,一上来就能用,越用越熟练。
五、8个博士为啥全跟他创业?——信念比高薪重要,创业是唯一出路
团队选拔时就卡“对本能的信念”:计算机背景的学生如果改不了数据驱动思维,根本进不来。8个博士全跟随,是因为:
- 信念一致:相信本能驱动是对的,不想走主流路线;
- 学校迭代慢:学校三年做一台样机,市场化企业一年卖几千台,不创业就会被超越;
- 姜峣的坚持:他愿意花10-30年走这条路,团队信任他能成。
创业后虽然累(半年像过五年),但速度上来了:产品能出货,在用户那里采数据闭环,越来越成熟。
最后:反共识的价值
当主流AI都在“堆数据、搞仿真”时,姜峣团队从人类本能出发,找到了机器人操作的另一条路——不是追求“通用操作”,而是先把“抓东西”做到比人好。这种“反共识”的坚持,恰恰解决了行业的真实痛点,也给AI发展提供了新方向:向人类本身学习,可能比堆数据更有效。