虎嗅

机器人还没大规模赚钱，“卖数据的”先成独角兽了

2026-06-02 阅读原文

核心内容总结

最近具身智能（简单说就是能像人一样感知、决策、执行的机器人智能）领域里，出现了“淘金者没赚到钱，卖铲子的先富了”的现象：机器人本体还没大规模盈利，但给机器人训练用的数据采集生意却火了——多家数据采集公司拿到大额融资和订单，博世、京东等大厂也纷纷入局。这个赛道已从机器人公司的附属业务，变成被资本单独定价、巨头押注的独立赛道，背后是数据缺口大、需求刚需、资本推动等原因。现在玩家分三类，大厂入局正在重构行业逻辑，未来数据质量和互通将决定终局。

1. 为啥数据采集比机器人本体先赚钱？三个原因让“卖铲人”抢跑

要理解这个问题，得先搞清楚具身智能的“数据命门”：

数据缺口大到离谱：大语言模型（比如GPT）有互联网几十年的文本当“口粮”，但具身模型需要的是机器人和真实世界互动的数据（比如抓东西、避障、操作机器的三维轨迹），这种数据得靠真机实打实干出来。目前全球高质量这类数据才50万小时，连大语言模型的两万分之一都不到，而且不同机器人、传感器的数据格式不统一（像各说各话），没法共享，缺口更严重。
需求是真刚需：不管是做模型的、造机器人的，都抢着买数据——“有多少要多少”。因为先拿到数据就能先训练模型、先交付客户、先占住场景，没人愿意慢半拍。比如博世、宁德时代都拿出真金白银和数据公司合作，把自己的工厂产线开放给机器人采集数据，就是因为他们知道：数据质量决定机器人能力上限。
资本往上游跑：2026年以来，机器人本体投资门槛变高（头部公司估值超百亿），小机构投不起，就转向上游数据采集——“押注整个行业对数据的刚需，比押单一机器人产品踏实多了”。

这三个因素撞在一起，让数据采集先吃到了商业化的甜头。

2. 赛道玩家分三类：专项公司、本体拆分、跨界巨头各有玩法

现在数据采集赛道的玩家已经分化，每种都有自己的生存逻辑：

专项数据公司：不造机器人，只做数据基础设施。比如光轮智能，成立才3年就成了全球首个具身数据独角兽（估值超10亿美元），一季度拿了5.5亿订单，客户包括英伟达、字节、智元机器人等，相当于行业的“水电煤供应商”。还有无问智科，建了国内最大的实体训练场（覆盖物流、工业等6种场景），日产数据上千小时，融资时还拉了风电、汽车检测等场景方，提前锁定了行业订单。
本体+数据拆分：造机器人的公司把数据业务独立出来。比如智元机器人，把数据采集、交易环节拆成觅蜂科技，十天就拿到数亿元融资——资本市场认可数据资产的独立价值。这种模式既能让机器人本体聚焦产品，又能让数据业务单独赚钱。
跨界巨头：靠自身场景优势入局。比如京东，发动60万人，计划两年积累1000万小时真实场景数据（用自己的物流、仓储场景，不用租场地）。百度智能云还搞了“具身智能数据超市”，像卖商品一样卖数据；中国移动建了家庭场景的训练场。这些巨头不是来抢小公司生意，而是要建“数据平台”——以后机器人公司可能像用云计算一样，直接从平台按需调用数据。

3. 京东等大厂入局：不是抢生意，是要重构行业规则

大厂进场，给赛道带来了两个关键变化：

规模效应碾压：京东有现成的物流仓储场景，60万人采集的数据量，是创业公司几年都达不到的。这种规模能快速降低数据成本，让下游机器人公司用得起高质量数据。
推动平台化：百度的“数据超市”、京东的“全链路基础设施”，本质是把分散的数据变成标准化的“商品”。以后小公司不用自己建采集团队，直接从平台买就行——就像现在开网店不用自己建服务器，用阿里云一样。这会让行业从“分散采集”走向“平台化供给”，创业公司得重新找位置：要么做平台的供应商，要么做数据工具商，要么和场景深度绑定。

4. 竞赛终局：谁能定数据质量标准，谁就握有未来钥匙

这场数据竞赛的终局，不是比谁的数据量更大，而是比这两点：

数据质量的话语权：宁德时代、博世这些场景方（有工厂、产线的企业）正在筛选数据合作伙伴——只有能提供“工业级精度、经受过真实工况检验”的数据公司，才能进入他们的生态。未来谁能定义“好数据”的标准（比如工业场景里，机器人抓零件的误差要小于0.1毫米），谁就掌握了数据的“阀门”。
数据互通能力：如果不同来源（真机采集、仿真数据、场景方数据）的数据能打通，形成统一的标准，这些数据就会变成物理AI时代的核心资产——就像现在的石油，谁拥有它谁就能主导行业。

最终改写具身智能行业版图的，可能不是台前的机器人本体，而是背后这些看不见的“数据燃料”。

（全文用大白话拆解，没有专业术语堆砌，希望非财经人士也能轻松看懂~）