虎嗅

揭秘具身数据产业链:一家数据公司的独角兽之路

该文章尚未提供 English 解读,以下为中文版内容。

核心内容总结

这篇新闻讲了一个新兴职业——“具身智能数据采集员”(简单说就是教机器人做动作的人)背后的产业链逻辑:采集员干着叠衣服、擦桌子的活,时薪最低才17元,但他们生成的数据最终能卖到300元/小时以上,中间差价超10倍;数据公司靠“一份数据卖多次”赚大钱;不过这个行业未来可能面临头部企业自研数据、开源数据冲击等挑战。

一、产业链像个金字塔:谁在赚谁的钱?

整个产业链分四层,像个金字塔:

  • 最底层(燃料):采集员

就是新闻里的宝妈、全职员工等,负责给机器人提供动作数据。分三类:

  • 居家采集员:宝妈戴夹爪设备在家叠衣服,宣传时薪30元,实际有效时薪(去掉休息、调试时间)才17元,月入3000-4000元;
  • 场地采集员:大专生在数据中心穿动捕设备干活,日薪180-250元(时薪22-31元);
  • 遥操作员:专业技术人员戴力反馈手套,手把手教机器人做精密动作(比如拧螺丝),日薪300元以上(时薪75元+),是最贵的采集方式。
  • 中间层(中间商):平台和设备商
  • 平台:连接采集员和数据公司的“中介”,比如京东在宿迁建了采集社区,计划拉10万人干活;还有外包团队接单后分给采集员,抽成30%-50%;
  • 设备商:卖/租捕捉动作的设备,比如一套动捕设备10-50万,一套简易夹爪设备2800元,赚硬件钱。
  • 顶层(炼金师):数据公司

把采集来的原始数据(比如叠衣服的动作视频)清洗、标注(标清楚每个动作步骤)、加工成机器人能训练的产品,再卖给客户。代表公司有光轮智能、觅蜂科技等。

  • 金主(买家):应用层

掏钱买数据的三类企业:

  • 人形机器人公司(如特斯拉、优必选):需要数据训练机器人走路、干活;
  • 大模型团队(如Google DeepMind):需要人类动作数据理解物理世界;
  • 工厂/物流/医疗:需要特定场景的数据(比如工厂里机器人搬货)。

二、采集员17元/小时的活,数据能卖300元:差价被谁分了?

采集成本和数据售价差得远:

  • 居家采集员有效时薪17元 → 数据卖300元/小时,差价17倍;
  • 遥操作员时薪275元 → 数据卖800元/小时,差价2.9倍;
  • 场地采集员时薪22-31元 → 数据卖200-500元/小时,差价6-22倍。

差价去哪了?

被平台抽成(30%-50%)、数据公司的技术处理费(清洗/标注)、设备折旧费,还有最重要的——数据复售的溢价(一份数据卖多次)。

三、数据公司的“躺赚”秘诀:一次采集,无限卖

数据公司真正的利润不是卖一次数据,而是复售

比如采集一份“叠衣服”的数据花了1000元,卖给特斯拉赚300元,再卖给优必选赚300元,第三次卖给智元又赚300元……后面每卖一次几乎不用额外成本(只改改格式),但收入都是纯赚。

这就像软件:开发一次成本高,复制卖出去成本为零,卖得越多越赚钱。

四、千亿市场但隐忧不少:这生意能长久吗?

2026年中国具身智能市场规模预计1万亿,其中数据服务占15%(1500亿),但有三个挑战:

1. 头部企业自己干:比如智元机器人成立了自己的数据公司,宇树科技IPO募资建自己的数据集,未来可能少买第三方数据;

2. 开源数据冲击:一些成熟数据被免费开放,比如宇树科技开源了340小时的机器人动作数据,第三方数据的需求会减少;

3. 真实场景数据难抢:机器人要在工厂干活,需要真实工业现场的数据,头部企业能直接和工厂合作拿到一手数据,第三方数据的性价比就变低了。

未来趋势:第三方数据公司可能只能服务中小机器人厂商(没能力自研数据),或者做小众场景(比如医疗机器人的特殊动作数据)。

一句话总结

这个行业现在是“底层辛苦赚小钱,顶层靠复售赚大钱”,但随着头部企业自研和开源数据的发展,第三方数据公司的日子可能会越来越不好过。普通人想做采集员可以赚点零花钱,但别指望发大财;想投资的话,得看数据公司有没有独特的场景数据优势。