第一财经

国家层面首次系统部署,六大行动引爆行业高质量数据集建设

核心内容总结

国家数据局近日印发《行业高质量数据集建设行动实施方案》,这是国家首次系统性部署数据赋能AI发展。方案围绕“数据集建设全链条”,聚焦科学研究、工业制造、低空经济等重点领域,通过六大专项行动,目标到2028年建成一批高质量数据集,让数据成为AI的“高标号燃料”,推动数据与AI深度融合,催生智能经济新增长点。简单说:国家要把“原始数据”炼化成“AI能用的营养餐”,让AI在各行业跑得更稳、更赚钱。

一、为啥现在急着搞高质量数据集?

AI发展到今天,“吃什么”比“怎么吃”更重要。

  • AI的“燃料”不能是“地沟油”:普通原始数据像原油,杂质多,直接喂给AI会让模型“跑不动”(训练效果差、预测不准)。高质量数据集是“精炼汽油”,经过清洗、标注,能直接用来训练AI,提升模型性能。比如工业AI要预测机器故障,得用准确的设备运行数据,不然模型会“瞎猜”。
  • 国家首次“系统性管饭”:之前政府工作报告提过要建数据集,但这次是第一次出详细方案,说明AI赋能千行百业的“卡脖子”问题就是数据质量——没有好数据,AI再厉害也没用。

二、六大专项行动:给AI“加油”的组合拳

方案部署了6个行动,核心是“从数据供给到价值变现”的全流程:

1. 强基扩容:多搞“营养餐”。覆盖科学研究、工业制造、低空经济(比如无人机)、具身智能(比如机器人)等20多个领域,让AI有足够的高质量数据用。

2. 标注攻坚:升级“洗菜切菜”。数据标注是给AI“预处理”数据(比如给图片打标签),之前靠人工,现在要变成“人机协同+专家参与”,更高效准确。

3. 价值释放:让数据能赚钱。探索数据集质押融资(拿数据当抵押借钱)、作价入股(用数据换公司股份)、词元价值体系(后面细说),让数据从“死资产”变成“活钱”。

4. 形成“数据飞轮”:场景→数据→模型→应用→价值,循环起来。比如工厂需要AI预测故障(场景)→收集设备数据(数据)→训练模型(模型)→用模型减少停机(应用)→节省成本(价值),再用赚的钱买更多数据,形成良性循环。

三、数据标注:从“人工苦力”到“智能协作”

数据标注是AI的“基础活”,但之前问题大:

  • 人工标注效率低:比如给10万张图片打标签,靠人要花几个月,还容易错。
  • 现在要“升级”:方案引导标注从“纯人工”变成“机器先标+专家审核”,比如用AI自动识别图片里的物体,再让专家修正错误。国家已经建了7个国家级标注基地,目标2027年这个行业每年增长超20%——以后标注不再是“苦力活”,而是“技术活”。

四、词元经济:智能经济的“新货币”

这是个新名词,但很好理解:

  • 词元是什么?:AI处理所有信息(文字、图片、视频)的最小单元,比如“你好”两个字,AI会拆成两个词元;一张图片,AI会拆成成百上千个词元。调用词元越多,说明AI用得越频繁(今年3月日均调用140万亿,比年初涨了1000倍)。
  • 词元经济的作用:把AI的“算力消耗、模型运算”变成可度量的“词元”,就像用“度”衡量电一样。这样智能服务就能定价(比如用1000个词元收1分钱),让AI服务从“奢侈品”变成“家常菜”(比如普通人也能 afford 智能客服、AI写作),还能催生新行业(比如词元交易、算力调度)。

五、2028年我们能看到什么?

到2028年底,目标很具体:

  • 有“硬货”:一批覆盖工业、医疗、金融等领域的高质量数据集,比如能训练出准确预测癌症的医疗AI数据集。
  • 有“场景”:AI在工厂、医院、城市治理里的典型应用,比如用AI优化交通信号灯,减少拥堵。
  • 有“钱景”:数据能像商品一样买卖,催生一批数据企业和专业人才,智能经济长出新的赚钱点(比如词元交易平台、AI数据服务公司)。

简单说,到那时候,AI不再是“实验室里的玩具”,而是能真正帮各行各业赚钱的“工具人”,而高质量数据集就是它的“动力源”。

总结

这个方案的核心是:用高质量数据喂饱AI,让AI赋能行业,再让行业反过来产生更多数据,形成一个“数据越用越多、AI越用越聪明”的循环。对普通人来说,未来会有更多智能服务(比如AI医生、AI家教),对企业来说,数据会变成新的“资产”——这就是智能经济的未来。