第一财经

国家数据局印发实施方案,推进行业高质量数据集建设行动

核心内容总结

国家数据局出台方案,目标是为人工智能(AI)发展提供“高质量燃料”——行业高质量数据集(经过加工、能直接训练AI模型的数据集合)。通过强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六个专项行动,到2028年建成一批覆盖重点领域的数据集,培育相关企业和人才,形成“数据→模型→应用→更多数据”的良性循环,最终让数据赋能千行百业,催生智能经济新增长点。

详细解读

1. AI发展缺“燃料”?高质量数据集是破局关键

AI模型就像汽车,数据是汽油——普通汽油(零散、未加工的数据)跑不快,必须用高标号汽油(高质量数据集)才能让AI精准干活。比如训练AI诊断癌症,需要大量标注好的病历、影像数据;训练智能驾驶,需要道路场景、车辆行为的结构化数据。现在很多行业数据要么零散、要么质量差,导致AI在实际应用中“水土不服”。这个方案就是要解决AI的“燃料危机”,让AI能真正落地到各行各业。

2. 重点领域“精准投喂”:覆盖民生与新兴产业

方案明确了要建哪些领域的数据集,分两类:

  • 民生刚需领域:工业制造(比如工厂设备数据)、农业农村(土壤、作物生长数据)、医疗(病历、影像)、教育(教学资源)、金融(风险评估数据)等,这些领域的AI应用直接关系老百姓生活。
  • 新兴赛道:低空经济(无人机数据)、智能驾驶、具身智能(机器人交互数据)、生物制造等,这些是未来智能经济的增长点。

每个领域都要“按需建数据”——比如农业数据集要能支持AI预测病虫害,医疗数据集要能辅助AI诊断疾病,确保数据“有用、好用”。

3. 数据标注要“升级”:从人工贴标签到“智能+专家”

数据标注是给数据“贴说明书”(比如给图片里的猫标“猫”,给病历标“糖尿病”),让AI能看懂。以前全靠人工,效率低还容易错,现在要升级:

  • 智能标注:机器先自动标,再人工校准(比如AI先标出图片里的汽车,人再检查对错),提高效率。
  • 专家参与:专业领域的数据(比如医疗、法律)需要行业专家来标注,确保准确性(比如医生标CT影像里的肿瘤)。
  • 产业布局:国家会在首批7个先行城市做强标注产业,再布局一批试验区,培育龙头企业(比如专门做医疗数据标注的公司),还会培养标注人才(院校开课、职业技能考试)——这也能创造不少就业岗位。

4. 数据要“活起来”:从“存着看”到“能赚钱”

数据不能只存在硬盘里,要变成“活资产”:

  • 数据飞轮循环:场景需要数据→建数据→训练模型→模型用在场景里产生更多数据→再优化模型(比如AI用在工厂里,产生的设备运行数据又能让模型更精准)。
  • 商业模式创新:数据可以在交易所交易(像卖商品一样),也可以搞订阅制(按月买数据)、API调用(直接用接口拿数据),甚至探索“词元交易”(把数据拆成最小有用单位卖,比如一个精准的行业术语)。
  • 资产化探索:把数据当资产,比如用数据质押贷款、入股企业,让数据变成真金白银。

5. 多管齐下保落地:国家统筹+安全兜底

要让这件事做成,需要:

  • 国家+地方协同:国家数据局统筹,地方不能一哄而上(避免重复建设),要结合本地产业特色来做。
  • 资金支持:引导金融机构、产业基金投资,地方可以设专项资金。
  • 安全底线:防止数据泄露、“投毒”(比如有人故意给AI喂错误数据),确保数据可管、可控、可追溯。

这个方案本质上是给AI“加油”,让数据和AI协同发展,最终让智能技术真正走进我们的生活——比如更精准的AI医生、更智能的工厂、更安全的自动驾驶,这些都离我们不远了。