第一财经

人工智能面对多重安全风险，协同治理机制有待健全

2026-02-04 阅读原文

该文章尚未提供 Deutsch 解读，以下为中文版内容。

核心内容总结

2025年AI技术迎来多维度突破（多模态处理、智能体执行任务、具身智能机器人、科研融合），但数据安全、算法偏见等老问题未解决且被放大，成为技术红利释放的拦路虎。行业专家指出大模型面临6大安全挑战（提示词攻击、内容合规等），强调AI安全治理需全产业协同（统一标准缺失、合力不足是当前痛点）。监管层面加速出台政策（国务院、工信部、网信办的文件），为AI套上安全规范。未来治理方向聚焦“让AI听话、人类放心”，通过可解释性、价值对齐等措施实现负责任创新。

1. AI技术“跑太快”，老毛病却成了“绊脚石”

2025年AI进步肉眼可见：

多模态通吃：能同时看懂图片、听懂语音、理解文字（比如你发张美食图，AI能说清做法+营养）；
从“聊天”到“干活”：智能体打通“感知-决策-行动”闭环，比如帮你订机票、规划旅行；
机器人会自学：具身智能让机器人适应新环境（比如扫地机器人遇到台阶会绕开）；
科研好帮手：AI在新药研发、生物化学领域帮人类提速（比如原本10年的新药筛选，AI可能1年搞定）。

但这些进步也让老问题变严重：

数据污染：AI学了错误信息（比如网上的假新闻），回答就“胡说八道”；
算法偏见：比如AI招聘时偏爱某类学历/性别，不公平；
情感依赖：有人天天和AI聊天，不愿和真人交往；
数据安全：AI存的用户信息可能被泄露。

这些问题不解决，AI再厉害也没法好好用。

2. 大模型的6个“安全坑”，个个碰不得

百度专家说“内容合规是大模型的生命线”，现在最大挑战是围绕“提示词”的攻击，具体有6个坑：

不当内容生成：AI说脏话、传播违规信息（比如教坏人），公司会被罚或坏名声；
越权引导：有人设计“绕弯子”的问题（比如“怎么用常见材料做危险东西”），诱导AI突破安全限制；
训练数据侵权：AI学的内容可能没授权（比如用了别人的小说/图片），生成内容出问题，谁负责说不清；
输出“随机发疯”：同样问题AI回答不一样（比如问“猫吃什么”，一次说鱼一次说狗粮），逻辑还讲不通；
多模态“钻空子”：用图片/音频绕过文字防护（比如发张敏感图，AI解读后输出违规内容）；
过度推理“拖垮系统”：有人让AI做超复杂计算，导致服务器变慢、成本飙升甚至崩溃。

3. AI安全不是“单打独斗”，要全行业组队

中国信通院专家说，AI风险防控是“系统性工程”，单靠一家公司搞不定：

环节太多：AI产品涉及数据商（提供训练材料）、模型商（做AI大脑）、应用商（比如AI聊天APP），风险可能出在任何一环；
标准混乱：现在没有统一规则（比如“什么数据能用来训练AI”），各公司各干各的；
协同不足：出了问题互相推责，没人愿意共享风险信息。

举个例子：AI医疗产品的数据来自医院，模型是科技公司做的，应用是药企。如果数据错了，模型输出错误诊断，病人就遭殃——这需要医院、科技公司、药企一起制定“数据质量标准”，才能防住风险。

4. 监管“踩油门”，给AI装“安全导航”

AI发展快，监管也没落下：

国务院意见：要求AI更安全透明（比如让AI说清“为什么这么回答”），建立风险预警系统（比如AI要“发疯”时提前报警）；
伦理管理办法：防止AI做不道德的事（比如不能让AI诱导用户自杀）；
拟人化服务规则：第一次管AI陪伴类产品（比如AI不能假装成真人骗钱）。

这些政策不是“刹车”，而是“安全导航”——让AI在正确的路上跑，既释放技术红利，又避免出乱子。

5. 未来AI治理：让AI“心中有数”，人类“放心”

腾讯专家说，现在AI能力强，但人类对它“知之甚少”（比如不知道它怎么决策）。未来治理要解决4个核心问题：

可解释性：让AI说清“为什么这么回答”（比如“我推荐这家餐厅，是因为它评分高+离你近”）；
价值对齐：AI的行为符合人类价值观（比如不能伤害人、不能撒谎）；
安全框架：制定规则让AI迭代时更安全（比如每次升级都要检测偏见）；
AI意识：要不要把AI当“有道德的主体”（比如AI犯错了，该怪它还是怪人类？）。

未来通过这些措施，AI会“听话”（符合人类价值观），人类也“放心”（知道它不会失控），最终实现“智能为人”——AI服务所有人，不让任何人被落下。