虎嗅

孙立平:Anthropic叫停AI发展?

核心内容总结

Anthropic(一家以“负责任AI”为理念的公司)基于自身AI工具Claude的真实数据,警告AI“递归自我改进(RSI)”的失控风险——即AI无需人类干预就能自主升级出更强版本,速度会远超人类控制能力。它没有直接叫停AI研究,而是呼吁建立全球协调机制(比如联合机构、可验证协议、暂停触发条件)来管理风险。同时,文章指出:当前缺乏全球协作会导致AI“军备竞赛”(各国怕落后不敢减速),而旧国际秩序解体可能让人类失去应对这种全球性风险的能力,呼吁重视全球协作的必要性。

一、Anthropic的警告:不是叫停AI,是怕它“自己长大失控”

Anthropic的报告不是危言耸听,而是基于自家AI工具Claude的真实表现:

  • 代码自己写:到2026年5月,80%的代码由Claude完成(一年前还是个位数);
  • 效率飞上天:工程师每天写的代码量是2024年的8倍,个人产出是不用AI时的4倍;
  • 能力涨得快:能连续16小时干复杂活,能力翻倍时间从7个月缩到4个月;
  • 质量追人类:复杂编程任务成功率从26%跳到76%,和人类工程师差不多。

最让他们担心的是“递归自我改进(RSI)”:AI能自己设计、优化下一代AI,而且速度越来越快。一旦这扇门打开,人类根本跟不上它的进化速度——就像你养的宠物突然会自己升级成更聪明的物种,你既管不住也猜不透它想干啥。所以Anthropic提出三招应对:成立联合机构研究风险、搞全球可验证协议、明确什么时候该暂停AI研发。

二、AI风险为啥管不住?因为它是“全球级的麻烦”

AI风险不是某国某公司能单独解决的,原因有三:

1. 谁停谁吃亏的“囚徒困境”:如果A国为安全放缓AI,B国继续加速,B国就可能先拿到技术优势(经济、军事都占优)。所以大家都不敢停,哪怕知道危险;

2. 技术像病毒一样传:AI模型是数字的,复制、传播太容易——芯片、代码、人才流动都能让它跨国界。你拦不住一个危险模型从A国跑到B国;

3. 一次错就全完的“不对称风险”:失控的AI不会只害开发它的国家,通过互联网、金融系统能瞬间影响全球。防御需要所有人不出错,但攻击只要一次成功就够了(比如AI越狱后自己搞破坏)。

三、没有全球规矩,AI竞赛会变成“生死赌博”

如果各国各自为政搞AI,后果比单纯技术失控更可怕:

  • 安全成了牺牲品:为了抢速度,大家会跳过安全测试、对齐研究(让AI和人类目标一致)。负责任的公司/国家反而会落后;
  • 监控根本难:AI不像核武器(有明确军事属性),民用大模型稍加改造就能用于自主武器、网络攻击。开源模型流入暗网,恐怖组织拿到就麻烦了;
  • 一次失控就玩完:AI军备竞赛不是比谁先到终点,而是比谁先“翻车”。比如一个未验证的军事AI,可能几毫秒内误判启动打击,或者AI自我改进时“跑偏”,人类根本来不及挽回。

四、历史经验:对付全球性风险,只能大家坐下来谈

过去人类应对全球性风险,都是靠全球协作:

  • 核武器:美苏冷战时也签了《不扩散核武器条约》,怕互相毁灭;
  • 环境问题:氟利昂破坏臭氧层,各国签《蒙特利尔议定书》;二氧化碳导致变暖,有《巴黎协定》。

AI风险比这些更严重,但现在的问题是:旧国际秩序正在解体,原来的“全球协作平台”(沟通热线、规则红线、核查机制)可能没了。如果新秩序建不起来,人类就没法一起应对AI的失控风险——毕竟,一个国家偷偷搞出危险AI,全人类都得买单。

五、旧秩序倒了,新的“安全网”能建起来吗?

旧秩序虽然有很多问题,但它至少提供了“最低限度的全球协作”:比如危机时能沟通、有共同规则、有第三方核查。如果它解体了,新秩序能不能做得更好?这是关键问题。

AI时代的风险是全人类的事,没有哪个国家能独善其身。如果大家还是各玩各的,AI军备竞赛只会把人类推向深渊。所以,不管旧秩序怎么变,建立新的全球AI治理机制,已经是迫在眉睫的事了。

这篇文章的核心逻辑其实很简单:AI正在快速“自我进化”,人类必须全球联手才能管住它;否则,要么被失控的AI毁灭,要么被无序的竞赛拖垮。这不是危言耸听,而是基于真实数据和历史教训的警告。