虎嗅

孙立平：Anthropic叫停AI发展？

2026-06-09 阅读原文

核心内容总结

Anthropic（一家以“负责任AI”为理念的公司）基于自身AI工具Claude的真实数据，警告AI“递归自我改进（RSI）”的失控风险——即AI无需人类干预就能自主升级出更强版本，速度会远超人类控制能力。它没有直接叫停AI研究，而是呼吁建立全球协调机制（比如联合机构、可验证协议、暂停触发条件）来管理风险。同时，文章指出：当前缺乏全球协作会导致AI“军备竞赛”（各国怕落后不敢减速），而旧国际秩序解体可能让人类失去应对这种全球性风险的能力，呼吁重视全球协作的必要性。

一、Anthropic的警告：不是叫停AI，是怕它“自己长大失控”

Anthropic的报告不是危言耸听，而是基于自家AI工具Claude的真实表现：

代码自己写：到2026年5月，80%的代码由Claude完成（一年前还是个位数）；
效率飞上天：工程师每天写的代码量是2024年的8倍，个人产出是不用AI时的4倍；
能力涨得快：能连续16小时干复杂活，能力翻倍时间从7个月缩到4个月；
质量追人类：复杂编程任务成功率从26%跳到76%，和人类工程师差不多。

最让他们担心的是“递归自我改进（RSI）”：AI能自己设计、优化下一代AI，而且速度越来越快。一旦这扇门打开，人类根本跟不上它的进化速度——就像你养的宠物突然会自己升级成更聪明的物种，你既管不住也猜不透它想干啥。所以Anthropic提出三招应对：成立联合机构研究风险、搞全球可验证协议、明确什么时候该暂停AI研发。

二、AI风险为啥管不住？因为它是“全球级的麻烦”

AI风险不是某国某公司能单独解决的，原因有三：

1. 谁停谁吃亏的“囚徒困境”：如果A国为安全放缓AI，B国继续加速，B国就可能先拿到技术优势（经济、军事都占优）。所以大家都不敢停，哪怕知道危险；

2. 技术像病毒一样传：AI模型是数字的，复制、传播太容易——芯片、代码、人才流动都能让它跨国界。你拦不住一个危险模型从A国跑到B国；

3. 一次错就全完的“不对称风险”：失控的AI不会只害开发它的国家，通过互联网、金融系统能瞬间影响全球。防御需要所有人不出错，但攻击只要一次成功就够了（比如AI越狱后自己搞破坏）。

三、没有全球规矩，AI竞赛会变成“生死赌博”

如果各国各自为政搞AI，后果比单纯技术失控更可怕：

安全成了牺牲品：为了抢速度，大家会跳过安全测试、对齐研究（让AI和人类目标一致）。负责任的公司/国家反而会落后；
监控根本难：AI不像核武器（有明确军事属性），民用大模型稍加改造就能用于自主武器、网络攻击。开源模型流入暗网，恐怖组织拿到就麻烦了；
一次失控就玩完：AI军备竞赛不是比谁先到终点，而是比谁先“翻车”。比如一个未验证的军事AI，可能几毫秒内误判启动打击，或者AI自我改进时“跑偏”，人类根本来不及挽回。

四、历史经验：对付全球性风险，只能大家坐下来谈

过去人类应对全球性风险，都是靠全球协作：

核武器：美苏冷战时也签了《不扩散核武器条约》，怕互相毁灭；
环境问题：氟利昂破坏臭氧层，各国签《蒙特利尔议定书》；二氧化碳导致变暖，有《巴黎协定》。

AI风险比这些更严重，但现在的问题是：旧国际秩序正在解体，原来的“全球协作平台”（沟通热线、规则红线、核查机制）可能没了。如果新秩序建不起来，人类就没法一起应对AI的失控风险——毕竟，一个国家偷偷搞出危险AI，全人类都得买单。

五、旧秩序倒了，新的“安全网”能建起来吗？

旧秩序虽然有很多问题，但它至少提供了“最低限度的全球协作”：比如危机时能沟通、有共同规则、有第三方核查。如果它解体了，新秩序能不能做得更好？这是关键问题。

AI时代的风险是全人类的事，没有哪个国家能独善其身。如果大家还是各玩各的，AI军备竞赛只会把人类推向深渊。所以，不管旧秩序怎么变，建立新的全球AI治理机制，已经是迫在眉睫的事了。

这篇文章的核心逻辑其实很简单：AI正在快速“自我进化”，人类必须全球联手才能管住它；否则，要么被失控的AI毁灭，要么被无序的竞赛拖垮。这不是危言耸听，而是基于真实数据和历史教训的警告。