核心内容总结
Anthropic发布博客提出“AI递归自我改进(RSI)”概念——AI不再只是帮人类干活,而是开始参与研发下一代更强的AI,进化速度越来越快(比如AI独立完成任务的效率每4个月翻一倍)。随后它呼吁全球暂停前沿AI开发,但条件是“所有前沿实验室一起停且互相监督”,否则自己不会单方面刹车。这背后并非单纯的安全预警,而是AI竞赛中的“囚徒困境”(大家都怕自己停了别人超),以及公司们在争夺AI治理规则的制定权(谁定规则谁就掌握未来话语权)。同时OpenAI也发布治理蓝图,同样瞄准规则制定,两者本质都是在AI逼近失控前,抢当“话事人”。
一、AI开始自己造自己?递归自我改进到底是啥?
简单说,就是AI从“工具”变成了“助手+研发者”。以前是人类写代码、跑实验造AI,现在AI能帮人类写代码、调系统、甚至优化下一代AI模型。比如Anthropic的Claude:
- 代码生产:2026年5月,Anthropic代码库80%的代码是Claude写的(2025年前才个位数);工程师现在每天提交的代码量是2024年的8倍(虽然有“代码债”,但效率提升明显)。
- 实验加速:人类研究员优化AI训练代码要4-8小时,Claude能做到52倍加速(相当于两小时搞定);甚至能自主排查系统崩溃问题,把人类两三天的活压缩到两小时。
- 研究判断:AI开始参与“下一步该做什么”的决策——在人类曾经走弯路的129个研究节点上,2026年的Claude有64%概率给出比当时人类更好的选择。
本质是AI研发进入“自我加速飞轮”:模型越强→研发越快→下一代模型更强,人类对进化速度的掌控力越来越弱。
二、呼吁全球暂停AI研究?Anthropic的“刹车”不是真刹车
Anthropic说“要放缓甚至暂停前沿AI开发”,但加了个关键前提:“其他实验室一起停,且互相验证没偷偷跑”。这就像跑步比赛中,领先的人喊“大家都慢下来”,但自己绝不先减速——怕一停就被后面的人超过。
网友质疑“你为啥不先停?”,其实戳中了核心:单方面暂停等于退出竞赛。Anthropic作为跑在前面的玩家,不可能主动放弃领先位置。它的呼吁更像“建立规则”:要么大家一起慢,要么继续卷,但得按我提的规则来。
三、为啥大家都不敢先停?这是典型的“囚徒困境”
AI公司们面临的困境和“两个小偷被抓”的故事一样:
- 如果所有公司都停,大家都安全,也不会失去领先地位;
- 如果一家停,其他不停,停的那家就会被淘汰;
- 所以每家公司都不敢先停,哪怕知道风险越来越大。
比如Anthropic和OpenAI,都知道AI进化太快可能失控,但谁也不敢单方面踩刹车——怕对方偷偷研发,自己被甩在后面。这就导致整个行业陷入“越卷越危险”的循环。
四、不只是安全预警,更是在抢规则制定权
Anthropic和OpenAI的发声,本质是把“技术问题”变成“治理问题”——谁能制定AI的游戏规则,谁就掌握未来的话语权。比如:
- 谁来定义“危险能力”?(比如AI自我改进到什么程度算危险?)
- 谁来设计“暂停机制”?(什么时候该停?怎么验证大家都停了?)
- 谁来监督违规行为?(谁偷偷研发了要受惩罚?)
Anthropic呼吁“全球对话”,OpenAI提出“民主治理框架”,都是想在这些问题上抢占主导权。毕竟,规则制定者能决定行业的走向,甚至能限制竞争对手的发展。
五、AI自我改进的未来:三种可能,核心都是“人类还能不能掌控?”
Anthropic推演了三种未来,但核心问题只有一个——人类是否还能在加速的AI研发中保持控制:
1. 能力放缓:AI进化曲线变平(比如受限于芯片、电力),人类有时间适应。但即使这样,现有AI也能发现大量系统漏洞,修都修不过来,风险依然存在。
2. 人类仍掌舵:AI自动化研发流程,但人类决定方向。好处是科研、药物研发加速;坏处是危险行动门槛降低(比如AI帮黑客写攻击代码),且组织会被加速压垮(比如代码生成快了,审查就成了瓶颈)。
3. 完全自我改进:AI自己设计下一代AI,人类只负责监督。这时AI的偏差可能被放大,人类甚至看不懂它的决策——这是最危险的场景,但Anthropic也承认“不一定会发生”。
无论哪种未来,关键都是:人类能不能跟上AI的速度,保持理解、验证和干预的能力?如果跟不上,失控就可能成真。
最后:这场“刹车呼吁”的本质
Anthropic不是真的想停,而是想在AI失控前,把大家拉到谈判桌前,制定一套对自己有利的规则。毕竟,在AI竞赛中,“规则制定权”比“模型能力”更重要——谁定规则,谁就能在未来的游戏中占尽优势。而普通人最该关注的,不是“AI会不会觉醒”,而是这些规则最终会不会保护我们,还是只保护那些领先的公司。