虎嗅

Fable到底有多强？为何仅72小时，就从发布到被禁用？

2026-06-15 阅读原文

该文章尚未提供日本語解读，以下为中文版内容。

核心内容总结

Anthropic公司发布的AI模型Fable 5，号称全球最先进，却在72小时内经历了“发布→被破解→遭美国出口管制”的三连击。这个以“安全”为核心卖点的模型，反而因安全漏洞引发轩然大波，背后暴露了一个AI时代的核心矛盾：AI能力提升的速度，正在超过人类对它的控制能力。

详细拆解解读

1. Fable 5：被“阉割”的超级AI，到底有多强？

Fable 5不是普通聊天机器人，而是Anthropic藏在“保险柜”里的顶级模型Mythos 5的“公开版”。Mythos 5有多牛？两个月前测试时，它能自主发现软件漏洞（包括沉睡27年的老漏洞）、分析成因、设计攻击路径，甚至写出完整的攻击程序——全程几乎不用人类指导。这意味着AI已经接近顶级安全专家的水平，不再是“帮写代码”这么简单。

因为Mythos风险太大，Anthropic才搞了个折中方案：把Mythos锁起来只给大机构用，给公众的Fable 5加了一层“安全防护罩”（比如限制输出危险内容）。但没想到，这层防护罩很快就被捅破了。

2. 72小时翻车：安全设计为什么“不堪一击”？

Anthropic对Fable 5的安全很自信：做了上千小时红队测试（找漏洞的专业团队攻击），还请外部专家反复验证。他们的安全逻辑听起来很聪明：遇到高风险问题（比如网络攻击教程），就偷偷转交给能力更弱的模型回答——用“能力上限”当安全边界。

但人类不按规则出牌啊！破解者用了两个“骚操作”：

拆分成无害小问题：比如问“某个化学反应原理”“另一个反应条件”，单独看都合法，但拼起来就是敏感知识链条（像拼图，每块都没问题，拼完就危险）；
多AI协作攻击：让已经破解的AI帮着攻击Fable 5，而传统测试只考虑“一个人vs一个模型”，根本没料到AI会联手。

结果，破解者不仅让Fable 5输出了完整的攻击教程，还把Anthropic内部的安全规则全贴到GitHub上——相当于考试答案提前泄露。

3. 不是普通事故：AI能力和风险是“连体婴儿”

很多人觉得这只是一次技术漏洞，但真正可怕的是：AI的能力和风险是同一枚硬币的两面。

比如，能发现漏洞的AI，自然也能利用漏洞；能设计防御方案的AI，肯定知道怎么攻击。这些能力不是工程师刻意教的，而是模型聪明到一定程度后“自己冒出来的”（行业叫“涌现能力”）。

过去软件漏洞可以补，服务器被攻击可以升级防火墙，但AI的问题不一样：它的危险能力是“天生”的，你没法只保留“好的一面”而去掉“坏的一面”。今天是Anthropic，明天可能是任何一家AI公司——只要模型足够强，都会面临这个问题。

4. 留给行业的大问题：AI的“刹车”到底怎么装？

过去几年，AI行业都在比“谁的模型更聪明”，现在突然发现：当AI接近顶级专家水平时，人类还能给它装个可靠的“刹车”吗？

Anthropic是行业里最重视安全的公司之一，连它都守不住，那未来靠什么？

企业自律？显然不够，因为技术迭代太快；
技术补丁？漏洞永远比补丁快；
监管？政策往往跟不上技术发展（比如这次美国紧急管制，也是事后补救）。

Fable 5虽然被下架了，但它抛出的问题才刚开始：我们到底该怎么平衡AI的能力和安全？

5. 最重视安全的公司栽了，我们该信谁？

Anthropic一直标榜“安全第一”，结果却出了最轰动的安全事故。这让大家不得不思考：如果连最靠谱的玩家都靠不住，普通人该怎么信任AI？

AI已经渗透到生活的方方面面（比如医疗、金融、自动驾驶），一旦失控，后果不堪设想。这次事件就像一次“压力测试”，提醒整个行业：在追求AI强大的同时，必须把“控制能力”提到和“能力提升”同等重要的位置——否则，再聪明的AI也可能变成“不定时炸弹”。

最后一句话总结

Fable 5的72小时，不是一个产品的失败，而是AI时代的一次“警钟”：我们不能只让AI跑起来，还要确保它能“停下来”。否则，跑得越快，风险越大。