虎嗅

被叫停的Fable 5,和刹不住车的AI

该文章尚未提供 Deutsch 解读,以下为中文版内容。

核心内容总结

Anthropic作为一家反复强调AI安全的公司,发布了号称“安全版”的模型Fable5,结果上线仅3天就被美国政府以“国家安全”为由紧急叫停——原因是Amazon报告称有人能绕过Fable的安全护栏,直接调用Anthropic未公开的更强模型Mythos。这件事戳破了AI行业的一个真相:所有人都在喊“要安全”,但没人敢真的慢下来。公司一边警告技术失控风险,一边拼命发布更强模型;政府用“国家安全”一刀切,却和企业对“安全”的定义南辕北辙;行业竞争、资本压力、国家野心推着所有人往前跑,责任碎成了片,没人能为整体负责。

一、一边喊刹车,一边踩油门:Anthropic的拧巴

Anthropic是AI圈里最“爱喊安全”的公司之一——创始人从OpenAI出来,见过模型变强的兴奋,也怕失控,所以早早提出“政府该有权拦危险模型”。但它毕竟是家商业公司,得和OpenAI、Google抢市场,得让投资人满意。

于是就有了Fable5:它是Anthropic藏着的“大杀器”Mythos的“安全阉割版”——加了层护栏,不让人用来搞网络攻击或危险研究。上线前还做了“找漏洞测试”,留了30天数据备查。可这护栏没拦住:有人发现能“越狱”(绕过安全机制)直接用Mythos。

Anthropic的尴尬在于:它想把“安全”做成竞争力,但竞争力的本质是“比别人快”。安全要慢,竞争要快,这两件事根本拧巴。它以为政府会“谨慎用权”,结果政府直接一刀砍了它的模型——这就像你喊着“快来管我”,结果真被管时,第一个挨打的是自己。

二、没人敢先停:一慢就被淘汰

Anthropic不是不想慢,是不敢慢。它曾提议“前沿实验室一起放慢”,但问题是:一家公司停了,别人不停,你就会被取代

比如OpenAI:Superalignment团队说要4年解决安全问题,不到一年就解散了——因为资本要看“更强的模型”,不是“更安全的模型”。硅谷嘴上敬重安全,掏钱时只看谁的模型能打。Anthropic也一样:它得融资、IPO,得和xAI抢客户,所以哪怕知道风险,也只能先把模型发出去,再补安全漏洞。

这就像一群人在跑马拉松,你知道前面有坑,但没人敢停下——停下就会被后面的人踩过去。责任?没人管整体责任,大家只负责自己不被淘汰。

三、政府的“安全”和公司的“安全”不是一回事

美国政府叫停Fable5,理由是“国家安全”;Anthropic觉得委屈:我明明加了安全护栏啊?

问题出在“安全”的定义:Anthropic要的是“技术不失控”,政府要的是“完全掌控”。Anthropic拒绝给五角大楼做“无人致命武器”,觉得这是责任边界;但在政府眼里,“边界”就是麻烦——你不肯完全听我的,我就信不过你。

更讽刺的是:Anthropic发布前曾知会政府,政府还参与过测试,给了许可。结果3天后说停就停,连具体漏洞细节都没给。这说明政府的“安全”不是靠协商,是靠“封锁和命令”——它不管你的护栏多完善,只要有一丝失控可能,就一刀切。

四、责任碎成渣:没人对整体负责

Fable5事件里,每个人都觉得自己在负责:

  • Anthropic:我做了安全护栏,还主动找政府报备;
  • Amazon:我发现了漏洞,报告给政府,尽了义务;
  • 政府:我保护了国家安全,没毛病;
  • 资本:我投钱是为了让模型变强,推动进步。

可合起来呢?模型还是出问题了。因为责任被拆成了碎片:公司管自己的模型,政府管自己的安全,资本管自己的回报,没人管“整个AI行业的风险”。

就像一群人抬桌子,每个人都只抬自己那角,结果桌子还是歪的——没人看整体,只看自己的一小块。

五、加速是“气候”:你不跟就被甩

这几年AI圈流行一个词叫“e/acc”(有效加速主义):不管伦理、监管,先把技术往快里推,相信进步能解决一切问题。Anthropic不认同这个,但它也逃不掉——因为整个行业的“气候”就是加速。

算力在烧,论文在更,国家在抢技术优势,开发者想要更强的工具。这些东西合起来,就像一股风:你不跟着跑,就会被吹走。Anthropic喊刹车,可它自己也得先证明“我跑得够快”,不然没人理它。

就像1914年的那列火车:明明能掉头,可总参谋长说“改不了时刻表”——不是真改不了,是没人敢先踩刹车。AI的加速也是如此:刹车一直都在,但没人敢碰。

最后,Fable5停了,可新模型又发布了几个,都说自己“最强”。愿意先踩刹车的人?一个都没有。

结尾的话:AI的危险不是没人看见,是看见也没人敢停。每个人都在做“自己该做的事”,可合起来,就把整个行业推向了失控的边缘。这才是最让人不安的地方——我们都在火车上,看着前面的悬崖,却没人敢拉闸。