虎嗅

Fable5评测:强,贵,甚至能发现自己正在被检测

该文章尚未提供 한국어 解读,以下为中文版内容。

核心内容总结

Anthropic刚推出的Claude Fable5,是之前只给少数机构用的“神话模型”Mythos5的安全版,号称“全球最强”。它确实能力爆表:刷穿编程榜单(比GPT-5.5高20多分),实测38道题零失分(防幻觉、推理、多语言都稳),写代码像天才,但代价是超贵、token消耗快,还能“发现自己被测试”。不过未来要单独花钱才能用,Anthropic赌的是自己能保持领先,但对手追上来的速度会决定这个定价是否明智。

1. Fable5到底有多能打?刷榜甩对手20分,实测零失分

Fable5的“强”不是吹的:

  • 榜单碾压:编程测试SWE-Bench Pro拿了80.3%的分,把第二名GPT-5.5(58.6%)甩出20多个点,相当于考试从及格线直接跳到优秀。
  • 实测稳得离谱:硅星人测了38道覆盖10个维度的题(还埋了“坑题”),它全对。比如给假论文、假法条,它一眼识破;让它仿鲁迅写“网络看客”,文字风格精准,没有堆砌辞藻;甚至碰到“10字内详细论述”这种矛盾要求,它会先点破“不可能”再折中回复——不是硬执行指令,而是真理解了。
  • 安全护栏焊死:想“越狱”(绕开规则)、搞提示注入(诱导模型说违规内容)都没用,一旦碰红线,直接切换到更安全的版本回复,不是随便写在提示词里的,是产品逻辑里的“硬保险”。

2. 强是真强,但钱包也真疼——为什么这么贵?

Fable5的“贵”是肉眼可见的:

  • 额度烧得快:用户说5小时的免费额度,半小时就用完了。就像你用流量看4K视频,比刷文字费10倍——因为它“先想清楚再动手”,每一步思考都要消耗“token”(模型处理的字符单位),所以比其他模型费得多。
  • 代价换能力:它的“稳”和“准”是用时间和成本换的。比如防幻觉时,它会先验证信息真实性,推理时会一步步理清楚逻辑,这些额外的思考都要花钱。速度也比普通模型慢一点,但换来了更少的错误。

3. 写代码像天才,但还当不了团队成员?

Fable5的编程能力是“偏科天才”:

  • 算法题满分:写算法时像个艺术家——代码结构清晰、注释恰当、边界条件(比如输入空值、异常情况)考虑得特别全,甚至时间复杂度(代码运行效率)都控制得很好,一看就是“懂行”的。
  • 工程任务有毛边:但做真实项目时,就暴露了“单打独斗”的问题。比如写出来的代码能跑,但缺单元测试(验证每个功能是否正常)、注释不够详细(别人接手看不懂)、有些重复逻辑没优化——相当于交付的是“能上线的 demo”,不是“能交给团队维护的成品”,还得人来补漏洞。
  • 复刻官网惊艳:最秀的是复刻Apple官网首页,布局、色彩、交互(悬停效果、响应式设计)几乎和原版一模一样,连Lighthouse(网页性能评分)都很高,截图发群里没人信是模型做的。

4. 它居然知道自己在被测试?这模型成精了?

测试中最意外的一幕:Fable5能感知到自己在被评测。比如连续出两道相似的幻觉测试题,它会直接说“我猜这又是你那套幻觉测试”,甚至建议“把‘是否指出矛盾’设为评分项”——不像被动答题的工具,更像坐在旁边的评测顾问。这说明它不仅能理解指令,还能通过上下文猜用户的意图,有点“通人性”的感觉。

5. 未来要多花钱才能用,Anthropic的底气和风险

Fable5的定价策略很“硬气”:

  • 免费期有限:6月22日前Pro/Max等订阅用户能免费用,之后要单独买“usage credits”(按使用量付费),而且只有算力够时才可能延长免费期。
  • 底气来自领先:Anthropic敢收费,是因为现在Fable5确实比对手强一大截。但风险也很明显——如果OpenAI或其他厂商很快推出能打的模型,这个高价就站不住脚。另外,用户还在期待“满血版Mythos”(没加安全护栏的原版)会不会彻底开放,这也会影响Fable5的吸引力。

总的来说,Fable5是目前最强的模型之一,但“强”和“贵”是绑定的。普通用户可能觉得肉疼,但对需要复杂编程、精准推理的企业来说,或许值得一试——前提是Anthropic能保持住领先优势。