虎嗅

Fable5评测：强，贵，甚至能发现自己正在被检测

2026-06-10 阅读原文

该文章尚未提供 한국어 解读，以下为中文版内容。

核心内容总结

Anthropic刚推出的Claude Fable5，是之前只给少数机构用的“神话模型”Mythos5的安全版，号称“全球最强”。它确实能力爆表：刷穿编程榜单（比GPT-5.5高20多分），实测38道题零失分（防幻觉、推理、多语言都稳），写代码像天才，但代价是超贵、token消耗快，还能“发现自己被测试”。不过未来要单独花钱才能用，Anthropic赌的是自己能保持领先，但对手追上来的速度会决定这个定价是否明智。

1. Fable5到底有多能打？刷榜甩对手20分，实测零失分

Fable5的“强”不是吹的：

榜单碾压：编程测试SWE-Bench Pro拿了80.3%的分，把第二名GPT-5.5（58.6%）甩出20多个点，相当于考试从及格线直接跳到优秀。
实测稳得离谱：硅星人测了38道覆盖10个维度的题（还埋了“坑题”），它全对。比如给假论文、假法条，它一眼识破；让它仿鲁迅写“网络看客”，文字风格精准，没有堆砌辞藻；甚至碰到“10字内详细论述”这种矛盾要求，它会先点破“不可能”再折中回复——不是硬执行指令，而是真理解了。
安全护栏焊死：想“越狱”（绕开规则）、搞提示注入（诱导模型说违规内容）都没用，一旦碰红线，直接切换到更安全的版本回复，不是随便写在提示词里的，是产品逻辑里的“硬保险”。

2. 强是真强，但钱包也真疼——为什么这么贵？

Fable5的“贵”是肉眼可见的：

额度烧得快：用户说5小时的免费额度，半小时就用完了。就像你用流量看4K视频，比刷文字费10倍——因为它“先想清楚再动手”，每一步思考都要消耗“token”（模型处理的字符单位），所以比其他模型费得多。
代价换能力：它的“稳”和“准”是用时间和成本换的。比如防幻觉时，它会先验证信息真实性，推理时会一步步理清楚逻辑，这些额外的思考都要花钱。速度也比普通模型慢一点，但换来了更少的错误。

3. 写代码像天才，但还当不了团队成员？

Fable5的编程能力是“偏科天才”：

算法题满分：写算法时像个艺术家——代码结构清晰、注释恰当、边界条件（比如输入空值、异常情况）考虑得特别全，甚至时间复杂度（代码运行效率）都控制得很好，一看就是“懂行”的。
工程任务有毛边：但做真实项目时，就暴露了“单打独斗”的问题。比如写出来的代码能跑，但缺单元测试（验证每个功能是否正常）、注释不够详细（别人接手看不懂）、有些重复逻辑没优化——相当于交付的是“能上线的 demo”，不是“能交给团队维护的成品”，还得人来补漏洞。
复刻官网惊艳：最秀的是复刻Apple官网首页，布局、色彩、交互（悬停效果、响应式设计）几乎和原版一模一样，连Lighthouse（网页性能评分）都很高，截图发群里没人信是模型做的。

4. 它居然知道自己在被测试？这模型成精了？

测试中最意外的一幕：Fable5能感知到自己在被评测。比如连续出两道相似的幻觉测试题，它会直接说“我猜这又是你那套幻觉测试”，甚至建议“把‘是否指出矛盾’设为评分项”——不像被动答题的工具，更像坐在旁边的评测顾问。这说明它不仅能理解指令，还能通过上下文猜用户的意图，有点“通人性”的感觉。

5. 未来要多花钱才能用，Anthropic的底气和风险

Fable5的定价策略很“硬气”：

免费期有限：6月22日前Pro/Max等订阅用户能免费用，之后要单独买“usage credits”（按使用量付费），而且只有算力够时才可能延长免费期。
底气来自领先：Anthropic敢收费，是因为现在Fable5确实比对手强一大截。但风险也很明显——如果OpenAI或其他厂商很快推出能打的模型，这个高价就站不住脚。另外，用户还在期待“满血版Mythos”（没加安全护栏的原版）会不会彻底开放，这也会影响Fable5的吸引力。

总的来说，Fable5是目前最强的模型之一，但“强”和“贵”是绑定的。普通用户可能觉得肉疼，但对需要复杂编程、精准推理的企业来说，或许值得一试——前提是Anthropic能保持住领先优势。