虎嗅

DeepSeek V4做数学证明，500倍成本优势：智能体系统刷新多项纪录

2026-06-06 阅读原文

核心内容总结

最近AI在数学证明领域迎来重大突破：普林斯顿大学团队用国内开源大模型DeepSeek-V4-Flash开发的Goedel-Architect系统，在形式化定理证明（机器可验证的严格证明）上实现了“低成本+高性能”的颠覆性突破——比谷歌Gemini驱动的系统成本低500倍，正确率还更高。它通过“蓝图生成+精炼”的创新策略，解决了AI证明的“验证危机”和效率问题，为数学研究提供了更可信、更高效的工具。

一、为什么AI数学证明需要“形式化”？——解决“验证危机”

数学最讲究“每一步都绝对正确”，但现在AI生成证明的速度已经快到人类来不及验证（陶哲轩说数学从“证明稀缺”进入“证明过剩”）。比如AI声称推翻了某个80年的猜想，人类怎么判断它对不对？

这时候形式化证明就成了“救命稻草”：用Lean这类语言写证明，每一步逻辑都要机器能看懂，只要编译器通过，就100%正确，不用依赖人眼检查。但以前生成形式化证明的成本极高（比如谷歌系统跑一次花17万美元），普通人根本用不起。

二、Goedel-Architect的核心创新：先画“蓝图”再干活

原来的AI证明系统像“瞎子拆积木”：遇到难题就拆成小问题，拆着拆着可能走进死胡同，前面的功夫全白费。Goedel-Architect换了个思路——先画全局蓝图，再并行施工：

1. 生成蓝图：把要证明的定理分解成一个个小引理（比如“二进制乘2是加零”），用有向图标出引理之间的依赖关系（谁需要谁的结果）。

2. 并行证明：多个证明器同时处理不同引理，互不干扰。

3. 蓝图精炼：如果某个引理失败，系统会“诊断原因”：

要是引理本身错了（比如二进制加零方向搞反），直接修正引理并更新依赖；
要是引理太难，就把它拆成更小的子引理，再试一次。

就像盖房子先画施工图，哪里错了改哪里，不会从头返工，效率大大提升。

三、性能与成本的“降维打击”

Goedel-Architect的表现让人大跌眼镜：

成本：在PutnamBench测试集（672道竞赛题）上，谷歌Hilbert系统花17万美元，Goedel只花294美元（差500倍）；
正确率：Goedel通过率75.6%，比Hilbert的70%还高；
难度覆盖：几乎搞定了高中竞赛题集MiniF2F（242/244），还能解决IMO（国际奥数）、USAMO（美国奥数）的新题（没见过的题也能对3/6）。

关键是它用的是国内开源的DeepSeek模型，没有闭源模型的高昂费用，普通人也能用上。

四、团队背景：靠谱的“数学+AI”组合

做这个系统的团队来自普林斯顿大学，领头人是两位大牛：

Sanjeev Arora：计算复杂性领域权威，一直研究“AI能否成为超人类数学家”；
陈丹琦：清华本科+斯坦福博士，曾和谷歌合作开发SyntaxNet（谷歌语法分析工具），现在专注语言模型推理。

他们之前已经做过两代Goedel-Prover模型，这次是策略升级，成功不是偶然。

五、未来意义：数学研究的“加速器”

Goedel-Architect的价值在于降低了形式化证明的门槛：

以后数学家不用花几年时间验证细节，AI可以快速生成机器可验证的证明；
小团队甚至个人也能尝试解决数学难题，不用依赖大机构的资源；
要是AI哪天声称证明了黎曼猜想，用Lean编译器跑一下Goedel的证明，就能立刻知道对错，不用等几十年的同行评审。

这可能彻底改变数学研究的方式——人类负责“想问题”，AI负责“把想法变成严格证明”。

总的来说，Goedel-Architect不仅是AI数学证明的突破，更是让“可信AI”走进数学领域的关键一步。它用开源模型和创新策略，把以前“高不可攀”的形式化证明变得人人可用，未来可能推动数学领域出现更多重大发现。