虎嗅

DeepSeek V4が数学的証明を達成し、コスト面で500倍の優位性を示す：エージェントシステムが複数の記録を更新

原文：DeepSeek V4做数学证明，500倍成本优势：智能体系统刷新多项纪录

2026-06-06 阅读原文

核要のまとめ

最近、AIは数学的証明の分野で大きな進歩を遂げました。プリンストン大学のチームが国内でオープンソース化された大規模モデル「DeepSeek-V4-Flash」を用いて開発した「Goedel-Architectシステム」により、形式化された定理証明（機械によって検証可能な厳密な証明）において「低コストかつ高性能」という革新的な成果を達成しました。このシステムはGoogleのGeminiが駆動するシステムと比べてコストが500分の1に削減され、正確性も向上しています。Goedel-Architectは「ブループリントの生成」と「証明の洗練」という革新的なアプローチを採用することで、AIによる証明の「検証の危機」や効率の問題を解決し、数学研究においてより信頼性が高く、効率的なツールを提供しています。

1. なぜAIによる数学的証明には「形式化」が必要なのか？——検証の危機の解決

数学では「すべてのステップが絶対に正しいこと」が求められますが、現在のAIが生成する証明の速度は人間が検証するのに追いつかないほど速くなっています（陶哲轩は数学が「証明の不足」から「証明の過剰」へと移行していると指摘しています）。例えば、AIが80年間の仮説を覆したと主張した場合、人間はどうやってその正誤を判断すればよいのでしょうか？

このような状況では「形式化された証明」が救いの手となります。Leanのような言語を使用して証明を記述することで、各ステップの論理が機械に理解できるようになり、コンパイラが通過すれば100％正しいとされます。これにより、人間の目によるチェックが不要になります。しかし、以前は形式化された証明を生成するコストが非常に高かった（例えばGoogleのシステムでは1回の実行に17万ドルかかった）ため、一般の人々には利用できませんでした。

2. Goedel-Architectの核心的な革新：まず「ブループリント」を描いてから作業を始める

従来のAIによる証明システムは「目隠しでブロックを組む」ようなものでした。難問に遭遇すると小さな問題に分解され、その過程で行き詰まることがあり、これまでの努力がすべて無駄になることがありました。Goedel-Architectはこのアプローチを変え、「まず全体のブループリントを描いてから並行して作業を進める」という新しい方法を採用しました：

1. ブループリントの生成：証明すべき定理を小さな命題に分解し（例えば「二進数で2を掛けることはゼロを足すこと」といった）、各命題間の依存関係を有向グラフで表します。

2. 並行して証明する：複数の証明エンジンが異なる命題を同時に処理し、互いに干渉しません。

3. ブループリントの洗練：ある命題の証明に失敗した場合、システムはその原因を診断します：

命題自体が間違っていれば（例えば二進数の加算の方向が逆であった場合）、その命題を修正し依存関係を更新します。
命題が難しすぎる場合は、より小さなサブ命題に分解して再度試みます。

まるで家を建てる際に先に設計図を描くように、間違っている部分だけを修正するため、作業のやり直しが不要で効率が大幅に向上します。

3. パフォーマンスとコストの「圧倒的な改善**

Goedel-Architectの実績は驚くべきものでした：

コスト：PutnamBenchテストセット（672問の競技問題）において、GoogleのHilbertシステムが17万ドルを費やしたのに対し、Goedel-Architectはわずか294ドルで済みました。
正確性：Goedel-Architectの成功率は75.6％で、Hilbertの70％を上回っています。
問題の難易度のカバー範囲：高校レベルの競技問題集MiniF2F（242/244問）はほぼ解決できるだけでなく、IMO（国際数学オリンピック）やUSAMO（アメリカ数学オリンピック）の新しい問題にも対応しており、見たことのない問題でも3/6の正解率を記録しています。

特に注目すべきは、使用されているのが国内でオープンソース化されたDeepSeekモデルであり、閉じられたソースのモデルに比べてコストが大幅に削減されており、一般の人々でも利用可能であることです。

4. チームの背景：信頼できる「数学+AI」の組み合わせ

このシステムを開発したチームはプリンストン大学のもので、リーダーは以下の2人の著名な研究者です：

Sanjeev Arora：計算複雑性分野の権威であり、「AIが超人的な数学者になり得るか」という研究を続けています。
陈丹琦：清華大学で学士号を取得し、スタンフォード大学で博士号を取得。Googleと協力してSyntaxNet（Googleの文法解析ツール）を開発した経験があり、現在は言語モデルの推論に専念しています。

彼らはこれまでに2世代のGoedel-Proverモデルを開発しており、この成功は偶然ではありません。

5. 未来への影響：数学研究の「アクセラレーター」としてのGoedel-Architect

Goedel-Archectの価値は、「形式化された証明のハードルを下げた」ことにあります：

今後、数学者は細部の検証に何年も費やす必要がなく、AIが迅速に機械によって検証可能な証明を生成できるようになります。
小規模なチームや個人でも数学的な難問に取り組むことが可能になり、大規模な機関のリソースに依存する必要がなくなります。
もしAIがいつかリーマンの予想を証明したと主張した場合、Leanコンパイラを使用してGoedel-Architectの証明を実行すれば、すぐにその正誤を確認できるようになります。数十年もかかる同僚間のレビューを待つ必要がありません。

これは数学研究の方法を根本的に変える可能性があります。人間は「問題を考える」ことに専念し、AIがそのアイデアを厳密な証明に変換する役割を果たすのです。

総じて、Goedel-ArchitectはAIによる数学的証明の分野での大きな進歩であり、「信頼できるAI」を数学の世界に導く重要な一歩です。オープンソースモデルと革新的なアプローチを用いることで、以前は手の届かなかった形式化された証明を誰もが利用できるようにし、将来的には数学分野でさらなる大発見を促す可能性があります。