虎嗅

DeepSeek V4 liefert mathematische Beweise – mit einem Kostenvorteil von 500-fach: Das Agentensystem bricht mehrere Rekorde

原文：DeepSeek V4做数学证明，500倍成本优势：智能体系统刷新多项纪录

2026-06-06 阅读原文

Zusammenfassung der Kerninhalte

Kürzlich gab es einen bedeutenden Durchbruch im Bereich der mathematischen Beweisführung mit KI: Ein Team der Princeton University nutzte das in China entwickelte, open-source-basierte Großmodell DeepSeek-V4-Flash und schuf das Goedel-Architect-System, welches einen revolutionären Fortschritt bei der formalen Theorembeweisführung (maschinenverifizierbaren, strengen Beweisen) erzielt hat. Es bietet eine „kostengünstigere“ und „leistungsfähigere“ Lösung – die Kosten sind 500-mal geringer als bei den von Google entwickelten Systemen wie Gemini, und die Genauigkeit ist sogar höher. Durch eine innovative Strategie der Blaupause Erstellung + Verfeinerung konnten das Problem der „Verifizierungskrise“ bei KI-Beweisen sowie Effizienzprobleme gelöst werden, wodurch ein zuverlässigeres und effektiveres Werkzeug für die mathematische Forschung bereitgestellt wird.

I. Warum ist eine „formale“ Mathematikbeweisführung mit KI notwendig? – Die Lösung der „Verifizierungskrise“

In der Mathematik geht es darum, dass jeder Schritt absolut korrekt ist. Doch die Geschwindigkeit, mit der KI-Beweise erstellt werden, hat mittlerweile erreicht, dass Menschen nicht mehr in der Lage sind, sie zu überprüfen (Tao Zhixuan sagt, dass sich die Mathematik von einem Zustand der „Knappheit an Beweisen“ in einen Zustand der „Überfluss an Beweisen“ bewegt hat). Wenn beispielsweise KI behauptet, eine seit 80 Jahren bestehende Vermutung widerlegt zu haben, wie können Menschen dann überprüfen, ob dies richtig ist?

In solchen Fällen werden formale Beweise zur „Rettungsleine“: Mit Sprachen wie Lean werden die Beweise so geschrieben, dass jeder Schritt für Maschinen verständlich ist. Sobald der Compiler die Überprüfung abgeschlossen hat, ist der Beweis zu 100 % korrekt – ohne dass menschliche Augen notwendig sind. Allerdings waren die Kosten für die Erstellung formaler Beweise bisher sehr hoch (zum Beispiel kostete eine Ausführung des Google-Systems 170.000 US-Dollar), was für normale Menschen unerschwinglich war.

II. Die Kerninnovationen von Goedel-Architect: Zuerst ein „Blauplan“ erstellen, dann arbeiten

Herkömmliche KI-Beweissysteme funktionieren wie „Blinde, die mit Bauklötzen arbeiten“: Bei Schwierigkeiten werden die Probleme in kleinere Teile aufgeteilt, wobei man leicht in Sackgassen geraten kann und alle bisherigen Bemühungen umsonst sind. Goedel-Architect verfolgt einen anderen Ansatz – zuerst wird ein Gesamtblauplan erstellt, danach wird parallel gearbeitet:

1. Blaupause Erstellung: Das zu beweisende Theorem wird in kleine Lehrsätze aufgeteilt (zum Beispiel „Die Multiplikation mit 2 im Binärsystem ist gleich der Addition von Null“), und die Abhängigkeiten zwischen den Lehrsätzen werden mithilfe von Richtungszeichen dargestellt (welcher Lehrsatz benötigt welches Ergebnis).

2. Parallelbeweisführung: Mehrere Beweiser arbeiten gleichzeitig an verschiedenen Lehrsätzen, ohne sich gegenseitig zu stören.

3. Blaupause-Verfeinerung: Wenn ein Lehrsatz fehlschlägt, diagnostiziert das System den Grund:

– Ist der Lehrsatz selbst falsch (zum Beispiel wurde die Richtung der Addition im Binärsystem vertauscht), wird der Lehrsatz direkt korrigiert und die Abhängigkeiten aktualisiert;

– Ist der Lehrsatz zu schwierig, wird er in kleinere Teile aufgeteilt und der Versuch wiederholt.

Das ist wie beim Hausbau: Zuerst werden Baupläne erstellt, und Fehler können direkt behoben, ohne dass alles von vorne anfangen muss – was die Effizienz erheblich erhöht.

III. Die „Dimensionssenkung“ bei Leistung und Kosten

Die Leistung von Goedel-Architect ist beeindruckend:

Kosten: Im PutnamBench-Testset (672 Wettbewerbsaufgaben) kostete das Google-Hilbert-System 170.000 US-Dollar, Goedel nur 294 Dollar (500-mal weniger);
Genauigkeit: Die Erfolgsrate von Goedel beträgt 75,6 %, gegenüber 70 % bei Hilbert;
Abdeckung der Schwierigkeitsgrade: Es kann fast alle Aufgaben des Highschool-Wettbewerbssets MiniF2F (242/244) lösen sowie neue Aufgaben des IMO (International Mathematical Olympiad) und USAMO (United States Mathematics Olympiad); auch unbekannte Fragen werden zu 3/6 richtig beantwortet.

Der Schlüssel liegt darin, dass Goedel auf dem in China entwickelten, open-source-basierten DeepSeek-Modell basiert – ohne die hohen Kosten geschlossener Modelle, wodurch auch normale Menschen es nutzen können.

IV. Hintergrund des Teams: Eine zuverlässige Kombination aus Mathematik und KI

Das Team hinter diesem System stammt von der Princeton University und wird von zwei führenden Wissenschaftlern geleitet:

Sanjeev Arora: Ein Experte auf dem Gebiet der Rechenkomplexität, der sich ständig mit der Frage beschäftigt, ob KI zu „übermenschlichen Mathematikern“ werden kann;
Danqi Chen: Bachelor an der Tsinghua-Universität und Doktorand an der Stanford-Universität; er arbeitete früher mit Google an SyntaxNet (dem Grammatikanalysierungswerkzeug von Google) und konzentriert sich nun auf die Forschung zu Sprachmodellen.

Sie haben bereits zwei Generationen des Goedel-Prover-Modells entwickelt – der Erfolg ist kein Zufall.

V. Die Bedeutung für die Zukunft: Ein „Beschleuniger“ für die mathematische Forschung

Der Wert von Goedel-Architect liegt darin, dass es die Hürden für formale Beweisführungen senkt:

In Zukunft müssen Mathematiker nicht mehr Jahre damit verbringen, Details zu überprüfen; KI kann schnell maschinenverifizierbare Beweise erstellen;
Auch kleine Teams oder Einzelpersonen können versuchen, mathematische Probleme zu lösen, ohne auf Ressourcen großer Institutionen angewiesen zu sein;
Sollte KI eines Tages behaupten, die Riemannsche Vermutung bewiesen zu haben, könnte man den Beweis mit einem Lean-Compiler überprüfen und sofort wissen, ob er richtig ist – ohne auf jahrelange Peer-Reviews warten zu müssen.

Das könnte die Art und Weise der mathematischen Forschung grundlegend verändern: Menschen sind für das „Denken“ zuständig, KI dafür, „Ideen in streng formulierte Beweise umzusetzen“.

Insgesamt ist Goedel-Architect nicht nur ein Durchbruch bei der KI-basierten Mathematikbeweisführung, sondern auch ein wichtiger Schritt dazu, „zuverlässige KI“ in den Bereich der Mathematik zu bringen. Mit offenen Modellen und innovativen Strategien macht es die bisher unerreichbaren formalen Beweise für alle zugänglich und könnte zukünftig zu weiteren bedeutenden Entdeckungen in der Mathematik führen.