虎嗅

**DeepSeek V4 réalise une preuve mathématique : un avantage de coût de 500 fois supérieur. Le système d’agents intelligents bat de nombreux records.**

原文:DeepSeek V4做数学证明,500倍成本优势:智能体系统刷新多项纪录

Résumé des points clés

Récemment, l'IA a réalisé une avancée majeure dans le domaine de la preuve mathématique : une équipe de l'université de Princeton a utilisé le modèle open-source chinois DeepSeek-V4-Flash pour développer le système Goedel-Architect, qui a permis d'obtenir une rupture révolutionnaire en matière de preuves formelles (preuves strictes vérifiables par ordinateur), avec des coûts réduits et des performances améliorées. Ce système est 500 fois moins cher que celui utilisé par Google Gemini et offre un taux de précision plus élevé. Il a résolu les problèmes de validation et d'efficacité des preuves générées par l'IA grâce à une approche innovante combinant la création de « schémas » et le raffinement des preuves, offrant ainsi un outil plus fiable et plus efficace pour la recherche mathématique.

I. Pourquoi les preuves mathématiques par IA nécessitent-elles une formalisation ? – La résolution de la « crise de validation »

En mathématiques, chaque étape doit être absolument correcte. Cependant, la vitesse à laquelle l'IA génère des preuves est maintenant telle que les humains n'ont pas le temps de les vérifier (Tao ZheXuan a déclaré que les mathématiques sont passées d'une situation de pénurie de preuves à une situation de surabondance de preuves). Par exemple, si l'IA affirme avoir réfuté une conjecture établie depuis 80 ans, comment les humains peuvent-ils vérifier sa justesse ?

C'est ici que la preuve formelle devient un outil essentiel : elle est écrite dans des langages tels que Lean, où chaque étape logique est compréhensible par l'ordinateur. Si le compilateur valide la preuve, elle est à 100 % correcte, sans nécessiter de vérification manuelle. Cependant, la création de preuves formelles était auparavant extrêmement coûteuse (par exemple, le système de Google coûtait 170 000 dollars par exécution), rendant cela inaccessible au grand public.

II. L'innovation clé de Goedel-Architect : dessiner un « schéma » avant de commencer

Les systèmes d'IA précédents pour la preuve mathématique fonctionnaient comme des personnes aveugles démontant des pièces : lorsqu'ils se heurtaient à une difficulté, ils la divisaient en problèmes plus simples, mais cela pouvait les mener dans un impasse, rendant tout le travail précédent inutile. Goedel-Architect adopte une approche différente :

1. Création d'un schéma global : la théorie à prouver est décomposée en petites hypothèses, et les relations de dépendance entre ces hypothèses sont représentées par des diagrammes orientés.

2. Preuve parallèle : plusieurs moteurs de preuve traitent simultanément différentes hypothèses sans se gêner mutuellement.

3. Raffinement du schéma : si une hypothèse échoue, le système diagnostique la cause :

  • Si l'hypothèse elle-même est incorrecte (par exemple, une erreur dans la direction des opérations mathématiques), elle est corrigée et les dépendances mises à jour ;
  • Si l'hypothèse est trop complexe, elle est divisée en sous-hypothèses plus simples et la preuve est tentée à nouveau.

C'est comme construire une maison en dessinant d'abord des plans : on corrige les erreurs directement sans devoir tout refaire depuis le début, ce qui améliore considérablement l'efficacité.

III. La réduction des coûts et des performances

Les performances de Goedel-Architect sont impressionnantes :

  • Coûts : sur l'ensemble de tests PutnamBench (672 problèmes de compétition), le système Hilbert de Google a coûté 170 000 dollars, tandis que Goedel n'en a coûté que 294 dollars (une différence de 500 fois).
  • Taux de précision : le taux de réussite de Goedel est de 75,6 %, contre 70 % pour Hilbert.
  • Couverture des difficultés : il peut résoudre presque tous les problèmes du corpus de compétition MiniF2F (242/244), ainsi que de nouveaux problèmes de l'IMO (International Mathematical Olympiad) et du USAMO (United States Mathematical Olympiad). Le fait qu'il utilise un modèle open-source chinois, DeepSeek, évite les coûts élevés des modèles propriétaires.

IV. Contexte de l'équipe : une combinaison fiable de mathématiques et d'IA

L'équipe qui a développé ce système vient de l'université de Princeton et est dirigée par deux experts :

  • Sanjeev Arora : un spécialiste en complexité algorithmique qui s'est toujours demandé si l'IA pouvait devenir un mathématicien supérieur à l'homme.
  • Danqi Chen : diplômé de Tsinghua et docteur de Stanford, il a collaboré avec Google sur le développement de SyntaxNet (un outil d'analyse syntaxique) et se concentre maintenant sur la raisonnement des modèles linguistiques.

Ils ont déjà développé deux versions précédentes du système Goedel-Prover, donc ce succès n'est pas accidentel.

V. Signification pour l'avenir : un accélérateur de la recherche mathématique

La valeur de Goedel-Architect réside dans le fait qu'il abaisse les barrières à la preuve formelle :

  • Les mathématiciens n'auront plus besoin de passer des années à vérifier les détails ; l'IA pourra générer rapidement des preuves vérifiables par ordinateur.
  • De petites équipes ou même des individus pourront tenter de résoudre des problèmes mathématiques complexes sans dépendre de grandes institutions.
  • Si un jour l'IA affirme avoir prouvé la conjecture de Riemann, il suffira d'exécuter la preuve avec le compilateur Lean pour savoir immédiatement si elle est correcte, sans attendre des décennies de révision par les pairs.

Cela pourrait complètement changer la façon de faire de la recherche mathématique : les humains se concentreraient sur la formulation des idées, tandis que l'IA s'occuperait de transformer ces idées en preuves strictes.

En somme, Goedel-Architect n'est pas seulement une avancée majeure dans le domaine de la preuve mathématique par IA, mais aussi un pas crucial pour intégrer des technologies d'IA fiables dans le monde des mathématiques. Grâce à son utilisation de modèles open-source et à ses stratégies innovantes, il rend les preuves formelles, autrefois inaccessibles, disponibles à tous, ce qui pourrait favoriser de nouvelles découvertes majeures dans ce domaine à l'avenir.