虎嗅

DeepSeek V4 realiza pruebas matemáticas: una ventaja de costos 500 veces mayor; el sistema de agentes inteligentes bate varios récords.

原文：DeepSeek V4做数学证明，500倍成本优势：智能体系统刷新多项纪录

2026-06-06 阅读原文

Resumen del contenido principal

Recientemente, la IA ha logrado un avance significativo en el campo de las pruebas matemáticas: un equipo de la Universidad de Princeton ha desarrollado el sistema Goedel-Architect utilizando el modelo open source chino DeepSeek-V4-Flash, lo que representa una revolución en la demostración formal de teoremas (pruebas estrictas verificables por máquinas), al ofrecer un equilibrio entre bajo costo y alto rendimiento. Este sistema es 500 veces más económico que el sistema impulsado por Google Gemini y, además, presenta una tasa de precisión superior. Gracias a una estrategia innovadora basada en la generación de “planos” y su posterior refinamiento, Goedel-Architect resuelve los problemas de verificación y eficiencia asociados a las pruebas realizadas por IA, proporcionando así una herramienta más fiable y eficiente para la investigación matemática.

I. ¿Por qué es necesario formalizar las pruebas matemáticas? – Resolviendo la “crisis de verificación”

En matemáticas se exige que cada paso sea absolutamente correcto, pero la velocidad con la que la IA genera pruebas ha aumentado hasta el punto de que los humanos no tienen tiempo suficiente para verificarlas (Tao Zhe-Xuan señala que las matemáticas han pasado de una situación de escasez de pruebas a uno de sobreabundancia). Por ejemplo, si la IA afirma haber refutado una conjetura que ha existido durante 80 años, ¿cómo podemos determinar si es correcta? En estos casos, las pruebas formales se convierten en una salvación: se escriben en lenguajes como Lean, donde cada paso lógico debe ser comprensible para la máquina; si el compilador lo aprueba, entonces la prueba es 100% correcta, sin necesidad de revisión humana. Sin embargo, antes, generar pruebas formales era un proceso extremadamente costoso (por ejemplo, el sistema de Google costaba 170.000 dólares por ejecución), lo que lo hacía inaccesible para la mayoría de las personas.

II. La innovación central de Goedel-Architect: primero se dibuja el “plano”, luego se procede con la construcción

Los sistemas de prueba de IA anteriores funcionaban de manera similar a alguien que desmonta bloques a ciegas: cuando se enfrentaban a un problema difícil, lo dividían en partes más pequeñas, lo que podía llevarlos a un callejón sin salida, haciendo que todo el trabajo anterior fuera en vano. Goedel-Architect adopta un enfoque diferente: primero se crea un “plan general” del proceso de prueba y luego se procede de manera paralela:

1. Generación de planos: El teorema a demostrar se descompone en pequeñas premisas, y las relaciones de dependencia entre ellas se representan mediante iconos dirigidos (quién necesita el resultado de quién).

2. Pruebas paralelas: Múltiples motores de prueba trabajan simultáneamente en diferentes premisas sin interferir entre sí.

3. Refinamiento del plan: Si una premisa falla, el sistema “diagnostica la causa”:

Si la premisa en sí es incorrecta (por ejemplo, si la dirección de la suma en binario está invertida), se corrige directamente y las dependencias se actualizan.
Si la premisa es demasiado compleja, se descompone en subpremisas más simples y se intenta nuevamente.

Es como diseñar un edificio primero: se dibuja el plano y luego se construye, corrigiendo los errores sin tener que empezar todo de nuevo, lo que aumenta significativamente la eficiencia.

III. La reducción drástica de costos y mejoras en rendimiento

Los resultados de Goedel-Architect son sorprendentes:

Costo: En el conjunto de pruebas PutnamBench (672 problemas competitivos), el sistema Hilbert de Google costó 170.000 dólares, mientras que Goedel solo costó 294 dólares (una diferencia de 500 veces).
Tasa de precisión: Goedel tuvo una tasa de éxito del 75.6%, superando el 70% de Hilbert.
Amplitud de problemas resueltos: Logró resolver casi todos los problemas del conjunto competitivo MiniF2F (242/244), así como problemas nuevos del IMO (Concurso Internacional de Matemáticas) y USAMO (Concurso Nacional de Matemáticas de EE. UU.), incluso aquellos nunca antes vistos, con una tasa de acierto del 3/6.

El secreto de su éxito radica en el uso del modelo open source chino DeepSeek, lo que elimina los altos costos asociados a los modelos cerrados y lo hace accesible para personas comunes.

IV. El equipo detrás del proyecto: una combinación confiable de “matemáticas + IA”

El equipo responsable de este sistema proviene de la Universidad de Princeton y está liderado por dos expertos:

Sanjeev Arora: Autoridad en el campo de la complejidad computacional que ha investigado si la IA puede convertirse en un matemático superior al ser humano.
Danqi Chen: Licenciatura en Tsinghua University y doctorado en Stanford; anteriormente colaboró con Google en el desarrollo de SyntaxNet (herramienta de análisis gramatical) y ahora se centra en el razonamiento basado en modelos lingüísticos.

Ellos ya habían desarrollado dos versiones anteriores del modelo Goedel-Prover, por lo que este avance no es casual.

V. El significado futuro: un “acelerador” para la investigación matemática

El valor de Goedel-Architect radica en el hecho de que reduce las barreras para la realización de pruebas formales:

En el futuro, los matemáticos no necesitarán dedicar años a verificar detalles; la IA podrá generar rápidamente pruebas verificables por máquinas.
Equipos pequeños e incluso individuos podrán intentar resolver problemas matemáticos complejos sin depender de instituciones grandes.
Si algún día la IA afirma haber demostrado la conjetura de Riemann, basta ejecutar la prueba con el compilador Lean para determinar inmediatamente si es correcta, sin esperar a décadas de revisión por parte de la comunidad científica.

Esto podría cambiar completamente la forma en que se realizan las investigaciones matemáticas: los humanos se encargarán de “pensar en los problemas” y la IA de convertir esas ideas en pruebas estrictas.

En resumen, Goedel-Architect no solo representa un avance significativo en el campo de las pruebas matemáticas realizadas por IA, sino que también marca un paso crucial para la integración de la “IA confiable” en este ámbito. Con modelos open source y estrategias innovadoras, hace que las pruebas formales, antes inalcanzables, sean ahora accesibles para todos, lo que podría impulsar nuevos descubrimientos importantes en el campo de las matemáticas en el futuro.