虎嗅

DeepSeek V4 демонстрирует успехи в математических доказательствах: преимущество в 500 раз по сравнению с затратами на реализацию; система искусственного интеллекта побивает несколько рекордов

原文：DeepSeek V4做数学证明，500倍成本优势：智能体系统刷新多项纪录

2026-06-06 阅读原文

Краткое содержание анализа

Недавно искусственный интеллект (ИИ) достиг значительного прорыва в области математических доказательств: команда из Принстонского университета, используя открытую китайскую большую модель DeepSeek-V4-Flash, разработала систему Goedel-Architect, которая позволила добиться революционных результатов в формализованном доказательстве теорем (строгих доказательств, проверяемых компьютером). Эта система обладает низкими затратами и высокой эффективностью по сравнению с системами на основе технологии Gemini от Google — её стоимость в 500 раз ниже, а точность доказательств выше. Благодаря инновационной стратегии генерации “плана действий” и последующей его оптимизации система решила проблемы, связанные с проверкой доказательств, предоставив научным исследованиям более надежные и эффективные инструменты.

Почему для математических доказательств необходим формализм? — Решение проблемы проверки

В математике крайне важно, чтобы каждый шаг был абсолютно точным. Однако сегодня скорость генерации доказательств ИИ настолько высока, что люди не успевают их проверить (по словам Те-Чжэсяня, математика перешла от “недостатка доказательств” к “избытку доказательств”). Например, если ИИ утверждает, что опровергло гипотезу, существующую уже 80 лет, как можно проверить это? В таких случаях формализованные доказательства становятся спасением: они написаны на языках вроде Lean, каждый шаг логики понятен компьютеру, и если компилятор одобряет доказательство, оно считается 100% правильным, без необходимости проверки человеком. Однако раньше создание формализованных доказательств было очень дорогостоящим процессом (например, система Google тратила 170 000 долларов на один запуск).

Основные инновации Goedel-Architect

Традиционные системы ИИ для доказательств работали по принципу “слепого сборки кубиков”: при столкновении с сложной проблемой они разделяли её на более мелкие части, но иногда это приводило к тупикам, и все предыдущие усилия терялись впустую. Goedel-Architect использует другой подход: сначала создается “общий план действий”, а затем начинается параллельная обработка:

1. Генерация плана: теорема разделяется на мелкие леммы, и между ними определяются зависимости (какие леммы требуют результатов других).

2. Параллельное доказательство: несколько систем одновременно работают над разными леммами, не мешая друг другу.

3. Оптимизация плана: если доказательство какой-либо леммы терпит неудачу, система выявляет причину:

Если ошибка в самой лемме (например, неправильное определение операции сложения в двоичном числе), лемма исправляется и зависимости обновляются;
Если лемма слишком сложна, она разделяется на более мелкие части и попытка доказательства повторяется.

Это похоже на процесс строительства: сначала рисуется чертеж, затем исправляются ошибки без необходимости начинать всё сначала, что значительно повышает эффективность.

Эффективность и стоимость

Результаты работы Goedel-Architect впечатляют:

Затраты: на тестовом наборе PutnamBench (672 конкурсных задач) система Google Hilbert потратила 170 000 долларов, а Goedel — всего 294 доллара.
Точность: процент правильных доказательств у Goedel составил 75,6%, что выше, чем у Hilbert (70%).
Охват сложности задач: система справляется практически со всеми задачами из набора MiniF2F для старших классов школ (242/244), а также с новыми задачами IMO (Международной олимпиады по математике) и USAMO (Американской олимпиады по математике); даже неизвестные задачи решаются с правильностью в 3/6 случаев.

Ключевым фактором является использование открытой китайской модели DeepSeek, что позволяет использовать систему людям без высоких затрат.

Команда-разработчик

Команда, создавшая Goedel-Architect, работает в Принстонском университете и состоит из двух ведущих специалистов:

Sanjeev Arora: эксперт в области вычислительной сложности, изучающий возможность ИИ стать “суперчеловеческим математиком”.
Дэньци Чэнь: выпускник Tsinghua University и доктор Стэнфордского университета; ранее сотрудничала с Google над разработкой инструмента SyntaxNet для анализа языка, сейчас специализируется на рассуждениях на основе языковых моделей.

Они уже создавали две предыдущие версии системы Goedel-Prover, поэтому этот успех не случаен.

Будущее значение

Goedel-Architect может стать “ускорителем” в математических исследованиях:

Снижение барьеров для формализованного доказательства: математикам больше не придется тратить годы на проверку деталей, ИИ сможет быстро генерировать проверяемые компьютером доказательства.
Маленькие команды или отдельные учёные смогут пытаться решать сложные математические проблемы без помощи крупных организаций.
Если однажды ИИ объявит об опровержении гипотезы Римана, достаточно будет запустить его доказательство с использованием компилятора Lean, чтобы сразу узнать правильность вывода, без необходимости ждать десятилетий оценки коллег.

В целом, Goedel-Architect представляет собой не только прорыв в области ИИ-математики, но и важный шаг к внедрению надёжных технологий ИИ в математическую науку. Благодаря открытой модели и инновационным подходам формализованные доказательства становятся доступны для всех, что может способствовать новым открытиям в этой области науки.