Краткое содержание анализа
Недавно искусственный интеллект (ИИ) достиг значительного прорыва в области математических доказательств: команда из Принстонского университета, используя открытую китайскую большую модель DeepSeek-V4-Flash, разработала систему Goedel-Architect, которая позволила добиться революционных результатов в формализованном доказательстве теорем (строгих доказательств, проверяемых компьютером). Эта система обладает низкими затратами и высокой эффективностью по сравнению с системами на основе технологии Gemini от Google — её стоимость в 500 раз ниже, а точность доказательств выше. Благодаря инновационной стратегии генерации “плана действий” и последующей его оптимизации система решила проблемы, связанные с проверкой доказательств, предоставив научным исследованиям более надежные и эффективные инструменты.
Почему для математических доказательств необходим формализм? — Решение проблемы проверки
В математике крайне важно, чтобы каждый шаг был абсолютно точным. Однако сегодня скорость генерации доказательств ИИ настолько высока, что люди не успевают их проверить (по словам Те-Чжэсяня, математика перешла от “недостатка доказательств” к “избытку доказательств”). Например, если ИИ утверждает, что опровергло гипотезу, существующую уже 80 лет, как можно проверить это? В таких случаях формализованные доказательства становятся спасением: они написаны на языках вроде Lean, каждый шаг логики понятен компьютеру, и если компилятор одобряет доказательство, оно считается 100% правильным, без необходимости проверки человеком. Однако раньше создание формализованных доказательств было очень дорогостоящим процессом (например, система Google тратила 170 000 долларов на один запуск).
Основные инновации Goedel-Architect
Традиционные системы ИИ для доказательств работали по принципу “слепого сборки кубиков”: при столкновении с сложной проблемой они разделяли её на более мелкие части, но иногда это приводило к тупикам, и все предыдущие усилия терялись впустую. Goedel-Architect использует другой подход: сначала создается “общий план действий”, а затем начинается параллельная обработка:
1. Генерация плана: теорема разделяется на мелкие леммы, и между ними определяются зависимости (какие леммы требуют результатов других).
2. Параллельное доказательство: несколько систем одновременно работают над разными леммами, не мешая друг другу.
3. Оптимизация плана: если доказательство какой-либо леммы терпит неудачу, система выявляет причину:
- Если ошибка в самой лемме (например, неправильное определение операции сложения в двоичном числе), лемма исправляется и зависимости обновляются;
- Если лемма слишком сложна, она разделяется на более мелкие части и попытка доказательства повторяется.
Это похоже на процесс строительства: сначала рисуется чертеж, затем исправляются ошибки без необходимости начинать всё сначала, что значительно повышает эффективность.
Эффективность и стоимость
Результаты работы Goedel-Architect впечатляют:
- Затраты: на тестовом наборе PutnamBench (672 конкурсных задач) система Google Hilbert потратила 170 000 долларов, а Goedel — всего 294 доллара.
- Точность: процент правильных доказательств у Goedel составил 75,6%, что выше, чем у Hilbert (70%).
- Охват сложности задач: система справляется практически со всеми задачами из набора MiniF2F для старших классов школ (242/244), а также с новыми задачами IMO (Международной олимпиады по математике) и USAMO (Американской олимпиады по математике); даже неизвестные задачи решаются с правильностью в 3/6 случаев.
Ключевым фактором является использование открытой китайской модели DeepSeek, что позволяет использовать систему людям без высоких затрат.
Команда-разработчик
Команда, создавшая Goedel-Architect, работает в Принстонском университете и состоит из двух ведущих специалистов:
- Sanjeev Arora: эксперт в области вычислительной сложности, изучающий возможность ИИ стать “суперчеловеческим математиком”.
- Дэньци Чэнь: выпускник Tsinghua University и доктор Стэнфордского университета; ранее сотрудничала с Google над разработкой инструмента SyntaxNet для анализа языка, сейчас специализируется на рассуждениях на основе языковых моделей.
Они уже создавали две предыдущие версии системы Goedel-Prover, поэтому этот успех не случаен.
Будущее значение
Goedel-Architect может стать “ускорителем” в математических исследованиях:
- Снижение барьеров для формализованного доказательства: математикам больше не придется тратить годы на проверку деталей, ИИ сможет быстро генерировать проверяемые компьютером доказательства.
- Маленькие команды или отдельные учёные смогут пытаться решать сложные математические проблемы без помощи крупных организаций.
- Если однажды ИИ объявит об опровержении гипотезы Римана, достаточно будет запустить его доказательство с использованием компилятора Lean, чтобы сразу узнать правильность вывода, без необходимости ждать десятилетий оценки коллег.
В целом, Goedel-Architect представляет собой не только прорыв в области ИИ-математики, но и важный шаг к внедрению надёжных технологий ИИ в математическую науку. Благодаря открытой модели и инновационным подходам формализованные доказательства становятся доступны для всех, что может способствовать новым открытиям в этой области науки.