虎嗅

В этом году на вступительных экзаменах в университет я попросил 12 ведущих ИИ совместно сдать экзамены по китайскому языку и математике, и результаты оказались несколько неожиданными.

原文:今年高考,我让12个顶级AI一起考了语文和数学,结果有点意外。

Краткое содержание анализа

В сезоне вступительных экзаменов 2026 года автор организовал участие 12 ведущих отечественных и зарубежных больших моделей (таких как GPT-5.5, Claude Opus 4.8, Xiaomi MiMo v2.5 Pro) в тестах по литературе и математике. Для обеспечения справедливости были применены такие меры, как единый интерфейс для вызова моделей (API), ввод данных в формате LaTeX, а также бессистемная оценка работ учителями. Для оценки работы было приглашено 4 опытных экзаменатора. Результаты показали, что разница в общем количестве очков между лидирующими моделями была минимальной (первые 9 моделей отличались всего на 2 балла); MiMo и Kimi заняли первое и второе места с разницей в 0.01 бала; некоторые модели демонстрировали сильные или слабые стороны в конкретных предметах (например, DeepSeek хорошо справлялся с математикой, но плохо с литературой, в то время как GLM5.1 наоборот); при оценке сочинений учителя больше всего ценили структуру, точность мысли и убедительность аргументации; процент правильных ответов на математических вопросах был высоким, однако все модели ошиблись с последним вопросом. Также было проведено сравнение результатов тестов за 2023–2026 годы, что свидетельствует о быстром прогрессе ИИ в освоении базовых учебных дисциплин.

I. Справедливость теста на уровне вступительных экзаменов: никаких привилегий для моделей

Чтобы ИИ соревновались на равных, автор разработал ряд мер противодействия чемпионату:

  • Единые правила тестирования: все модели использовали единый интерфейс (API); было запрещено использование инструментов для поиска информации или решения задач; продолжительность ответов не ограничивалась; кроме XinFei и Baidu, все модели работали через платформу OpenRouter, чтобы избежать различий в интерфейсах, влияющих на результаты.
  • Стандартизация формата ответов: данные для математики и литературы вводились в формате LaTeX; были написаны скрипты для проверки точности преобразования текста, чтобы предотвратить ошибки.
  • Бессистемная оценка: экзаменаторы не знали названий моделей и видели только их кодовые обозначения; для оценки субъективных вопросов использовалась средняя оценка трех учителей, чтобы минимизировать влияние личных предпочтений.
  • Гибкое присвоение баллов за ответы на вопросы с заполнением пробелов: различные способы записи чисел (например, 1/2 или 0.5) учитывались при оценке; главное было правильное значение, а не формат.

Эти меры обеспечивали равные условия для всех моделей, подобно использованию единых карандашей и запечатанных билетов на вступительных экзаменах.

II. Результаты: разница в очках между лидирующими моделями минимальна

Самым неожиданным результатом стало то, что разница в оценках между ведущими моделями была практически незначительной:

  • MiMo и Kimi заняли первое и второе места с разницей в 0.01 бала (у MiMo на 1 балл меньше по литературе, у Kimi на 1 балл больше по математике);
  • Разница в оценках у семи моделей (от третьего места, занятого Claude Opus, до девятого, занятого GLM5.1/Gemini) составляла не более 2 баллов.

Это свидетельствует о том, что современные лидирующие ИИ показывают похожий уровень знаний в литературе и математике; разница в очках между ними незначительна, как между отличниками в одном классе.

III. У ИИ тоже есть сильные и слабые стороны

Как и у студентов, у ИИ также наблюдаются различия в способностях к конкретным предметам:

  • Лидеры по литературе: GLM5.1 и Gemini 3.1 Pro заняли первые места по литературе, но показали слабые результаты по математике;
  • Мастера математики: DeepSeek V4 Pro, MiMo и WenXin Ernie 5.1 также заняли первые места по математике, но у DeepSeek были слабые результаты по литературе (особенно в сочинениях);
  • Балансированные модели: MiMo и Kimi показали хорошие результаты в обоих предметах из-за отсутствия явных слабых сторон.

Такие различия, вероятно, связаны с направлением их обучения: например, DeepSeek может быть более специализирован на математических задачах, в то время как GLM5.1 — на понимании языка; подобно студентам, некоторые модели лучше справляются с одними дисциплинами, а другие — с другими.

IV. Оценка сочинений: учителя ценят структуру и логику

При оценке литературных сочинений учителя выделили следующие недостатки ИИ:

  • Нечеткая структура текста; отсутствие четкой последовательности аргументов; неопределенность мысли; недостаточно убедительные примеры; отсутствие связи с актуальными темами;
  • Например, сочинение GLM5.1 получило высокую оценку, но было признано нечетким по структуре; сочинение DeepSeek получило низкую оценку из-за плохой структуры и слабых аргументов.

Это показывает, что ИИ еще не полностью освоили правила оценки сочинений для вступительных экзаменов: важны четкая структура, ясная мысль и убедительные аргументы, а также соответствие современным требованиям.

V. Прогресс ИИ за 4 года

За 4 года произошел значительный прогресс:

  • В 2023 году только GPT-4 мог написать хоть какое-то сочинение; отечественные модели показали слабые результаты;
  • В 2024 году отечественные модели начали улучшаться, но часто допускали ошибки;
  • В 2025 году некоторые модели достигли уровня, соответствующего требованиям для поступления в высшие учебные заведения;
  • В 2026 году разница в оценках между лидирующими моделями была минимальной; методы тестирования существенно улучшились (от ручного ввода данных к автоматизированному процессу с использованием специализированных сайтов для оценки).

Эти изменения свидетельствуют не только о прогрессе ИИ, но и о том, насколько серьезно автор подходит к проведению тестов — ведь вступительные экзамены в Китае имеют большое значение.

В заключение автор отмечает, что результаты предназначены исключительно для развлечения, но они показывают, что ИИ уже приближаются к уровню человеков в основных учебных дисциплинах и могут в будущем заменять людей в выполнении сложных задач. Однако недостатки ИИ (выраженные в сильных или слабых сторонах по отдельным предметам) свидетельствуют о том, что им еще предстоит пройти долгий путь до полного понимания человеческого мышления и способности к общению.