Краткое содержание анализа
В сезоне вступительных экзаменов 2026 года автор организовал участие 12 ведущих отечественных и зарубежных больших моделей (таких как GPT-5.5, Claude Opus 4.8, Xiaomi MiMo v2.5 Pro) в тестах по литературе и математике. Для обеспечения справедливости были применены такие меры, как единый интерфейс для вызова моделей (API), ввод данных в формате LaTeX, а также бессистемная оценка работ учителями. Для оценки работы было приглашено 4 опытных экзаменатора. Результаты показали, что разница в общем количестве очков между лидирующими моделями была минимальной (первые 9 моделей отличались всего на 2 балла); MiMo и Kimi заняли первое и второе места с разницей в 0.01 бала; некоторые модели демонстрировали сильные или слабые стороны в конкретных предметах (например, DeepSeek хорошо справлялся с математикой, но плохо с литературой, в то время как GLM5.1 наоборот); при оценке сочинений учителя больше всего ценили структуру, точность мысли и убедительность аргументации; процент правильных ответов на математических вопросах был высоким, однако все модели ошиблись с последним вопросом. Также было проведено сравнение результатов тестов за 2023–2026 годы, что свидетельствует о быстром прогрессе ИИ в освоении базовых учебных дисциплин.
I. Справедливость теста на уровне вступительных экзаменов: никаких привилегий для моделей
Чтобы ИИ соревновались на равных, автор разработал ряд мер противодействия чемпионату:
- Единые правила тестирования: все модели использовали единый интерфейс (API); было запрещено использование инструментов для поиска информации или решения задач; продолжительность ответов не ограничивалась; кроме XinFei и Baidu, все модели работали через платформу OpenRouter, чтобы избежать различий в интерфейсах, влияющих на результаты.
- Стандартизация формата ответов: данные для математики и литературы вводились в формате LaTeX; были написаны скрипты для проверки точности преобразования текста, чтобы предотвратить ошибки.
- Бессистемная оценка: экзаменаторы не знали названий моделей и видели только их кодовые обозначения; для оценки субъективных вопросов использовалась средняя оценка трех учителей, чтобы минимизировать влияние личных предпочтений.
- Гибкое присвоение баллов за ответы на вопросы с заполнением пробелов: различные способы записи чисел (например, 1/2 или 0.5) учитывались при оценке; главное было правильное значение, а не формат.
Эти меры обеспечивали равные условия для всех моделей, подобно использованию единых карандашей и запечатанных билетов на вступительных экзаменах.
II. Результаты: разница в очках между лидирующими моделями минимальна
Самым неожиданным результатом стало то, что разница в оценках между ведущими моделями была практически незначительной:
- MiMo и Kimi заняли первое и второе места с разницей в 0.01 бала (у MiMo на 1 балл меньше по литературе, у Kimi на 1 балл больше по математике);
- Разница в оценках у семи моделей (от третьего места, занятого Claude Opus, до девятого, занятого GLM5.1/Gemini) составляла не более 2 баллов.
Это свидетельствует о том, что современные лидирующие ИИ показывают похожий уровень знаний в литературе и математике; разница в очках между ними незначительна, как между отличниками в одном классе.
III. У ИИ тоже есть сильные и слабые стороны
Как и у студентов, у ИИ также наблюдаются различия в способностях к конкретным предметам:
- Лидеры по литературе: GLM5.1 и Gemini 3.1 Pro заняли первые места по литературе, но показали слабые результаты по математике;
- Мастера математики: DeepSeek V4 Pro, MiMo и WenXin Ernie 5.1 также заняли первые места по математике, но у DeepSeek были слабые результаты по литературе (особенно в сочинениях);
- Балансированные модели: MiMo и Kimi показали хорошие результаты в обоих предметах из-за отсутствия явных слабых сторон.
Такие различия, вероятно, связаны с направлением их обучения: например, DeepSeek может быть более специализирован на математических задачах, в то время как GLM5.1 — на понимании языка; подобно студентам, некоторые модели лучше справляются с одними дисциплинами, а другие — с другими.
IV. Оценка сочинений: учителя ценят структуру и логику
При оценке литературных сочинений учителя выделили следующие недостатки ИИ:
- Нечеткая структура текста; отсутствие четкой последовательности аргументов; неопределенность мысли; недостаточно убедительные примеры; отсутствие связи с актуальными темами;
- Например, сочинение GLM5.1 получило высокую оценку, но было признано нечетким по структуре; сочинение DeepSeek получило низкую оценку из-за плохой структуры и слабых аргументов.
Это показывает, что ИИ еще не полностью освоили правила оценки сочинений для вступительных экзаменов: важны четкая структура, ясная мысль и убедительные аргументы, а также соответствие современным требованиям.
V. Прогресс ИИ за 4 года
За 4 года произошел значительный прогресс:
- В 2023 году только GPT-4 мог написать хоть какое-то сочинение; отечественные модели показали слабые результаты;
- В 2024 году отечественные модели начали улучшаться, но часто допускали ошибки;
- В 2025 году некоторые модели достигли уровня, соответствующего требованиям для поступления в высшие учебные заведения;
- В 2026 году разница в оценках между лидирующими моделями была минимальной; методы тестирования существенно улучшились (от ручного ввода данных к автоматизированному процессу с использованием специализированных сайтов для оценки).
Эти изменения свидетельствуют не только о прогрессе ИИ, но и о том, насколько серьезно автор подходит к проведению тестов — ведь вступительные экзамены в Китае имеют большое значение.
В заключение автор отмечает, что результаты предназначены исключительно для развлечения, но они показывают, что ИИ уже приближаются к уровню человеков в основных учебных дисциплинах и могут в будущем заменять людей в выполнении сложных задач. Однако недостатки ИИ (выраженные в сильных или слабых сторонах по отдельным предметам) свидетельствуют о том, что им еще предстоит пройти долгий путь до полного понимания человеческого мышления и способности к общению.