虎嗅

今年高考，我让12个顶级AI一起考了语文和数学，结果有点意外。

2026-06-08 阅读原文

核心内容总结

2026年高考季，作者组织了12个国内外主流大模型（如GPT-5.5、Claude Opus 4.8、小米MiMo v2.5 Pro等）参加语文和数学高考测试。为保证公平，采用了统一API调用、LaTeX纯文本输入、老师盲评等措施，邀请4位有阅卷经验的老师打分。结果显示：顶级模型总分差距极小（前9名仅差2分），MiMo和Kimi以0.01分差分列冠亚军；部分模型存在“偏科”（如DeepSeek数学强语文弱，GLM5.1语文强数学稍弱）；作文评分中老师最在意结构、观点和论证；数学题整体正确率高，但填空题最后一题全军覆没。同时对比了2023-2026年AI测试高考题的进步，体现AI基础学科能力的快速提升。

一、测试的“高考级”公平性：不让任何模型“走后门”

为了让AI们像真实考生一样公平竞争，作者做了一系列“防作弊”设计：

统一“考场规则”：所有模型用API调用，关闭工具（比如不让搜题、写代码算题），不限制答题长度；除讯飞、百度外，10家模型统一走OpenRouter平台，避免不同接口的差异影响结果。
“答题卡”标准化：数学和语文题都用LaTeX纯文本输入（相当于统一格式的答题卡），还专门写脚本核对LaTeX转换的准确性，防止题目信息出错。
盲评“阅卷”：老师改卷时看不到模型名字，只能看到代号（如卷A、卷B），避免对某品牌模型的刻板印象影响打分；主观题由3位语文老师取平均分，减少个人偏好。
填空题“灵活给分”：比如分数或根号的不同写法（如1/2和0.5），只要数值对就给分，不卡格式。

这些操作就像高考时统一用2B铅笔、密封试卷姓名一样，确保AI们在同一起跑线竞争。

二、成绩：顶尖AI的总分差比“一根头发丝”还细

这次测试的结果最意外的是：顶级模型的差距小到可以忽略。

冠亚军MiMo和Kimi只差0.01分（MiMo语文少1分，Kimi数学多1分）；
从第3名Claude Opus到第9名GLM5.1/Gemini，7个模型的分差仅2分以内。

这说明现在的顶级大模型在语文和数学的基础能力上已经非常接近，就像班里的尖子生考试，大家分数咬得特别紧，一分能差好几个名次，但整体水平都在同一档。

三、AI也会“偏科”：有的数学强、有的语文好

和学生一样，AI模型也存在“偏科”现象：

语文尖子生：GLM5.1和Gemini 3.1 Pro并列语文第一，但数学成绩稍弱（比如GLM5.1数学比MiMo低）；
数学学霸：DeepSeek V4 Pro、MiMo、文心Ernie 5.1并列数学第一，但DeepSeek的语文成绩垫底（主要是作文拉胯）；
均衡选手：MiMo和Kimi总分靠前，是因为两科都没有明显短板。

这种偏科可能和模型训练方向有关：比如DeepSeek可能更侧重数学推理，而GLM5.1可能在语言理解上投入更多资源，就像有的学生天生擅长理科，有的擅长文科。

四、作文评分：老师最在意“高考范儿”，不是“文采”

语文主观题（尤其是作文）的评分中，老师的评语暴露了AI作文的短板：

高频问题：文体不清（比如不像议论文也不像记叙文）、结构混乱（没有清晰的论点-论据-结论）、观点模糊（不知道想表达什么）、论证不充分（举的例子和观点不沾边）、缺乏时代感（没结合当下热点）；
典型案例：GLM5.1的作文得分最高，但仍被老师指出“结构不够清晰”；DeepSeek的作文被批“文体不清，论证薄弱”，分数很低。

这说明AI写作文还没完全摸透“高考评分套路”——高考作文不是比谁写得“花”，而是要符合规范：结构清晰、观点明确、论证有力，还要结合时代背景。

五、四年进化：从“写作文翻车”到“接近顶尖考生”

对比2023-2026年的AI高考测试，能看到明显的进步：

2023年：只有GPT-4能勉强写作文，国产模型寥寥无几；
2024年：国产模型开始卷，但经常出现“哭笑不得的翻车”（比如答非所问）；
2025年：部分模型的数学水平达到“一本线”；
2026年：顶级模型总分差距极小，测试方法从人工复制粘贴变成自动化脚本+专业阅卷网站。

这四年不仅是AI能力的提升，也是作者测试方法的“专业化”——从随便玩玩到像做科研一样严谨，因为“高考”这两个字在中国承载了太多意义，不能随便应付。

最后，作者强调结果仅供娱乐参考，但从测试中能看到：AI在基础学科上的能力已经越来越接近人类顶尖水平，未来可能会在更多领域替代人类完成复杂任务。不过，AI的“偏科”和作文短板也说明，它离完全理解人类的思维和表达还有一段距离。