核心内容总结
2026年高考季,作者组织了12个国内外主流大模型(如GPT-5.5、Claude Opus 4.8、小米MiMo v2.5 Pro等)参加语文和数学高考测试。为保证公平,采用了统一API调用、LaTeX纯文本输入、老师盲评等措施,邀请4位有阅卷经验的老师打分。结果显示:顶级模型总分差距极小(前9名仅差2分),MiMo和Kimi以0.01分差分列冠亚军;部分模型存在“偏科”(如DeepSeek数学强语文弱,GLM5.1语文强数学稍弱);作文评分中老师最在意结构、观点和论证;数学题整体正确率高,但填空题最后一题全军覆没。同时对比了2023-2026年AI测试高考题的进步,体现AI基础学科能力的快速提升。
一、测试的“高考级”公平性:不让任何模型“走后门”
为了让AI们像真实考生一样公平竞争,作者做了一系列“防作弊”设计:
- 统一“考场规则”:所有模型用API调用,关闭工具(比如不让搜题、写代码算题),不限制答题长度;除讯飞、百度外,10家模型统一走OpenRouter平台,避免不同接口的差异影响结果。
- “答题卡”标准化:数学和语文题都用LaTeX纯文本输入(相当于统一格式的答题卡),还专门写脚本核对LaTeX转换的准确性,防止题目信息出错。
- 盲评“阅卷”:老师改卷时看不到模型名字,只能看到代号(如卷A、卷B),避免对某品牌模型的刻板印象影响打分;主观题由3位语文老师取平均分,减少个人偏好。
- 填空题“灵活给分”:比如分数或根号的不同写法(如1/2和0.5),只要数值对就给分,不卡格式。
这些操作就像高考时统一用2B铅笔、密封试卷姓名一样,确保AI们在同一起跑线竞争。
二、成绩:顶尖AI的总分差比“一根头发丝”还细
这次测试的结果最意外的是:顶级模型的差距小到可以忽略。
- 冠亚军MiMo和Kimi只差0.01分(MiMo语文少1分,Kimi数学多1分);
- 从第3名Claude Opus到第9名GLM5.1/Gemini,7个模型的分差仅2分以内。
这说明现在的顶级大模型在语文和数学的基础能力上已经非常接近,就像班里的尖子生考试,大家分数咬得特别紧,一分能差好几个名次,但整体水平都在同一档。
三、AI也会“偏科”:有的数学强、有的语文好
和学生一样,AI模型也存在“偏科”现象:
- 语文尖子生:GLM5.1和Gemini 3.1 Pro并列语文第一,但数学成绩稍弱(比如GLM5.1数学比MiMo低);
- 数学学霸:DeepSeek V4 Pro、MiMo、文心Ernie 5.1并列数学第一,但DeepSeek的语文成绩垫底(主要是作文拉胯);
- 均衡选手:MiMo和Kimi总分靠前,是因为两科都没有明显短板。
这种偏科可能和模型训练方向有关:比如DeepSeek可能更侧重数学推理,而GLM5.1可能在语言理解上投入更多资源,就像有的学生天生擅长理科,有的擅长文科。
四、作文评分:老师最在意“高考范儿”,不是“文采”
语文主观题(尤其是作文)的评分中,老师的评语暴露了AI作文的短板:
- 高频问题:文体不清(比如不像议论文也不像记叙文)、结构混乱(没有清晰的论点-论据-结论)、观点模糊(不知道想表达什么)、论证不充分(举的例子和观点不沾边)、缺乏时代感(没结合当下热点);
- 典型案例:GLM5.1的作文得分最高,但仍被老师指出“结构不够清晰”;DeepSeek的作文被批“文体不清,论证薄弱”,分数很低。
这说明AI写作文还没完全摸透“高考评分套路”——高考作文不是比谁写得“花”,而是要符合规范:结构清晰、观点明确、论证有力,还要结合时代背景。
五、四年进化:从“写作文翻车”到“接近顶尖考生”
对比2023-2026年的AI高考测试,能看到明显的进步:
- 2023年:只有GPT-4能勉强写作文,国产模型寥寥无几;
- 2024年:国产模型开始卷,但经常出现“哭笑不得的翻车”(比如答非所问);
- 2025年:部分模型的数学水平达到“一本线”;
- 2026年:顶级模型总分差距极小,测试方法从人工复制粘贴变成自动化脚本+专业阅卷网站。
这四年不仅是AI能力的提升,也是作者测试方法的“专业化”——从随便玩玩到像做科研一样严谨,因为“高考”这两个字在中国承载了太多意义,不能随便应付。
最后,作者强调结果仅供娱乐参考,但从测试中能看到:AI在基础学科上的能力已经越来越接近人类顶尖水平,未来可能会在更多领域替代人类完成复杂任务。不过,AI的“偏科”和作文短板也说明,它离完全理解人类的思维和表达还有一段距离。