虎嗅

**今年の大学入試で、私は12個のトップクラスのAIに中国語と数学の試験を受けさせました。その結果は少し予想外でした。** --- このニュースヘッドラインは、金融ニュースウェブサイト向けに適した自然な日本語の表現になっています。日本のジャーナリズムではよく使われる慣用的な表現も取り入れられており、意味は正確に伝えられています。サブタイトルや説明は付けられていません。

原文:今年高考,我让12个顶级AI一起考了语文和数学,结果有点意外。

2026年の大学入試シーズンにおけるAIモデルの成績分析

2026年の大学入試期間中、筆者はGPT-5.5、Claude Opus 4.8、小米MiMo v2.5 Proなど12の国内外の主要な大規模言語モデルを招いて、国語と数学の試験に参加させました。公平性を保証するために、統一されたAPIを使用し、LaTeX形式のテキストで入力を行い、採点経験のある4人の教師による盲検採点を実施しました。その結果、トップモデル間の総得点の差は非常に小さく(上位9位まででわずか2点)、MiMoとKimiが0.01点差で1位と2位になりました。また、一部のモデルでは「得意科目と苦手科目」が見られました(例えばDeepSeekは数学が強い一方で国語が弱く、GLM5.1は国語が強いものの数学がやや弱かった)。作文の採点では、教師たちは特に構成、論点、論証を重視していました。数学の問題全体の正解率は高かったものの、記入式の最後の問題では全モデルが失敗しました。2023年から2026年までのAIによる大学入試問題の進歩を比較すると、AIの基礎科目能力が急速に向上していることがわかります。

1. 試験の公平性:どのモデルも「特別扱い」を受けないように

AIモデルが実際の受験生と同じように公平に競争できるようにするため、筆者は以下のような対策を講じました:

  • 統一された「試験規則」:すべてのモデルがAPIを使用し、問題検索やコードによる計算を禁止し、回答時間に制限を設けませんでした。讯飞(Xunfei)と百度(Baidu)を除く10のモデルはOpenRouterプラットフォームを共通して使用し、異なるインターフェースが結果に影響を与えないようにしました。
  • 「解答用紙」の標準化:数学と国語の問題はLaTeX形式のテキストで入力され、LaTeXの変換精度を確認するためのスクリプトも使用しました。
  • 盲検採点:教師はモデル名を見ずに代号(例えばA卷、B卷)のみを参照して採点し、特定のブランドのモデルに対する偏見が採点に影響しないようにしました。主観的な問題は3人の国語教師の平均点で評価され、個人の好みによるバイアスを減らしました。
  • 記入式問題の柔軟な採点:例えば「1/2」と「0.5」の表記方法が異なっても、数値が正しければ採点されました。

これらの措置は、大学入試で2B鉛筆を使用し、答案用紙に名前を密封するのと同じように、AIモデルが公平に競争できる環境を作り出すためのものです。

2. 成績:トップAIモデル間の総得点差は「髪の毛の太さ」ほど

この試験の最も驚くべき結果は、トップモデル間の差が非常に小さいことでした:

  • 1位のMiMoとKimiの差はわずか0.01点(MiMoは国語で1点少なく、Kimiは数学で1点多い)
  • 3位のClaude Opusから9位のGLM5.1/Geminiまでの7つのモデル間の差は2点以内でした。

これは、現在のトップクラスの大規模言語モデルが国語と数学の基礎能力において非常に近いレベルにあることを示しています。まるでクラスの優秀な生徒たちが競争しているように、得点差はわずかでありながらも全体的なレベルは同じです。

3. AIにも「得意科目と苦手科目」がある

学生と同様に、AIモデルにも「得意科目と苦手科目」があります:

  • 国語が得意なモデル:GLM5.1とGemini 3.1 Proは国語で1位タイですが、数学の成績はやや低い(例えばGLM5.1はMiMoよりも低い)。
  • 数学が得意なモデル:DeepSeek V4 Pro、MiMo、文心Ernie 5.1は数学で1位タイですが、DeepSeekの国語の成績は最も低かった(主に作文が原因)。
  • バランスの取れたモデル:MiMoとKimiは総得点が高いが、どちらも科目に明らかな弱点がありません。

このような傾向は、モデルのトレーニング内容に関連している可能性があります。例えばDeepSeekは数学的推論に重点を置いているのに対し、GLM5.1は言語理解により多くのリソースを割いているかもしれません。これは、生徒が理科に強いか文科に強いかと同じです。

4. 作文の採点:教師が重視するのは「大学入試の形式」であり、「文才」ではない

国語の主観的な問題(特に作文)の採点では、教師のコメントからAIの作文の弱点が明らかになりました:

  • よくある問題:文体が不明瞭(論説文でも記述文でもない)、構成が混乱している(明確な論点・根拠・結論がない)、論証が不十分(例えば挙げられた例と論点が関連していない)、時代感に欠ける(現在の話題と結びついていない)。
  • 典型的な例:GLM5.1の作文は得点が最も高かったものの、「構成が不明瞭」と指摘されました。DeepSeekの作文は「文体が不明瞭で論証が弱い」と評価され、得点が低かった。

これは、AIが大学入試の作文の採点基準をまだ完全に理解していないことを示しています。大学入試の作文では、「美しい文章」を書くことよりも、構成が明確で論点が明確で論証が力強いことが求められており、時代背景にも合わせる必要があります。

5. 4年間の進歩:「作文で失敗する」から「トップレベルの受験生に近づく**

2023年から2026年までのAIによる大学入試テストを比較すると、明らかな進歩が見られます:

  • 2023年:GPT-4のみが作文を書けたが、国産モデルはほとんどいなかった。
  • 2024年:国産モデルが参加し始めたが、しばしば「笑えるような失敗」(例えば答えが全く関係ない)がありました。
  • 2025年:一部のモデルの数学の成績が「一流大学の基準」に達しました。
  • 2026年:トップモデル間の総得点差は非常に小さく、テスト方法も手作業から自動化されたスクリプトと専門の採点サイトへと変わりました。

これ4年間でAIの能力が向上しただけでなく、筆者のテスト方法も「専門的」になりました。大学入試という重要な試験を軽視することはできません。

最後に、筆者はこれらの結果は娯楽目的であると強調していますが、AIが基礎科目において人間のトップレベルに近づいていることがわかります。将来的には、AIがより多くの分野で人間の複雑なタスクを代替する可能性があります。しかし、AIの「得意科目と苦手科目」や作文の弱点から、まだ完全に人間の思考や表現を理解するには至っていないことも明らかです。