핵심 내용 요약
2026년 대학 입시 시기에 저자는 GPT-5.5, Claude Opus 4.8, Xiaomi MiMo v2.5 Pro 등 12개의 국내외 주요 대형 언어 모델을 활용하여 국어와 수학 시험에 참여시켰습니다. 공정성을 보장하기 위해 통일된 API 호출 방식, LaTeX를 사용한 순수 텍스트 입력, 객관적인 채점을 위한 교사의 평가 등의 조치를 취했으며, 경험이 풍부한 4명의 교사에게 점수를 맡겼습니다. 결과적으로 최상위 모델들 간의 총점 차이는 매우 작았습니다(상위 9개 모델 중 2점 차이만 있었으며, MiMo와 Kimi가 0.01점 차로 1위와 2위를 차지했습니다). 일부 모델은 특정 과목에서 강점과 약점을 보였습니다(예: DeepSeek는 수학에 강하지만 국어가 약하고, GLM5.1은 국어에 강하지만 수학이 다소 약했습니다). 쓰기 과제의 경우 교사들은 구조, 논점, 논증을 가장 중요하게 평가했습니다. 수학 문제 전반의 정답률은 높았지만, 빈칸 채우기 문제에서는 모든 모델이 실패했습니다. 또한 2023년부터 2026년까지 AI의 대학 입시 시험 성능 향상을 비교하여 AI가 기초 과목에서 빠르게 발전하고 있음을 확인할 수 있었습니다.
1. 시험의 “대학 입시 수준” 공정성: 어떤 모델도 특혜를 받지 못하도록
AI들이 실제 학생처럼 공정하게 경쟁할 수 있도록 저자는 다음과 같은 조치를 취했습니다:
- 통일된 “시험 규칙”: 모든 모델이 API를 사용하여 문제를 풀었으며, 검색이나 코드 작성을 금지하고 답변 길이에 제한을 두지 않았습니다.讯飞와 바이두를 제외한 10개 모델은 OpenRouter 플랫폼을 사용하여 다른 인터페이스로 인한 결과 차이를 방지했습니다.
- “답안지”의 표준화: 국어와 수학 문제는 모두 LaTeX를 사용한 순수 텍스트 형식으로 입력되었으며, LaTeX 변환의 정확성을 확인하기 위한 스크립트도 작성되었습니다.
- 객관적인 채점: 교사들은 모델 이름을 보지 못하고 코드명(A, B 등)만으로 채점하여 편견을 방지했습니다. 주관식 문제는 3명의 국어 교사가 평균 점수를 내었습니다.
- 빈칸 채우기 문제의 유연한 채점: 숫자나 제곱근의 표기 방식에 관계없이 정답이면 점수를 주었습니다.
이러한 조치들은 마치 대학 입시에서 모든 학생이 동일한 조건으로 경쟁하는 것과 같습니다.
2. 성적: 최상위 AI들의 총점 차이는 “머리카락 한 올”만큼도 안 됩니다
가장 놀라운 결과는 최상위 모델들 간의 점수 차이가 거의 없었다는 것입니다:
- 1위와 2위인 MiMo와 Kimi의 점수 차이는 0.01점에 불과했습니다(MiMo는 국어에서 1점 낮고, Kimi는 수학에서 1점 높았습니다).
- 3위인 Claude Opus부터 9위인 GLM5.1/Gemini까지의 7개 모델 간의 점수 차이는 2점 이내였습니다.
이는 현재 최고 수준의 AI들이 국어와 수학 기초 능력에서 매우 비슷하다는 것을 의미합니다. 마치 학교 내 우수한 학생들처럼 점수가 아주 박빽하게 분포되어 있으며, 1점 차이로 순위가 크게 달라질 수 있지만 전반적인 수준은 비슷합니다.
3. AI도 “과목 편향”이 있습니다: 어떤 모델은 수학에 강하고, 어떤 모델은 국어에 강합니다
학생들처럼 AI 모델들도 과목별로 강점과 약점이 있습니다:
- 국어에 강한 모델: GLM5.1과 Gemini 3.1 Pro가 국어에서 1위를 차지했지만, 수학 성적은 다소 낮았습니다.
- 수학에 강한 모델: DeepSeek V4 Pro, MiMo, Wenxin Ernie 5.1이 수학에서 1위를 차지했지만, 국어 성적은 낮았습니다(주로 쓰기 과제가 약점이었습니다).
- 균형 잡힌 모델: MiMo와 Kimi는 두 과목에서 모두 좋은 성적을 거두었으며, 이는 두 과목 모두에 명확한 약점이 없었기 때문입니다.
이러한 과목 편향은 모델의 훈련 방식과 관련이 있을 수 있습니다. 예를 들어, DeepSeek는 수학적 추론에 더 중점을 두었고, GLM5.1은 언어 이해에 더 많은 자원을 투자했을 수 있습니다. 마치 일부 학생이 과학에 재능이 있고 다른 학생은 인문학에 재능이 있는 것처럼 말입니다.
4. 쓰기 과제 평가: 교사들은 “대학 입시 스타일”을 가장 중요하게 생각합니다, 문체가 아닙니다
국어 주관식 문제(특히 쓰기 과제)의 평가에서 교사들은 AI의 쓰기 과제의 약점을 지적했습니다:
- 일반적인 문제: 문체가 불명확하거나(논술문이 아니면서 기술문도 아님), 구조가 혼란스럽거나, 논점과 근거, 결론이 명확하지 않거나, 예시와 논점이 연결되지 않거나, 시대적 감각이 부족합니다.
- 구체적인 사례: GLM5.1의 쓰기 과제는 점수가 가장 높았지만 구조가 명확하지 않다는 지적을 받았습니다. DeepSeek의 쓰기 과제는 문체가 불명확하고 논증이 약하다는 이유로 점수가 낮았습니다.
이는 AI가 아직 대학 입시 쓰기 과제의 평가 기준을 완전히 이해하지 못했다는 것을 의미합니다. 대학 입시 쓰기 과제는 문체의 화려함이 아니라 구조의 명확성, 논점의 명확성, 논증의 타당성, 그리고 시대적 배경과의 연관성이 중요합니다.
5. 4년간의 진화: “쓰기 과제에서 실패”에서 “최상위 학생에 가까워짐”
2023년부터 2026년까지 AI의 대학 입시 시험 성능을 비교하면 눈에 띄는 진전이 있었습니다:
- 2023년: GPT-4만이 쓰기 과제를 어렵게 완수할 수 있었으며, 국내 모델은 거의 없었습니다.
- 2024년: 국내 모델들이 성능을 향상시켰지만 종종 오답하는 경우가 있었습니다.
- 2025년: 일부 모델의 수학 능력이 “일류 대학 기준”에 도달했습니다.
- 2026년: 최상위 모델들 간의 총점 차이가 매우 작아졌으며, 시험 방법도 수동적인 복사/붙여넣기에서 자동화된 스크립트와 전문적인 채점 웹사이트로 발전했습니다.
이 4년은 AI의 능력 향상뿐만 아니라 저자의 시험 방법도 전문화되었다는 것을 의미합니다. 대학 입시라는 중요한 의미를 고려하여 더 엄격하고 체계적인 방식으로 시험을 진행했습니다.
결론적으로, 이 결과는 단지 참고용이지만 AI가 기초 학문 분야에서 상당한 성과를 거두었음을 보여줍니다. 앞으로도 AI의 발전이 계속될 것으로 기대됩니다.