虎嗅

Este año, en los exámenes de ingreso a la universidad, hice que 12 sistemas de IA de alta tecnología participaran juntos en las pruebas de literatura y matemáticas… Y el resultado fue un poco inesperado.

原文：今年高考，我让12个顶级AI一起考了语文和数学，结果有点意外。

2026-06-08 阅读原文

Resumen del contenido principal

Durante la temporada de exámenes de ingreso a la universidad de 2026, el autor organizó la participación de 12 modelos principales nacionales e internacionales (como GPT-5.5, Claude Opus 4.8, Xiaomi MiMo v2.5 Pro, etc.) en pruebas de lengua china y matemáticas similares a los exámenes oficiales. Para garantizar la equidad, se adoptaron medidas como llamadas a API unificadas, ingreso de texto puro en LaTeX y evaluación ciega por parte de profesores. Se invitó a 4 profesores con experiencia en corrección de exámenes para dar las calificaciones. Los resultados mostraron que la diferencia total de puntajes entre los modelos más avanzados fue extremadamente pequeña (los 9 primeros solo diferían en 2 puntos), con MiMo y Kimi ocupando los primeros lugares con una diferencia de 0.01 punto; algunos modelos tenían desequilibrios en las asignaturas (por ejemplo, DeepSeek era fuerte en matemáticas pero débil en lengua china, mientras que GLM5.1 era fuerte en lengua china pero ligeramente débil en matemáticas); en la evaluación de los ensayos, a los profesores les importaba más la estructura, el punto de vista y la argumentación; la tasa de acierto general en las preguntas de matemáticas fue alta, excepto en la última pregunta de relleno, donde todos fallaron. Además, se comparó el progreso de las pruebas de AI desde 2023 hasta 2026, lo que demuestra una mejora rápida en las habilidades básicas de estos modelos.

I. Equidad a nivel de “examen de ingreso a la universidad”: no permitir que ningún modelo tenga ventajas injustas

Para que los AI compitieran de manera justa como estudiantes reales, el autor implementó varias medidas para prevenir trampas:

Reglas de examen unificadas: todos los modelos utilizaron llamadas a API; se prohibieron herramientas como buscar respuestas o escribir código para resolver problemas, y no se limitó la longitud de las respuestas; excepto por iFlytek y Baidu, los 10 modelos utilizaron la plataforma OpenRouter para evitar diferencias en los resultados debido a interfaces distintas.
Papeles de respuesta estandarizados: tanto las preguntas de matemáticas como las de lengua china se ingresaron en texto puro mediante LaTeX (equivalente a papeles de respuesta con formato unificado), y se escribió un script especial para verificar la precisión de la conversión de LaTeX y evitar errores en la información de las preguntas.
Corrección ciega: los profesores no pudieron ver el nombre del modelo mientras corregían los exámenes, solo sus códigos (por ejemplo, papel A o papel B), para evitar que sus prejuicios afectaran las calificaciones; las preguntas subjetivas se calificaron con la media de las puntuaciones de 3 profesores de lengua china para reducir el sesgo personal.
Puntuación flexible en preguntas de relleno: por ejemplo, diferentes formas de escribir números o raíces cuadradas (como 1/2 y 0.5) se consideraron válidas siempre que el valor fuera correcto, sin importar el formato.

Estas medidas aseguraron que los AI compitieran en igualdad de condiciones, al igual que los estudiantes que utilizan lápices 2B y papeles de respuesta sellados en los exámenes oficiales.

II. Resultados: la diferencia total entre los modelos más avanzados es menor que el grosor de un cabello

Lo más sorprendente de los resultados fue que la diferencia entre los modelos más avanzados fue prácticamente inexistente:

Los primeros dos lugares, MiMo y Kimi, solo diferían en 0.01 punto (MiMo obtuvo menos puntos en lengua china y más en matemáticas);
Desde el tercer lugar, Claude Opus, hasta el noveno lugar, GLM5.1/Gemini, la diferencia de puntajes entre los 7 modelos fue de menos de 2 puntos.

Esto indica que los modelos más avanzados ya tienen habilidades básicas muy similares en lengua china y matemáticas; es como si fueran estudiantes sobresalientes compitiendo entre sí, donde una pequeña diferencia en el puntaje puede significar cambios significativos en la clasificación, pero todos se encuentran en un nivel similar.

III. Los AI también tienen desequilibrios en las asignaturas

Al igual que los estudiantes, los modelos AI también muestran preferencias en ciertas áreas:

Modelos destacados en lengua china: GLM5.1 y Gemini 3.1 Pro compartieron el primer lugar en lengua china, pero GLM5.1 fue más débil en matemáticas;
Modelos fuertes en matemáticas: DeepSeek V4 Pro, MiMo y Wenxin Ernie 5.1 compartieron el primer lugar en matemáticas, aunque el rendimiento de DeepSeek en lengua china fue el peor (principalmente debido a su ensayo);
Modelos equilibrados: MiMo y Kimi obtuvieron puntajes altos en general porque no tenían debilidades significativas en ninguna asignatura.

Estos desequilibrios pueden estar relacionados con la dirección del entrenamiento de los modelos: por ejemplo, DeepSeek podría enfocarse más en el razonamiento matemático, mientras que GLM5.1 podría haber invertido más recursos en la comprensión del lenguaje, al igual que algunos estudiantes que son naturalmente buenos en ciencias o artes.

IV. Evaluación de ensayos: a los profesores les importa más el formato que el “talento literario”

En la evaluación de las preguntas subjetivas de lengua china (en particular, los ensayos), los comentarios de los profesores revelaron las debilidades de los AI:

Problemas comunes: estilo poco claro (no se parecía a un ensayo argumentativo ni a un relato), estructura confusa (falta una clara secuencia de tesis, argumentos y conclusión), puntos de vista vagos (no está claro lo que se quiere expresar), falta de argumentación sólida (los ejemplos no están relacionados con los puntos de vista), y falta de actualidad (no se reflejan temas actuales);
Casos típicos: aunque el ensayo de GLM5.1 obtuvo la puntuación más alta, se señaló que su estructura era insuficientemente clara; el ensayo de DeepSeek fue criticado por tener un estilo poco claro y una argumentación débil, recibiendo una puntuación baja.

Esto indica que los AI aún no han comprendido completamente las normas de evaluación de los exámenes de ingreso a la universidad: los ensayos no se juzgan por su belleza literaria, sino por su claridad estructural, precisión en el punto de vista y fuerza en la argumentación, así como por su relevancia para la época actual.

V. Evolución en cuatro años: desde errores graves hasta un rendimiento cercano al de estudiantes sobresalientes

Al comparar las pruebas de AI desde 2023 hasta 2026, se observó una clara mejora:

2023: solo GPT-4 podía escribir un ensayo a duras penas; había pocos modelos nacionales participantes;
2024: los modelos nacionales comenzaron a mejorar, pero a menudo cometían errores graves (como responder a preguntas irrelevantes);
2025: algunos modelos alcanzaron un nivel similar al de los estudiantes que pasan la primera selección universitaria en matemáticas;
2026: la diferencia total de puntajes entre los modelos más avanzados fue mínima, y los métodos de prueba pasaron de ser manuales a usar scripts automatizados junto con sitios web especializados para la corrección.

Estos cuatro años no solo reflejan el avance en las capacidades de los AI, sino también la profesionalización del método de evaluación utilizado por el autor: de un enfoque casual a uno riguroso similar al de la investigación científica, ya que el término “examen de ingreso a la universidad” tiene un gran significado en China y no se puede tratar de manera superficial.

Finalmente, el autor destaca que los resultados son solo para entretenimiento, pero demuestran que las capacidades de los AI en asignaturas básicas se están acercando cada vez más al nivel humano. En el futuro, es posible que los AI reemplacen a los humanos en muchas tareas complejas. Sin embargo, sus desequilibrios y debilidades en ciertas áreas indican que todavía hay un camino por recorrer antes de que puedan comprender completamente el pensamiento y la expresión humana.