虎嗅

Dieses Jahr habe ich 12 der besten KI-Systeme dazu benutzt, gemeinsam die Prüfungen in Chinesisch und Mathematik abzulegen – das Ergebnis war etwas überraschend.

原文:今年高考,我让12个顶级AI一起考了语文和数学,结果有点意外。

Zusammenfassung der Kerninhalte

Während der Hochschulzugangsprüfung (Gaokao) im Jahr 2026 organisierte der Autor den Test von 12 führenden inländischen und internationalen Großmodellen (wie GPT-5.5, Claude Opus 4.8, Xiaomi MiMo v2.5 Pro usw.) in den Fächern Deutsch und Mathematik. Um Fairness zu gewährleisten, wurden einheitliche API-Aufrufe, die Eingabe von reinem LaTeX-Text sowie eine blinde Beurteilung durch Lehrer eingesetzt. Vier Lehrer mit Erfahrung in der Korrektur der Prüfungen wurden beauftragt, die Ergebnisse zu bewerten. Die Ergebnisse zeigten: Der Unterschied in den Gesamtpunktzahlen der Spitzenmodelle war äußerst gering (die ersten 9 Modelle lagen nur um 2 Punkte auseinander); MiMo und Kimi belegten mit einem Unterschied von 0,01 Punkten den ersten und zweiten Platz; einige Modelle zeigten eine Spezialisierung in bestimmten Fächern (z. B. DeepSeek war stark in Mathematik, aber schwach in Deutsch, GLM5.1 hingegen stark in Deutsch, jedoch etwas schwach in Mathematik); bei der Bewertung der Aufsätze legten die Lehrer besonderen Wert auf Struktur, Argumentation und Ausführlichkeit; die Gesamtgenauigkeit der Mathematikaufgaben war hoch, allerdings scheiterten alle Modelle bei der letzten Frage des Ausfülltests. Zudem wurde der Fortschritt der AI-Modelle in den Prüfungen von 2023 bis 2026 verglichen, was die schnelle Verbesserung ihrer Fähigkeiten in den Grundfächern zeigt.

I. Die „Gaokao-niveau“-Fairness des Tests: Kein Modell darf einen Vorteil haben

Um sicherzustellen, dass die AI-Modelle wie echte Prüflinge fair konkurrieren, wurden folgende Maßnahmen ergriffen:

  • Einheitliche „Prüfungsregeln“: Alle Modelle nutzten die gleiche API; das Nutzen von Hilfsprogrammen (z. B. zum Suchen nach Lösungen oder Rechnen) war verboten, und es gab keine Einschränkungen hinsichtlich der Antwortlänge; außer iFlytek und Baidu nutzten alle Modelle die OpenRouter-Plattform, um Unterschiede in den Schnittstellen zu vermeiden.
  • Standardisierte „Antwortbögen“: Sowohl die Mathematik- als auch die Deutschaufgaben wurden in reinem LaTeX-Text eingegeben (was einem standardisierten Antwortformat entspricht); außerdem wurde ein Script entwickelt, um die Genauigkeit der LaTeX-Umwandlung zu überprüfen und Fehler zu vermeiden.
  • Blinde Beurteilung: Die Lehrer konnten bei der Korrektur die Namen der Modelle nicht sehen, nur Coden (z. B. „Bogen A“, „Bogen B“); dies verhinderte voreingenommene Bewertungen bestimmter Modelle. Bei den subjektiven Fragen wurde die Durchschnittsnote von drei Deutschlehrern ermittelt, um persönliche Präferenzen zu reduzieren.
  • Flexible Punktevergabe bei Ausfüllfragen: Auch unterschiedliche Schreibweisen von Zahlen oder Wurzeln (z. B. 1/2 vs. 0,5) wurden berücksichtigt; solange die Zahl stimmte, wurde ein Punkt vergeben, unabhängig von der Formulierung.

Diese Maßnahmen sorgten dafür, dass alle AI-Modelle unter gleichen Bedingungen konkurrierten – ähnlich wie bei der Gaokao, wo alle Prüflinge mit demselben Stift (2B) und versiegelten Testpapieren antreten.

II. Die Ergebnisse: Der Unterschied in den Gesamtpunktzahlen der Spitzenmodelle ist noch kleiner als ein Haar

Das Überraschendste an den Ergebnissen war, dass der Unterschied zwischen den Top-Modellen nahezu vernachlässigbar war:

  • Die Sieger MiMo und Kimi lagen nur um 0,01 Punkte auseinander (MiMo hatte weniger Punkte in Deutsch, Kimi mehr in Mathematik);
  • Von Platz 3 (Claude Opus) bis Platz 9 (GLM5.1/Gemini) lag der Unterschied bei allen 7 Modellen unter 2 Punkten.

Dies zeigt, dass die aktuellen Spitzenmodelle in den Grundfächern Deutsch und Mathematik sehr ähnliche Fähigkeiten besitzen – ähnlich wie die besten Schüler in einer Klasse, deren Ergebnisse eng beieinander liegen; ein Punkt kann große Unterschiede ausmachen, aber insgesamt befinden sich alle Modelle auf dem gleichen Niveau.

III. Auch AI-Modelle haben Schwächen: Einige sind stark in Mathematik, andere in Deutsch

Wie auch Schüler weisen AI-Modelle Schwächen in bestimmten Fächern auf:

  • Starke Modelle in Deutsch: GLM5.1 und Gemini 3.1 Pro lagen im Deutschen auf Platz 1, waren jedoch schwach in Mathematik;
  • Starke Modelle in Mathematik: DeepSeek V4 Pro, MiMo und Wenxin Ernie 5.1 lagen im Mathematiktest auf Platz 1, aber ihr Deutsch war schlecht (insbesondere die Aufsätze);

Ausgewogene Modelle: MiMo und Kimi hatten hohe Gesamtpunktzahlen, weil sie in beiden Fächern keine offensichtlichen Schwächen aufwiesen.

Diese Spezialisierungen könnten mit der Ausrichtung ihrer Trainingsprozesse zusammenhängen: Zum Beispiel konzentriert sich DeepSeek möglicherweise stärker auf mathematische Denkfähigkeiten, während GLM5.1 mehr Ressourcen in die Sprachverständnisfähigkeit investiert hat – ähnlich wie Schüler, die sich in Naturwissenschaften oder Geisteswissenschaften besonders hervortun.

IV. Bewertung der Aufsätze: Für Lehrer ist die Struktur entscheidend, nicht die „Kreativität“

Bei der Bewertung der subjektiven Deutschaufgaben (insbesondere der Aufsätze) zeigten sich die Schwächen der AI-Modelle deutlich:

  • Häufige Probleme: Unklare Schreibstile (nicht wie Argumentations- oder Erzähltexte), unstrukturierte Aufbauweise, unklare Argumente, mangelnde Belege, fehlende Aktualität;

Beispiele: Der Aufsatz von GLM5.1 erhielt zwar die höchste Punktzahl, wurde aber wegen einer unklaren Struktur kritisiert; der Aufsatz von DeepSeek wurde als „unklarer Stil und schwache Argumentation“ bewertet und erhielt niedrige Punktzahlen.

Dies zeigt, dass AI-Modelle bei der Erstellung von Aufsätzen noch nicht vollständig die Anforderungen der Gaokao-Kriterien verstehen – ein guter Aufsatz muss eine klare Struktur, klare Argumente und einen Bezug zur aktuellen Zeit aufweisen.

V. Fortschritt in vier Jahren: Von Fehlern bei der Aufsatzverfassung bis zum Niveau von Spitzenprüflingen

Der Vergleich der AI-Prüfungen von 2023 bis 2026 zeigt deutlichen Fortschritt:

  • 2023: Nur GPT-4 war in der Lage, einen Aufsatz zu verfassen; es gab nur wenige inländische Modelle.
  • 2024: Inländische Modelle begannen mitzumachen, allerdings gab es oft peinliche Fehler (z. B. falsche Antworten).
  • 2025: Einige Modelle erreichten ein Niveau, das dem eines „Erstklassigen Hochschulabschlusses“ entspricht.
  • 2026: Der Unterschied in den Gesamtpunktzahlen der Spitzenmodelle war extrem gering; die Testmethoden wurden von manueller Kopie und Paste zu automatisierten Skripten sowie professionellen Bewertungswebseiten weiterentwickelt.

In diesen vier Jahren hat sich nicht nur die Fähigkeit der AI-Modelle verbessert, sondern auch die Methodik des Autors – von einer spielerischen Herangehensweise hin zu einer wissenschaftlich strengen Vorgehensweise. Schließlich trägt das Wort „Gaokao“ in China große Bedeutung und erfordert ernsthafte Aufmerksamkeit.

Abschließend betont der Autor, dass die Ergebnisse nur zur Unterhaltung dienen sollen; doch sie zeigen deutlich, dass AI-Modelle ihre Fähigkeiten in den Grundfächern immer mehr dem menschlichen Niveau nähern. In Zukunft könnten sie in vielen Bereichen Menschen bei komplexen Aufgaben ersetzen. Allerdings deuten die Schwächen der Modelle darauf hin, dass sie noch einen Weg von einem vollständigen Verständnis des menschlichen Denkens und der Ausdrucksweise entfernt sind.