虎嗅

„Frage nicht mehr, ob man den Anschluss halten konnte – der echte Unterschied zwischen den großen chinesischen und amerikanischen Modellen liegt hier.“

原文：别再问追没追上：中美大模型的真实差距在这里

2026-06-08 阅读原文

Zusammenfassung der Kerninhalte

Im Jahr 2026 sind die großen Chatmodelle aus China und den USA nicht mehr „ganz eine Generation hinterher“, sondern befinden sich in einer Phase der Szenariospezifischen Unterschiede: Chinesische Spitzenmodelle liegen in Bereichen wie Open-Source-Ökologie, lokaler Bereitstellung, chinesischer Sprachumgebung, Kosteneffizienz, OCR/Dokumentverständnis und Videogenerierung nahe oder sogar leicht vorne; in Aspekten wie hochstabilen Langzeitaufgaben, komplexer Toolanrufe, unternehmenskritischer Zuverlässigkeit, multimodaler GUI-Automatisierung sowie globaler Vertrauenswürdigkeit und Produktökologie haben die geschlossenen Modelle aus den USA jedoch nach wie vor deutliche Vorteile. Der Schlüssel zum Unterschied liegt nicht in der Intelligenz, sondern in der Stabilität bei komplexen Aufgaben und der Fähigkeit, Produkte effektiv zu vermarkten.

Detaillierte Analyse

1. Szenariospezifische Unterschiede: Jedes Modell hat seine Stärken

Die Vorteile chinesischer Modelle liegen in Bereichen, die auf die lokale Realität und niedrige Kosten ausgerichtet sind:

Chinesische Sprachumgebung: Modelle wie DouBao und DeepSeek bieten eine bessere Erfahrung bei chinesischen Gesprächen, Lernen und Zusammenfassungen. DouBao hat wöchentlich 155 Millionen aktive Nutzer (der Spitzenreiter in China); Nutzer wechseln aufgrund der kostenlosen Nutzung, des Datenschutzes oder der Anpassung an die chinesische Sprache.
Open Source und lokale Bereitstellung: Die kleineren Modelle von Qwen (z. B. Qwen3-0.6B/4B) haben Millionen Downloads und können auf herkömmlichen Computern bzw. Spielkonsolen ausgeführt werden; Entwickler schätzen ihre Kontrollierbarkeit und den Datenschutz.
OCR/Dokumentverständnis: Qwen2.5-VL erreicht bei der Extraktion von Informationen aus chinesischen Dokumenten und Tabellen eine Genauigkeit, die der von GPT-4o ähnelt – bei einem besseren Preis-Leistungs-Verhältnis.
Videogenerierung: Modelle wie Kling und Seedance sind in Bereichen wie Bildumwandlung in Video, Beibehaltung des Gesichtsausdrucks sowie Kostenwirksamkeit weltweit konkurrenzfähig.

Die Vorteile amerikanischer Modelle liegen in der Stabilität bei komplexen Aufgaben:

Langzeitaufgaben: Modelle wie GPT-5.5 und Claude Sonnet 4.6 können mehrstufige Aufgaben wie die Bearbeitung von Dateien durchführen; chinesische Modelle verlieren häufig Daten oder machen Fehler bei der Toolanwendung.
Unternehmenskritische Bereitstellung: ChatGPT ist nach wie vor das weltweit am meisten genutzte AI-Produkt; Claude wird in Bezug auf Unternehmenskompliance und geringe Ausfallraten höher bewertet.
GUI-Automatisierung: Sie können Computeroberflächen (z. B. Browser, IDEs) stabil steuern; chinesische Modelle neigen dazu, in Schleifen zu geraten oder Koordinationsfehler zu machen.

2. Kleine Modelle und Open Source: Chinas „Asse im Ärmel“

Kleine Modelle (mit weniger als 40 Milliarden Parametern, die auf herkömmlicher Hardware ausgeführt werden können) sind eine Stärke chinesischer Modelle:

Warum wählen Nutzer kleine Modelle? Weil sie nicht unbedingt die intelligentesten sind, aber kontrollierbarer, günstiger und sicherer in Bezug auf den Datenschutz sind. Zum Beispiel kann Qwen3-30B-A3B auf einem Computer mit 12 GB Arbeitsspeicher mit einer Geschwindigkeit von 12 Tok/s ausgeführt werden und eignet sich daher gut für die lokale Verarbeitung sensibler Daten.
Einfluss der Open-Source-Ökologie: Hugging Face hat 41 % der Downloads in China; DeepSeek verzeichnet mehr Tokens auf OpenRouter als Meta und Mistral. Microsoft hat DeepSeek R1 in seine Azure-Cloudplattform integriert, was zeigt, dass chinesische Open-Source-Modelle in die westliche Unternehmensökologie eingedrungen sind.

Allerdings bedeutet Open Source nicht unbedingt weltweite Marktführerschaft: Die Webnutzerzahlen von ChatGPT sind 2,7-mal so hoch wie die von Gemini; geschlossene Modelle aus den USA dominieren weiterhin den Verbraucher- und Unternehmensmarkt.

3. Stabilität: Ein wichtigeres Problem als „Intelligenz“

Echte Nutzerberichte zeigen, dass das Problem chinesischer Modelle nicht darin besteht, Aufgaben überhaupt nicht ausführen zu können, sondern eher darin, diese unstabil durchzuführen:

Komplexe Aufgaben führen häufig zu Fehlern: Beispielsweise verlieren chinesische Modelle bei der Verarbeitung von 32-K-Bildern Daten oder vergessen das Ziel; nur mit einer größeren Bildgröße (128 K) kann die Aufgabe erfolgreich abgeschlossen werden.
Viele Fehler in der Toolanwendung: Die Modelle generieren zwar korrekte Toolanweisungen, aber Parser fehlerhaft interpretieren Zahlen oder Chatvorlagen.
Quantisierung beeinträchtigt die Leistung: Niedrige Bitquantisierungen (z. B. Q4/Q5) verringern die Leistungsfähigkeit bei Toolanwendungen und der Inferenz; amerikanische Modelle bleiben jedoch auch nach Quantisierung stabil.

Die Vorteile amerikanischer Modelle liegen darin, dass weniger unerwartete Fehler auftreten: Nutzer wagen es, komplexe Aufgaben (z. B. die Reparatur großer Codebibliotheken) über längere Zeit an GPT/Claude zu übertragen, da die Fehlerrate niedrig ist.

4. Multimodale Fähigkeiten: Starke OCR-Fähigkeiten, schwache GUI-Automatisierung, Videogenerierung

OCR/Dokumentverständnis: Chinesische Modelle führen; Qwen2.5-VL erreicht bei der Extraktion von Informationen aus 1000 Dokumenten in JSON-Format eine Genauigkeit von 75 % (nahe GPT-4o).
GUI-Automatisierung: Es gibt deutliche Unterschiede: Chinesische Modelle können Bildschirme beschreiben, aber nicht stabil steuern; amerikanische Modelle können mehrstufige Aufgaben in Browsern/IDEs durchführen.
Videogenerierung: China ist der Bereich, in dem chinesische Modelle am nächsten an den amerikanischen herankommen. Kling ist bei Bildumwandlung in Video und Kostenwirksamkeit stark; amerikanische Produkte wie Veo haben jedoch Vorteile hinsichtlich der Audioqualität – allerdings haben auch westliche Produkte Schwächen (z. B. unstabile Ausgaben von Luma Dream Machine). Der Gesamtsprung ist jedoch geringer als bei anderen Bereichen.

5. Hinter den Unterschieden: Technologie, Daten, Ökologie und externe Faktoren

Technologische Ansätze: Chinesische Modelle folgen einem Ansatz, der auf Effizienz, Quantisierbarkeit und lokaler Bereitstellung ausgerichtet ist (günstig für die Verbreitung durch Open Source); amerikanische Modelle nutzen großskalige Trainingsverfahren, um die Stabilität zu verbessern.
Datenstruktur: China verfügt über Vorteile bei chinesischen Inhalten; die USA haben mehr englischsprachige technische Dokumente, Unternehmenscodebibliotheken und SaaS-Tools.
Ökologische Position: Chinesische Open-Source-Modelle werden von weltweiten Entwicklern genutzt (z. B. Ollama, LM Studio); amerikanische Modelle verfügen über eine geschlossene Produktentwicklung (z. B. Cursor IDE basiert auf Kimi und weiteren Trainingsverfahren).
Externe Faktoren: Chinesische Chipskontrollen zwingen chinesische Modelle dazu, die Anpassung an inländische Chips zu optimieren – dies begrenzt jedoch auch die Fortschritte in der Spitzenforschung. Regulierungen und Datenlagerung (chinesische Modelle speichern Daten im Inland) beeinflussen das internationale Vertrauen.

zukünftige Entwicklungen: Schlüsselindikatoren für den Ausgleich

Man sollte nicht nur auf Pressemitteilungen achten, sondern vor allem folgende Faktoren betrachten:

1. Wechsel der Nutzer: Ob viele Nutzer von Claude/GPT zu chinesischen Modellen wechseln und diese langfristig für komplexe Aufgaben verwenden.

2. Leistung in Langzeitaufgaben: Ergebnisse professioneller Tests wie Terminal-Bench, SWE-bench Pro.

3 Fehlerrate in der Toolanwendung: Ob Fehler in den Parsers und Streaming-Systemen chinesischer Modelle abnehmen.

4 Verwendung durch westliche Produkte: Ob mehr amerikanische Produkte (z. B. IDEs, Agentplattformen) auf chinesischen Open-Source-Modellen basieren.

5 Stabilität von GUI-Funktionen: Ob chinesische Modelle in Bereichen wie Audioqualität und Konsistenz von Langzeitvideos den amerikanischen Produkten (z. B. Veo/Runway) nahekommen.

Insgesamt haben chinesische Modelle in „praktischen“ Bereichen aufgeholt, aber bei hochstabilen, komplexen Aufgaben sowie globaler Vertrauenswürdigkeit fehlt es noch an Fortschritten – für alltägliche Gespräche und kleine Anwendungen ist der Ausgleich bereits erreicht; bei Videogenerierung und OCR befinden sie sich auf dem Weg dorthin. Für komplexe Programmieragenten benötigen chinesische Modelle 1–2 Jahre, für unternehmenskritische Anwendungen weltweit 2–4 Jahre.