虎嗅

Kann KI tatsächlich Rechen im Kopf lernen? Die implizite Denkweise wurde erstmals theoretisch nachgewiesen – Stuart Russell war daran beteiligt.

原文:AI真能学会心算?隐式思维链首次得到理论证明,Stuart Russell参与

Zusammenfassung der Kerninhalte

Diese Nachricht konzentriert sich auf die „Kostenprobleme“ von AI-Reasoning-Modellen: Bei der aktuellen Nutzung expliziter Denkweisen (CoT) zur Lösung von Problemen werden zahlreiche Zwischenschritte erzeugt, was zu hohem Tokenverbrauch und langsamer Rechenleistung führt. Eine neue Studie schlägt eine Optimierungsmethode namens „implizite Denkweise“ (ICoT) vor – genauer: Log-ICOT. Dabei werden die Modelle mithilfe einer baumartigen Struktur trainiert, sodass die Zwischenschritte in versteckte Schichten integriert werden und während der Rechenleistung nur das Endergebnis ausgegeben wird. Zudem wurde erstmals mathematisch nachgewiesen, dass diese Methode effektiv ist – was eine theoretische Grundlage für die Senkung der Rechenkosten und -verzögerungen von AI-Systemen bietet.

1. Explizite Denkweise: Der teure „Entwurfspapierprozess“

AI-Modelle denken beim Lösen mathematischer Aufgaben oder Programmieren schritt für Schritt und geben diese Gedankengänge in Form von Tokens aus (z. B. „Zuerst die Einheiten berechnen, dann die Zehner“). Doch dies hat folgende Probleme:

  • Teuer: Die Token, die für die Lösung komplexer Aufgaben benötigt werden, können mehr als das Zehnfache der Kosten eines normalen Gesprächs ausmachen, was zu hohen Rechenressourcenverbrauchen führt.
  • Langsam: Die Rechenschritte sind sequentiell – erst nach Abschluss des vorherigen Schritts kann der nächste erfolgen; je länger die Kette, desto länger die Wartezeit.

Stellen Sie sich vor, Sie helfen Ihrem Kind bei der Berechnung von 123 × 45: Das Kind schreibt jeden Schritt auf Papier – Sie müssen warten, bis es fertig ist, um das Ergebnis zu sehen. Genau so funktioniert die explizite Denkweise von AI-Modellen; die Zwischentoken verbrauchen sowohl Ressourcen als auch Zeit.

2. Implizite Denkweise: Der Versuch, AI dazu zu bringen, „im Kopf zu rechnen“

Gibt es eine Möglichkeit, AI dazu zu bringen, direkt das Endergebnis auszugeben, ohne Zwischenschritte zu erstellen? Das ist die Idee hinter ICoT: Die Zwischenschritte werden in den „Verstand“ des Modells (die versteckten Schichten) eingebettet. Es wurden bereits Versuche unternommen, indem das Modell zunächst mit der expliziten Denkweise trainiert wurde und anschließend nach und nach mehrere Zwischenschritte entfernt wurden, um es an „im Kopf zu rechnen“ zu gewöhnen.

Allerdings hat diese Methode deutliche Nachteile: Wenn die Denkprozesse 16 Schritte umfassen, muss das Modell 15 Mal trainiert werden – was die Kosten exponentiell erhöht. Zudem gibt es keine Garantie dafür, dass das Modell nicht während des Trainings verwirrt wird.

3. Log-ICOT: Effizienteres „Im-Kopf-Rechnen“ mithilfe einer baumartigen Struktur

Die Kerninnovation der neuen Studie besteht darin, das Trainingsverfahren mithilfe einer baumartigen Struktur zu überarbeiten, wodurch die Effizienz verbessert wird:

  • Die Denkprozesse lassen sich als Baum darstellen; z. B. kann die Überprüfung auf die Parität von 16 Bits in vier Ebenen von Binärbäumen unterteilt werden (jede Ebene enthält Paarvermultiplikationen).
  • Alle Zwischenschritte werden auf einmal gespeichert – anstatt eines Tokens pro Schritt werden ganze Baumebenen verarbeitet. Bei einer 16-Schritte-Kette reicht daher nur ein Training aus (log₂16 = 4), was die Effizienz um mehr als das Dreifache erhöht.
  • Die Ebenen des Modells sind klar strukturiert: Jede Ebene des Transformers entspricht einer Ebene des Baums; die erste Ebene verarbeitet die Paarvermultiplikationen der untersten Ebene, die zweite Ebene das Ergebnis der darüberliegenden Ebene usw. Dadurch ist das Modell effizienter und weniger verwirrt.

4. Theoretischer Durchbruch: Erstmals wird die Effektivität von „Im-Kopf-Rechnen“ mathematisch nachgewiesen

Das Besondere an dieser Studie ist, dass erstmals streng mathematisch nachgewiesen wurde, dass ICoT effektiv ist:

  • Theorema: Mit Log-ICOT trainierte Transformer-Ebenen benötigen nur eine polynomielle Anzahl von Beispielen und log₂k Trainingsdurchgänge, um bei der Testung das korrekte Ergebnis direkt auszugeben (mit sehr geringen Fehlern).
  • Zwei große Probleme wurden gelöst:
  • Informationenverlust: Mehrschichtige Modelle neigen dazu, Informationen zu „verarbeiten“; die Forscher fügten sogenannte „Gatter“ hinzu, um nur die entsprechenden Informationen der jeweiligen Ebene zu aktivieren und so den Informationsverlust zu verhindern.
  • Fehlerausbreitung: Frühzeitige Fehler können sich verstärken; die Forscher quantifizierten die Aufmerksamkeitsgewichte, um bereits trainierte Ebenen zu schützen und die Fehlerausbreitung einzudämmen.

5. Experimentelle Überprüfung: Mit nur vier Trainingsdurchgängen kann das Modell perfekt rechnen

Die Forscher testeten diese Methode an der Aufgabe der Überprüfung auf die Parität von 16 Bits: Nach vier Trainingsphasen (entsprechend vier Baumebenen) wurden alle Zwischenschritte entfernt; das Modell betrachtete nur die Ausgangsinformationen. Die Genauigkeit lag bei 100 Prozent, und Aufmerksamkeitsdarstellungen zeigten, dass jede Ebene des Modells korrekt mit den entsprechenden Baumebenen übereinstimmte – das Model hat tatsächlich gelernt, „im Kopf zu rechnen“.

Zukunftsperspektiven und Herausforderungen

  • Bedeutung: Wenn diese Methode in echte LLMs (z. B. GPT) integriert wird, könnten die Modelle bei Beibehaltung ihrer Rechenleistung weniger Token verbrauchen und weniger verzögern, was die Kosten für AI-Anwendungen senken könnte (z. B. die API-Gebühren von ChatGPT).
  • Herausforderungen: Bisher wurde diese Methode nur an synthetischen Aufgaben getestet; die Denkweisen echter LLMs weisen keine klare baumartige Struktur auf – es bleibt noch zu erforschen, wie die entsprechenden Trainingsphasen gestaltet werden können.

Insgesamt macht diese Studie den „stillsen“ Rechungsprozess von AI von einer Technik zu einer wissenschaftlichen Grundlage und öffnet die Tür für effizientere und kostengünstigere AI-Systeme.

(The full text uses simple metaphors and everyday examples to make the core logic understandable even for readers without a financial or AI background.)