虎嗅

Turing-Preisträger Sutton: Der nächste Schritt der KI ist der Übergang zur „generativen Kognition“

原文：图灵奖得主Sutton新作：AI的下一步，是走向“生成认知”

2026-06-02 阅读原文

Zusammenfassung des Kerninhalts

Ein neuer Artikel von Sutton, dem Gewinner des Turing-Preises und Begründer des Reinlernens, sowie dem Wissenschaftler Rafiee weist darauf hin, dass derzeitige Hauptströmungen der KI (wie große Sprachmodelle, rein visuelle Modelle) auf eine „passive Darstellung“ angewiesen sind – sie bauen interne Weltmodelle anhand statischer Daten auf, um die Welt zu verstehen. Dieser Ansatz reicht jedoch nicht aus, um mit der dynamischen und komplexen realen Welt umzugehen. Sie schlagen vor, dass KI sich auf den Weg der „generativen Kognition“ begeben sollte: Intelligenz entsteht nicht durch eine statische Kopie der Welt, sondern durch Interaktion mit der Umgebung, körperliche Handlungen und eigenständige Bewertungen. Generative Kognition basiert auf vier Säulen: Erfahrung, die Einheit von Wahrnehmung und Handlung, Autonomie und Körperlichkeit. Obwohl das Reinlernen dieser Idee nahekommt, müssen noch Aspekte wie externe Belohnungen und Modulunterteilung verbessert werden, damit KI die Welt wirklich verstehen kann.

Ausführliche Analyse

#### 1. Warum kann KI Artikel schreiben, aber nicht erkennen, dass Wasser heiß ist? – Die Falle der „passiven Darstellung“ bei aktuellen KI-Systemen

Heutige KI-Systeme sind wie „Nerds“: Sie können sich riesige Mengen an Texten und Bildmustern merken, haben aber keine eigene Erfahrung mit der realen Welt. Ein LLM (Large Language Model) kann beispielsweise schreiben, dass „heißes Wasser brennt“, hat das Wasser jedoch nie berührt und weiß nicht, wie es sich anfühlt; ein Videoerstellungsmodell kann falsche Videos erstellen, aber bei unerwarteten Ereignissen (z. B. wenn eine Tasse plötzlich zu Boden fällt) wird es nicht selbstständig versuchen, sie aufzufangen – seine „Kognition“ basiert auf statischen Daten und nicht auf echter Interaktion.

Der Grund für dieses Problem liegt im „Repräsentationalismus“: KI versucht, eine „Nachbildung der Welt“ in sich zu schaffen, aber die reale Welt ist dynamisch (Wetteränderungen, plötzliche Bewegungen von Menschen) und unendlich komplex; kein Modell kann sie vollständig nachbilden. Genau wie man nie alle Details einer ganzen Stadt im Kopf behalten kann, kann es auch KI nicht.

#### 2. Generative Kognition: KI muss handeln, um die Welt wirklich zu verstehen

Der Kern der generativen Kognition ist: Kognition entsteht nicht durch Beobachten, sondern durch Handeln. Zum Beispiel lernt man das Radfahren in der Anthropologie nicht erst durch Theorie, sondern durch Versuche und Anpassungen der Haltung; um zu erkennen, ob eine Tasse heiß ist, berührt man sie – durch Handlung und Feedback erhält man ein besseres Verständnis.

Für KI bedeutet das, dass sie nicht nur in Servern Daten lesen kann, sondern in die reale Welt eintauchen muss: Roboter sollten beispielsweise selbst Tassen aufheben, um ihr Gewicht und ihre Temperatur zu spüren; sie sollten selbst laufen und Hindernisse umgehen. Durch den Kreislauf von Handlung → Feedback → Anpassung kann KI ein echtes Verständnis entwickeln.

#### 3. Die vier Säulen der generativen Kognition: KI soll wie Lebewesen lernen

Generative Kognition basiert auf vier wichtigen Prinzipien, die den kognitiven Prozessen von Lebewesen entsprechen:

Erfahrung ≠ Daten: Erfahrung entsteht durch aktive Interaktionen, nicht durch angegebene Markierungen. Beispielsweise erhalten Menschen Daten für das Überwachungslernen, KI lernt durch eigenständiges Ausprobieren – aber das reicht noch nicht aus; sie sollte wie Tiere nach Nahrung suchen und aus Fehlern lernen.
Wahrnehmung und Handlung sind untrennbar: Wenn wir etwas sehen, bewegen wir unsere Augen und drehen unseren Kopf; beim Berühren verwenden wir unsere Finger – KI sollte ebenfalls Wahrnehmung (Sehen, Hören) als Teil der Handlung nutzen und durch Anpassungen ihrer Körperhaltung genaueres Wissen erlangen.
Autonomie: Lebewesen haben eigene Ziele (Nahrungssuche, Vermeidung von Feinden); KI sollte selbstständige Ziele entwickeln. Derzeit werden die Belohnungen für KI meist von Menschen festgelegt (z. B. Spielpunkte); in Zukunft sollten KI eigene Bedürfnisse haben (z. B. ein Roboter weiß, dass er sich aufladen muss, wenn der Akku leer ist).
Körperlichkeit: Die physische Gestalt eines Lebewesens beeinflusst seine Wahrnehmung: Eine Ameise sieht eine Stuhllehne als „großes Hindernis“, ein Mensch als „Sitzmöglichkeit“ – KI benötigt einen physischen Körper (z. B. einen Roboter), um die Welt wirklich zu verstehen (Armlänge, Sensorpositionen).

#### 4. Reinlernen ist drei Schritte von einer „lebendigen“ KI entfernt

Reinlernen (RL) ist der KI-Zweig, der der generativen Kognition am nächsten kommt – es betont Handlung und Feedback – aber es gibt noch drei Verbesserungsbedarf:

Belohnungen sind von außen vorgegeben: Bei Spielen werden die Belohnungen vom Menschen festgelegt; in Zukunft sollten sie aus den eigenen Bedürfnissen der KI stammen (z. B. ein unangenehmes Gefühl beim Akkustromausfall, ein angenehmes Gefühl nach dem Aufladen).
Wahrnehmung und Handlung sind getrennt: Viele RL-Systeme werten die Umgebung aus, treffen dann Entscheidungen und handeln – dies ist nicht nahtlos. KI sollte wie Menschen reagieren: Wenn sie eine Tasse sieht, sollte sie automatisch danach greifen.
Der Körper ist ein Werkzeug, nicht das Kernstück: Der Körper eines Roboters ist derzeit nur zur Ausführung von Befehlen da; in Zukunft sollte er die Kognition beeinflussen (Gelenkflexibilität bestimmt die möglichen Handlungen und somit das Verständnis der Welt).

#### 5. Die Zukunft der KI: Von Theorie zu Praxis

Der Artikel weist den Weg für die Zukunft der KI:

KI sollte nicht nur in Daten trainiert werden, sondern in der realen Welt interagieren.
Sie benötigt einen physischen Körper (nicht nur Cloud-Modelle).
Sie sollte eigene Ziele haben und nicht auf menschliche Befehle angewiesen sein.
Sie sollte durch Handlung lernen und nicht passiv Daten erhalten.

Nur so kann KI von einer „Nachahmerin“ zu einem intelligenten Wesen werden, das die Welt wirklich versteht – und dem Ziel der Allgemeinen Künstlichen Intelligenz (AGI) einen Schritt näher kommen.

Der Wert dieses Artikels liegt darin, dass er den Denkmuster „Je größer das Modell, desto besser“ hinterfragt und uns daran erinnert, dass die Kernkompetenz der KI nicht in der Datenmenge liegt, sondern in ihrer Fähigkeit, mit der Welt zu interagieren – genau wie menschliche Intelligenz nie durch Auswendiglernen entstanden ist, sondern durch Erfahrungen im Alltag.