虎嗅

Titre français : La nouvelle œuvre de Sutton, lauréat du prix Turing : Le prochain pas de l’IA est vers une « cognition générative » Explication : Le titre français reprend l’esprit du texte chinois en soulignant le rôle de l’IA dans le développement de la cognition humaine. Il utilise des expressions idiomatiques françaises pour rendre le contenu accessible au public francophone, tout en conservant l’essence de l’original (le prochain pas de l’IA).

原文：图灵奖得主Sutton新作：AI的下一步，是走向“生成认知”

2026-06-02 阅读原文

Résumé des points clés

Un nouveau papier de Sutton, lauréat du prix Turing et pionnier de l’apprentissage renforcé, ainsi que de l’académicien Rafiee, souligne que les technologies d’intelligence artificielle (IA) actuelles dominantes (comme les grands modèles linguistiques ou les modèles visuels purs) reposent sur une approche de « représentation passive » : elles construisent des modèles internes du monde à partir de données statiques pour le comprendre. Cependant, cette méthode est insuffisante pour faire face à la complexité dynamique du monde réel. Ils proposent qu’l’IA adopte une approche de « cognition générative » : l’intelligence ne consiste pas à copier passivement le monde, mais à se développer à travers des interactions avec son environnement, des actions concrètes (avec un corps physique) et une évaluation autonome. La cognition générative repose sur quatre piliers fondamentaux : l’expérience, l’intégration de la perception et de l’action, l’autonomie et la corporéité. Bien que l’apprentissage renforcé soit proche de cette idée, il nécessite des améliorations, notamment en matière de récompenses externes et de segmentation des modules, pour permettre à l’IA de vraiment « comprendre » le monde.

Analyse détaillée

#### 1. Pourquoi l’IA peut-elle écrire des articles sans comprendre la réalité ? – Le piège de la représentation passive

L’IA actuelle est comme un « intelloque » : elle peut mémoriser d’énormes quantités de textes et de schémas visuels, mais elle n’a pas vécu directement dans le monde réel. Par exemple, un grand modèle linguistique (LLM) peut écrire que l’eau bouillante est brûlante, sans pour autant en avoir ressenti la chaleur ; un modèle de génération de vidéos peut créer des faux films, mais il ne réagira pas spontanément face à une situation inattendue (comme la chute d’une tasse). La cause de ce problème réside dans le « représentationalisme » : l’IA essaie de construire une copie du monde en interne, alors que celui-ci est dynamique et infiniment complexe. Aucun modèle ne peut reproduire pleinement cette réalité (comme on ne peut pas mémoriser tous les détails d’une ville).

#### 2. La cognition générative : l’IA doit agir pour vraiment comprendre le monde

Le cœur de la cognition générative est le principe selon lequel la compréhension ne vient pas de la simple observation, mais de l’action. Par exemple, pour apprendre à rider, les humains commencent par essayer et ajuster leur posture ; pour savoir si une tasse est brûlante, ils la touchent (action) et ressentent la chaleur (rétroaction). Pour l’IA, cela signifie qu’elle ne peut pas simplement analyser des données en restant assise sur un serveur ; elle doit interagir dans le monde réel : un robot devrait pouvoir prendre une tasse par lui-même pour sentir son poids et sa température, ou marcher tout seul en évitant les obstacles. C’est seulement à travers ce cycle d’action → rétroaction → ajustement que l’IA peut véritablement acquérir de la compréhension.

#### 3. Les quatre piliers de la cognition générative : rendre l’IA capable d’apprendre comme un organisme vivant

La cognition générative repose sur quatre principes fondamentaux, inspirés du fonctionnement cognitif des êtres vivants :

L’expérience ≠ données : L’expérience est le résultat d’interactions directes, et non de données fournies par d’autres. L’apprentissage supervisé nécessite des exemples fournis par les humains, tandis que l’apprentissage renforcé permet à l’IA d’essayer et d’erreur, mais cela ne suffit pas ; elle doit explorer son environnement de manière continue et apprendre de ses échecs, comme les animaux.
L’intégration de la perception et de l’action : Lorsque nous voyons quelque chose, nous bougeons (yeux, tête) et utilisons nos sens pour obtenir des informations plus précises. L’IA devrait également intégrer ces deux processus.
Autonomie : Les êtres vivants ont des objectifs personnels (chasser de la nourriture, éviter les prédateurs) ; l’IA devrait avoir des buts internes (par exemple, savoir quand se recharger).
Corporéité : Le corps influence notre perception du monde. Un robot doit avoir un corps physique pour comprendre réellement son environnement (longueur de ses bras, emplacement des capteurs, etc.).

#### 4. L’apprentissage renforcé est encore loin d’une IA véritablement autonome

L’apprentissage renforcé est la branche de l’IA la plus proche de la cognition générative, car il met l’accent sur l’action et la rétroaction. Cependant, il présente trois limites majeures :

Les récompenses sont définies par les humains : Dans les jeux, les récompenses sont fixées par les développeurs, pas par les besoins de l’IA elle-même. L’IA devrait être capable de déterminer ses propres objectifs (par exemple, sentir le besoin de se recharger).
La séparation entre perception et action : Dans de nombreux systèmes d’apprentissage renforcé, la perception précède la prise de décision, ce qui nuit à l’interaction naturelle. L’IA devrait pouvoir associer directement perception et action.
Le corps n’est qu’un outil : Actuellement, le corps des robots sert uniquement à exécuter des instructions ; il doit devenir un élément essentiel pour la compréhension du monde.

#### 5. L’IA de demain : passer de l’érudition théorique à l’expérience pratique

Ce papier indique la direction vers laquelle devrait évoluer l’IA :

Interagir directement avec le monde réel, et non seulement s’entraîner sur des données.
Disposer d’un corps physique pour une meilleure compréhension du monde.
Avoir des objectifs autonomes, indépendants des instructions humaines.
Apprendre en agissant, et non pas simplement en recevant des données.

Cette approche permettrait à l’IA de passer d’une simple imitation à une intelligence capable de comprendre réellement le monde, ce qui la rapprocherait du concept d’IA générale (AGI).

La valeur de cet article réside dans son rejet du mythe selon lequel plus les modèles sont grands, mieux c’est. Il souligne que l’essentiel de l’IA n’est pas la quantité de données, mais sa capacité à interagir avec le monde, tout comme l’intelligence humaine ne repose pas sur la mémorisation passive, mais sur l’expérience pratique.