虎嗅

Dialogue sur les noix d’orme et le gingembre : « Le langage n’a pas d’instincts, mais l’opération en a » – Un groupe de docteurs de Tsinghua a investi 8 ans dans une nouvelle approche corporelle.

原文：对话橡木果姜峣： “语言没有本能，操作有”，一群清华博士用8年时间押注具身新路线

2026-06-02 阅读原文

Résumé des points clés

L’équipe de Jiang Yao de l’université Tsinghua (composée de 8 docteurs) s’est éloignée de la voie dominante de l’IA en se basant sur les découvertes en neurosciences selon lesquelles certaines actions sont instinctives tandis que le langage ne l’est pas. Après 8 ans de recherche, ils ont développé une approche axée sur les instincts humains pour la commande des robots. Au lieu de construire des modèles à partir de grandes quantités de données, ils ont implanté dans les robots des réflexes sensoriels proches de ceux des humains (par exemple, ajuster automatiquement la force lorsqu’ils sentent que l’objet glisse). Cela a permis de résoudre les problèmes liés aux interfaces VLA (vue-langage-action) et aux modèles du monde réel dans les environnements industriels. Leurs technologies sont actuellement commercialisées dans des secteurs tels que la cosmétique et l’aromathérapie, où elles répondent à un besoin réel : changer de produit sans avoir à ajuster constamment les machines.

I. Pourquoi ne suivent-ils pas les tendances de l’IA ?

L’IA dominante (comme ChatGPT) repose sur la collecte et le traitement massif de données, ce qui conduit à penser que la commande des robots peut se faire de la même manière : en utilisant la vision et des instructions linguistiques. Cependant, Jiang Yao a découvert lors de ses recherches au Harvard Brain Institute que le langage est appris ultérieurement (on ne parle pas naturellement sans apprentissage), tandis que des actions telles que saisir un objet sont instinctives et similaires chez tous les humains. Par exemple, pour saisir une bouteille d’eau, il faut savoir son poids et son coefficient de frottement (informations inconnues au préalable) ; une approche basée sur des données nécessiterait de simuler de nombreuses situations (objets lourds, souples, glissants), ce qui est extrêmement complexe. Avec une approche instinctive, le robot ajuste automatiquement sa force en fonction de la sensation.

II. Pourquoi les interfaces VLA et les modèles du monde réel échouent-ils ?

Les technologies VLA (vue-langage-action) et les modèles du monde réel ont rencontré des difficultés dans les environnements industriels :

Problème des interfaces VLA : elles lient étroitement la tâche à l’équipement (les bras du robot). Deux pinces identiques mais de différentes tailles ne peuvent pas être utilisées avec le même modèle, ce qui empêche les robots d’accomplir correctement leurs tâches. De plus, ces interfaces manquent de sensibilité tactile et ne reproduisent que des actions visuelles (par exemple, un robot imite un geste humain pour ajuster une monture de lunettes, mais cela n’est pas très utile pour saisir des objets).
Problème des modèles du monde réel : essayer de simuler le monde physique est difficile, car les comportements de contact (comme pousser un stylo) sont plus complexes que la prédiction du mouvement des planètes. Les simulateurs ne peuvent pas reproduire tous les détails (coefficient de frottement, résistance matérielle). Sans une expérience réelle, ces simulations restent théoriques.

III. Comment donner aux robots une sensation tactile ?

L’équipe de Jiang Yao a travaillé pendant 7 ans sur des capteurs tactiles capables d’analyser la texture, la friction et le glissement des objets. Ils ont ensuite intégré trois types de réflexes instinctifs dans les robots :

1. Réflexe directionnel : le robot se dirige automatiquement vers l’objet en le voyant.

2. Réflexe d’exploration : il peut trouver l’objet même dans l’obscurité grâce à son toucher.

3. Réflexe de saisie : il ajuste automatiquement sa force en fonction du glissement de l’objet.

Par exemple, lorsque le robot essaie de saisir une carte d’identité sans pouce, il la soulève pour la saisir ; ce comportement n’est pas programmé, mais résulte des instincts naturels du robot.

IV. Pourquoi ont-ils choisi le secteur de la consommation rapide ?

Au début, ils ont essayé l’industrie automobile, mais ont constaté que les lignes de production sont très rapides (plus de 100 actions par minute) et nécessitent une mécanisation complète. De plus, les profits des constructeurs automobiles sont faibles, ce qui limite leur investissement dans ces technologies. Ils ont ensuite découvert que le secteur de la consommation rapide (cosmétiques, aromathérapie) présentait des besoins spécifiques :

Une grande variété de produits et des changements fréquents de production (tous les quelques semaines), rendant nécessaire l’ajustement constant des machines.
Les robots peuvent résoudre ces problèmes grâce à leurs capteurs tactiles et à leurs réflexes instinctifs.

Leur avantage majeur est le coût de mise en œuvre nul : les robots sont prêts à l’usage immédiatement et s’améliorent avec l’utilisation.

V. Pourquoi ces 8 docteurs ont-ils choisi de créer leur entreprise ensemble ?

Leur choix était guidé par une conviction profonde : la recherche dans les instincts humains est plus importante que des salaires élevés, et la création d’entreprises représente leur seule voie vers le succès. L’équipe a été sélectionnée sur la base de leur conviction commune en faveur d’une approche basée sur les instincts. Les étudiants issus du domaine informatique qui ne pouvaient pas changer leur façon de penser n’ont pas pu rejoindre l’équipe. Ils ont tous suivi Jiang Yao parce qu’ils partageaient la même conviction et que leurs écoles progressaient lentement par rapport aux entreprises commerciales. De plus, Jiang Yao était déterminé à poursuivre cette voie sur des dizaines d’années, ce qui a renforcé leur confiance en lui.

Depuis le lancement de leur entreprise, ils ont rapidement réussi : leurs produits sont commercialisés et ils collectent des données auprès des utilisateurs pour améliorer constamment leurs technologies.

Conclusions

Alors que l’IA dominante se concentre sur la collecte de données et la simulation, l’équipe de Jiang Yao a trouvé une nouvelle voie en s’appuyant sur les instincts humains. Plutôt que de viser des fonctionnalités universelles, ils ont privilégié l’amélioration des capacités de base des robots (comme la saisie d’objets). Cette approche non conventionnelle résout des problèmes réels du secteur et ouvre de nouvelles perspectives pour le développement de l’IA : apprendre directement des humains peut être plus efficace que de simplement accumuler des données.