虎嗅

**Diskussion über Eichenfrüchte und Ingwer: „Sprache hat kein Instinkt – Operationen schon“ – Eine Gruppe von Doktoranden der Tsinghua-Universität setzte acht Jahre lang auf einen neuen, körperbezogenen Ansatz** *(Discussion on oak fruits and ginger: „Language lacks instinct; operations do.“ A group of Tsinghua University doctoral students invested eight years in exploring a new, body-centered approach.)*

原文:对话橡木果姜峣: “语言没有本能,操作有”,一群清华博士用8年时间押注具身新路线

Zusammenfassung der Kerninhalte

Das Team um Jiang Yao von der Tsinghua-Universität (bestehend aus 8 Doktoranden) verfolgt einen alternativen Ansatz in der KI-Forschung. Basierend auf Erkenntnissen aus der Neurowissenschaft, dass das Greifen von Gegenständen ein Instinkt ist, während die Sprache kein instinktives Verhalten darstellt, haben sie acht Jahre damit verbracht, Roboter so zu entwickeln, die durch innere Impulse gesteuert werden. Anstatt auf große Datenmengen und komplexe Modelle zu setzen, haben sie den Robotern sogenannte „innere Reflexe“ eingebaut – ähnlich wie beim Menschen, beispielsweise das automatische Anpassen der Kraft beim Greifen von glatten Objekten. Dadurch konnten Probleme mit Technologien wie VLA (Visual-Linguistic-Action) und Weltmodellen in industriellen Umgebungen gelöst werden. Die entwickelten Roboter werden derzeit in Branchen des schnellen Verbrauchs (z. B. Kosmetik, Duftprodukte) eingesetzt und lösen dort spezifische Herausforderungen, wie den schnellen Wechsel der Produktionslinien ohne aufwendige Anpassungen der Maschinen.

Warum verfolgen sie nicht die aktuellen KI-Trends? – Greifen und Sprache sind grundlegend unterschiedlich

Hauptströmige KI-Technologien (wie ChatGPT) basieren auf dem Aufbau großer Datenmengen und Modellen. Daher geht man davon aus, dass auch die Steuerung von Robotern auf diese Weise funktionieren sollte: Die Roboter nutzen visuelle Informationen und Sprachbefehle sowie zusätzliche Daten für das Training ihrer Bewegungen. Jiang Yao stellte jedoch bei seinen Forschungen am Harvard-Universität während seiner Arbeit am menschlichen Gehirn fest, dass die Sprache erlernt wird (man lernt nicht von Natur aus zu sprechen), während das Greifen von Gegenständen ein instinktives Verhalten ist, das fast allen Menschen ohne Anleitung möglich ist. Dies zeigt, dass hinter bestimmten Handlungen natürliche Instinkte stecken und sie nicht durch Daten erzeugt werden können.

Beispiel: Beim Greifen einer Flasche Wasser muss man zuvor wissen, wie schwer sie ist und welchen Reibungskoeffizienten sie hat – diese Informationen sind vor dem Greifen nicht bekannt. Bei einem datengestützten Ansatz müsste man alle möglichen Situationen simulieren (schwere, weiche, rutschige Objekte), was eine enorme Datenmenge erfordert. Ein instinktgesteuerter Ansatz hingegen funktioniert direkt: Der Roboter spürt, wenn das Objekt rutscht, und passt seine Kraft entsprechend an – genauso wie ein Mensch.

Warum scheitern Technologien wie VLA und Weltmodelle in industriellen Anwendungen? – Hardwareunterschiede und Kontaktmechanik sind entscheidende Faktoren

Die im letzten Jahr populären Technologien VLA sowie die aktuellen Weltmodelle stoßen in industriellen Umgebungen auf große Schwierigkeiten:

  • Probleme mit VLA: Die Verbindung zwischen den zu erfüllenden Aufgaben und der verwendeten Hardware (z. B. Roboterhände) ist oft zu eng gefasst. Zwei identische Greifklauen mit unterschiedlicher Festigkeit können nicht gleichzeitig von einem Modell gesteuert werden; außerdem fehlt VLA die Fähigkeit zur Wahrnehmung von Reibungsverhalten, was die Effektivität der Roboter einschränkt (z. B. beim Greifen von Gegenständen).
  • Probleme mit Weltmodellen: Die Simulation des realen physikalischen Raums ist schwierig – insbesondere das Verhalten bei Berührungen (z. B. das Herausziehen eines Stiftes) kann nicht vollständig simuliert werden, da viele Details (Reibungskoeffizienten, Hardwarewiderstand) fehlen. Solche Simulationen sind daher nur theoretisch nützlich.

Wie bekommen Roboter ein „Gefühl für die Umgebung?“ – Tastsensoren und drei Arten von Instinktreflexen

Das Team um Jiang Yao entwickelte sieben Jahre lang spezielle Tastsensoren, mit denen sie Informationen über die Eigenschaften von Objekten (Härte, Reibung, Rutschverhalten) ermitteln konnten. Anschließend wurden drei Arten von Instinktreflexen in die Roboter integriert:

1. Richtungsreflex: Der Roboter bewegt sich automatisch auf das Objekt zu, sobald es gesehen wird.

2. Erkundungsreflex: Selbst bei Dunkelheit kann der Roboter Objekte mithilfe von Tastsensoren finden.

3. Greifreflex: Er passt seine Kraft beim Greifen automatisch an, um Rutschen zu vermeiden.

Beispiel: Ein Roboter, der einen Personalausweis greifen soll, hat keinen Daumen und kann ihn nicht direkt hochheben – daher hebt er den Ausweis selbst an, um ihn zu fassen. Dieses Verhalten entsteht durch innere Instinkte, ähnlich wie bei Kindern, die ihre Umgebung erkunden.

Warum wurden zunächst Branchen des schnellen Verbrauchs ausgewählt? – Die Automobilindustrie war keine geeignete Wahl; die Probleme in der Kosmetik- und Duftbranche sind besonders offensichtlich

Zu Beginn versuchten sie, die Automobilindustrie zu ansprechen, stießen jedoch auf große Hindernisse: Die Produktionsabläufe sind sehr schnell (100 Aktionen pro Minute) und erfordern eine hohe Mechanisierung; zudem sind die Gewinne der Autohersteller gering, weshalb sie bereit waren, nur wenig in die Entwicklung zu investieren. Später stellten sie fest, dass Branchen des schnellen Verbrauchs (Kosmetik, Duftprodukte) perfekte Anwendungsfälle für ihre Technologie bieten:

  • Viel verschiedene Produkte; häufiger Produktwechsel (alle paar Wochen); bei traditioneller Automatisierung müssen die Maschinen nach jedem Wechsel angepasst werden, was zu hohen Kosten und Produktionsausfällen führt.

Beispielsweise ist es beim Einrichten von Duftkerzen notwendig, die Kerze entsprechend der Beschaffenheit des Objekts zu halten – dies erfordert ein feines Tastsinnvermögen des Roboters.

Vorteile ihrer Technologie:

Die Implementierung der Roboter erfolgt ohne zusätzliche Kosten; sie sind sofort einsatzbereit und werden mit der Nutzung immer effizienter.

Warum folgten alle 8 Doktoranden Jiang Yao bei seiner Unternehmensgründung? – Glaube ist wichtiger als hohe Gehälter; Unternehmertum ist die einzige Option

Beim Auswahlprozess des Teams wurde besonders der Glaube an die Wirksamkeit instinktgesteuerter Technologien geprüft. Studierende mit einem Computerhintergrund, die nicht von datengestützten Ansätzen abweichen konnten, wurden nicht aufgenommen. Die 8 Doktoranden folgten Jiang Yao, weil sie:

  • Einheitlichen Glauben hatten: Sie waren überzeugt, dass eine steuerung durch innere Impulse der richtige Weg ist.
  • Die Universitäten entwickeln nur langsam neue Technologien; im Gegensatz dazu verkaufen marktorientierte Unternehmen bereits tausende Exemplare pro Jahr – ohne Unternehmertum würden sie von anderen überholt werden.
  • Jiang Yaos Beharrlichkeit: Er war bereit, 10–30 Jahre lang auf diesem Weg zu bleiben, und das Team vertraute ihm.

Fazit: Obwohl die Gründung anfangs anstrengend war, haben sie schnell Fortschritte erzielt: Ihre Produkte werden erfolgreich verkauft, und sie sammeln kontinuierlich Daten von den Nutzern, was ihre Entwicklung weiter vorantreibt.

Der Wert des Widerstands gegen gängige Konzepte

Während die Hauptströmungen der KI-Forschung sich auf das Sammeln von Daten und die Simulationen konzentrieren, hat das Team um Jiang Yao einen neuen Weg eingeschlagen – sie konzentrieren sich darauf, bestimmte Aufgaben (z. B. das Greifen von Gegenständen) besser zu erledigen als Menschen. Dieser unkonventionelle Ansatz löst tatsächliche Probleme in der Industrie und zeigt, dass es effektiver sein kann, direkt vom Verhalten des Menschen zu lernen, anstatt nur Daten zu sammeln.