虎嗅

Diálogo entre expertos en frutos de roble y jengibre: “El lenguaje no tiene instintos, pero la interacción sí”. Un grupo de doctores de Tsinghua invirtió 8 años apostando por una nueva dirección en la tecnología interactiva.

原文：对话橡木果姜峣： “语言没有本能，操作有”，一群清华博士用8年时间押注具身新路线

2026-06-02 阅读原文

Resumen del contenido central

El equipo liderado por Jiang Yao de la Universidad Tsinghua (con 8 doctores que lo siguen al pie de la letra) ha tomado un enfoque alternativo al AI mainstream. Partiendo de los descubrimientos en neurociencia de que las acciones humanas tienen una base instintiva, mientras que el lenguaje no, han dedicado 8 años a desarrollar robots que operan guiados por instintos naturales. En lugar de construir modelos basados en grandes volúmenes de datos, han implantado en los robots reflejos sensoriales similares a los humanos (por ejemplo, ajustar automáticamente la fuerza al sentir un deslizamiento al agarrar algo). Esto ha resuelto problemas relacionados con la interacción entre visión, lenguaje y acción (VLA) y los modelos del mundo real en entornos industriales. Actualmente, sus tecnologías se están utilizando en sectores de consumo rápido como el cosmético y los aromas, abordando problemas específicos de estas industrias, como la necesidad de cambiar de producción sin tener que ajustar constantemente los equipos.

I. ¿Por qué no siguen las tendencias del AI? — La acción y el lenguaje son cosas muy diferentes

El AI mainstream (como ChatGPT) ha tenido éxito basándose en la acumulación de datos para entrenar modelos, por lo que muchos piensan que los robots también deberían funcionar de esta manera: utilizando la visión y órdenes verbales para controlar sus movimientos. Sin embargo, Jiang Yao descubrió durante sus estudios en Harvard que el lenguaje es un aprendizaje adquirido (no se puede hablar sin enseñanza), mientras que acciones como agarrar objetos son innatas y las personas las realizan de manera similar independientemente del entrenamiento. Esto indica que hay mecanismos instintivos detrás de dichas acciones que no pueden ser replicados simplemente con datos.

Ejemplo: Al agarrar una botella de agua, un enfoque basado en datos requeriría conocer su peso y coeficiente de fricción (información que no se tiene antes de intentarlo); por otro lado, un enfoque instintivo haría que el robot ajustara automáticamente la fuerza al sentir que el objeto se desliza.

II. ¿Por qué fallan los modelos VLA y los modelos del mundo real? — Diferencias en el hardware y las leyes de la mecánica de contacto

Los modelos VLA, que fueron muy populares el año pasado, y los modelos del mundo real han tenido problemas en entornos industriales:

Problemas con los modelos VLA: Estos modelos vinculan estrictamente las tareas (como agarrar objetos) al hardware (las manos del robot). Por ejemplo, si dos pinzas son idénticas pero tienen diferentes niveles de presión, el modelo entrenado no funcionará adecuadamente. Además, los modelos VLA carecen de sensación táctil y solo imitan acciones visuales (como cuando una persona ayuda a colocar sus gafas; esto no es útil para agarrar objetos).
Problemas con los modelos del mundo real: Intentar simular el comportamiento físico real mediante simulaciones es desafiante, ya que las leyes de contacto (como la fricción y la resistencia del hardware) son difíciles de replicar. Las simulaciones que no toman en cuenta estos factores son inútiles en la práctica.

III. ¿Cómo dar a los robots una sensación táctil? — Sensores táctiles + tres reflejos instintivos

El equipo de Jiang Yao ha dedicado 7 años a desarrollar sensores táctiles capaces de detectar características del objeto (su dureza, fricción, etc.) y ha incorporado tres tipos de reflejos instintivos en los robots:

1. Reflejo direccional: El robot se acerca automáticamente al objeto al verlo.

2. Reflejo de exploración: Puede encontrar objetos incluso en la oscuridad gracias a su sensación táctil.

3. Reflejo de agarre: Ajusta automáticamente la fuerza al sentir un deslizamiento.

Ejemplo: Un robot que intenta agarrar una tarjeta de identificación no puede hacerlo con su pulgar; en lugar de eso, eleva la tarjeta para poder sujetarla. Este comportamiento surge de manera espontánea, similar a cómo los niños aprenden a resolver problemas por sí mismos.

IV. ¿Por qué eligieron primero el sector del consumo rápido? — Los problemas de esta industria son muy específicos

Al principio, intentaron ingresar al sector automotriz, pero se encontraron con obstáculos: las líneas de producción son muy rápidas (más de 100 acciones por minuto) y requieren mecanización; además, las empresas fabricantes tienen bajos beneficios y no están dispuestas a invertir. Descubrieron que el sector del consumo rápido (cosméticos, aromas) presentaba problemas específicos que sus tecnologías podían resolver:

Gran variedad de productos: Hay cientos de tipos de productos, y la producción se cambia con frecuencia (cada pocas semanas), lo que requiere ajustes constantes en los equipos tradicionales, causando grandes pérdidas.
Ejemplo: Al ajustar las mechas de las velas aromáticas, es necesario utilizar una fuerza adecuada dependiendo del material; los robots pueden hacer esto con facilidad gracias a sus sensores táctiles.

Su ventaja es el cero costo de implementación: los robots están listos para usar de inmediato y se vuelven más eficientes con el uso.

V. ¿Por qué los 8 doctores lo siguieron en su emprendimiento? — La fe es más importante que un salario alto; el emprendimiento es la única opción

Durante la selección del equipo, se valoró la creencia en los mecanismos instintivos naturales; los estudiantes con formación en informática que no podían cambiar su modo de pensar basado en datos no fueron aceptados. Los 8 doctores lo siguieron porque:

Comparten la misma fe: Creen que el enfoque basado en instintos es el correcto y no quieren seguir las tendencias mainstream.
La lentitud del proceso académico: Mientras los institutos tardan años en desarrollar un prototipo, las empresas comerciales pueden vender miles de unidades al año; si no emprenden, serán superados por la competencia.
La perseverancia de Jiang Yao: Está dispuesto a dedicar 10-30 años a este camino, y su equipo confía en que logrará el éxito.

Aunque el emprendimiento ha sido arduo (los primeros seis meses fueron como cinco años), han avanzado rápidamente: sus productos se están vendiendo y están recopilando datos de los usuarios para mejorar continuamente su tecnología.

Conclusión: El valor de la contrariedad

Mientras el AI mainstream se centra en acumular datos y realizar simulaciones, el equipo de Jiang Yao ha encontrado un nuevo camino para el control de robots basado en los instintos humanos. En lugar de buscar una solución universal, se han enfocado en mejorar específicamente habilidades como agarrar objetos. Este enfoque contracultural ha resuelto problemas reales del sector y ha abierto nuevas posibilidades para el desarrollo del AI: aprender de los seres humanos puede ser más efectivo que simplemente acumular datos.