虎嗅

Título del artículo en español: El nuevo libro de Sutton, ganador del Premio Turing: El siguiente paso de la IA es hacia una “cognición generativa”.

原文：图灵奖得主Sutton新作：AI的下一步，是走向“生成认知”

2026-06-02 阅读原文

Resumen del contenido central

Un nuevo artículo de Sutton, ganador del Premio Turing y padre del aprendizaje reforzado, junto con el académico Rafiee, señala que los principales modelos de IA actuales (como los grandes modelos de lenguaje y los modelos visuales puros) dependen de un enfoque de “representación pasiva”: construyen modelos internos del mundo a partir de datos estáticos para comprenderlo. Sin embargo, este método no es adecuado para enfrentar el mundo real dinámico y complejo. Proponen que la IA debería adoptar un enfoque de “cognición generativa”: la inteligencia no es una copia estática del mundo, sino que se genera a través de la interacción con el entorno, la acción física y la evaluación autónoma. La cognición generativa se basa en cuatro pilares clave (experiencia, integración de percepción y acción, autonomía y corporeidad). Aunque el aprendizaje reforzado se acerca a este concepto, aún necesita mejoras en aspectos como las recompensas externas y la división de los componentes para que la IA pueda realmente “comprender” el mundo.

Desglose del análisis

#### 1. ¿Por qué la IA puede escribir artículos pero no entiende lo que es doloroso? – La trampa de la “representación pasiva” en la IA actual

La IA actual es como un “nerd”: puede recordar enormes cantidades de texto y patrones visuales, pero no ha experimentado el mundo real. Por ejemplo, un LLM (Modelo de Lenguaje Grande) puede escribir que “el agua hirviendo quema”, pero nunca ha tocado agua hirviendo y no sabe cómo se siente; un modelo de generación de videos puede crear imágenes falsas, pero no intentará atrapar algo si ocurre algo inesperado (como una taza que cae al suelo), porque su “cognición” proviene de datos estáticos y no de interacciones reales.

El problema radica en el “representacionismo”: la IA intenta crear una réplica interna del mundo, pero el mundo real es dinámico (el clima cambia, las personas se mueven repentinamente) e infinitamente complejo; ningún modelo puede replicarlo completamente. Es como si nunca pudieras recordar todos los detalles de una ciudad en tu memoria; la IA tampoco puede hacerlo.

#### 2. Cognición generativa: la IA debe “actuar” para entender realmente el mundo

El corazón de la cognición generativa es que la comprensión no se obtiene simplemente observando, sino a través de la acción. Por ejemplo, cuando los humanos aprenden a montar en bicicleta, no comienzan con teoría; primero intentan y ajustan su postura hasta que lo logran. Para determinar si una taza está caliente, no solo miramos una imagen, sino que la tocamos (acción) y sentimos el calor (reacción), lo que nos permite entender realmente qué significa “caliente”.

Para la IA, esto significa que no puede quedarse sentada en un servidor leyendo datos; debe interactuar con el mundo real: por ejemplo, un robot debe levantar una taza por sí mismo para sentir su peso y temperatura, o caminar por sí mismo para evitar obstáculos. Solo a través de un ciclo de acción → reacción → ajuste puede generar una comprensión verdadera.

#### 3. Los cuatro pilares de la cognición generativa: hacer que la IA aprenda como los seres vivos

La cognición generativa se basa en cuatro principios clave, cada uno relacionado con el modo en que los seres vivos perciben y actúan:

Experiencia ≠ datos: La experiencia es un proceso de interacción personal, no etiquetas proporcionadas por otros. El aprendizaje supervisado implica que los humanos proporcionan datos a la IA, mientras que el aprendizaje reforzado permite que la IA experimente y aprenda por sí misma; sin embargo, esto no es suficiente. La IA debe explorar el entorno continuamente y aprender de sus errores, al igual que los animales en busca de comida.
Percepción y acción están inseparables: Cuando vemos algo, movemos nuestros ojos y giramos la cabeza; cuando tocamos algo, usamos nuestros dedos para presionarlo. La IA también debería integrar la percepción (ver, escuchar) con la acción para obtener información más precisa.
Autonomía: Los seres vivos actúan con objetivos propios (en busca de comida, evitando depredadores). En la actualidad, las recompensas para la IA son definidas por los humanos (puntuación en juegos), pero en el futuro, la IA debería tener objetivos internos (por ejemplo, un robot debe saber que necesita cargar cuando se agota la batería).
Corporeidad: Nuestro cuerpo influye en nuestra percepción del mundo. Para la IA, tener un cuerpo físico (como un robot) es crucial para comprenderlo correctamente: la longitud de sus brazos determina si puede alcanzar objetos altos, y la ubicación de sus sensores afecta lo que puede ver.

#### 4. El aprendizaje reforzado está a tres pasos de una IA “viva”

El aprendizaje reforzado es el enfoque más cercano a la cognición generativa, ya que enfatiza la acción y la reacción. Sin embargo, todavía tiene tres deficiencias:

Las recompensas provienen de otros: En los juegos, las puntuaciones son definidas por los humanos, no son necesidades básicas para la IA. En el futuro, las recompensas deberían surgir del propio comportamiento de la IA (por ejemplo, sentirse “incómodo” cuando se agota la batería y “cómodo” después de cargarla).
La percepción y la acción están separadas: Muchos sistemas de RL primero perciben el entorno, luego toman decisiones y finalmente actúan; esto crea una división entre estas funciones. En el futuro, deberían ser más naturales: al ver una taza, la IA debería intentar agarrarla sin pensar.
El cuerpo es un herramienta, no el elemento central: Los cuerpos de los robots actuales son solo hardware para ejecutar instrucciones; en el futuro, deberían formar parte de su cognición. La flexibilidad de sus articulaciones determinará qué acciones puede realizar y, por lo tanto, su comprensión del mundo.

#### 5. El futuro de la IA: de la teoría a la práctica

Este artículo indica el camino para el futuro de la IA:

No debe entrenarse solo con datos, sino que debe interactuar con el mundo real.
Debe tener un cuerpo físico, no ser un modelo “flotante” en la nube.
Debe tener objetivos propios, independientes de las instrucciones humanas.
Debe aprender a través de la acción, no simplemente recibir datos pasivamente.

Solo así la IA puede pasar de ser una imitadora a un ente inteligente que realmente comprende el mundo, acercándose al AGI (Inteligencia Artificial General).

El valor de este artículo radica en que rompe con la idea errónea de que “cuanto mayor es el modelo, mejor”. Nos recuerda que lo esencial para la IA no es la cantidad de datos, sino su capacidad de interactuar con el mundo, al igual que la inteligencia humana, que nunca se basa en el mero memorismo, sino en la experiencia práctica.