虎嗅

¿Puede realmente el AI aprender a calcular mentalmente? La cadena de pensamiento implícita obtiene su primera prueba teórica, con la participación de Stuart Russell.

原文：AI真能学会心算？隐式思维链首次得到理论证明，Stuart Russell参与

2026-06-07 阅读原文

Resumen del contenido principal

Este artículo se centra en los “problemas de coste” de los modelos de inferencia basados en IA: actualmente, cuando los sistemas AI utilizan cadenas de pensamiento explícitas (CoT) para resolver problemas, generan una gran cantidad de pasos intermedios (similar a un borrador), lo que conduce a un alto consumo de tokens y a una lenta velocidad de inferencia. Un nuevo estudio propone un método de optimización llamado “cadena de pensamiento implícita (ICoT)” mediante el cual se entrena al modelo utilizando una estructura arbórea, permitiendo que los pasos intermedios se “internalicen” en las capas ocultas del modelo. Durante la inferencia, solo se muestra la respuesta final, y por primera vez se ha demostrado matemáticamente su eficacia, lo que proporciona un soporte teórico para reducir los costos y demoras de la inferencia AI.

1. Cadena de pensamiento explícita: el “borrador” costoso

Cuando los modelos AI resuelven problemas matemáticos o escriben código, piensan paso a paso, similar a los humanos, y estos procesos de pensamiento (por ejemplo, “primero calcular el dígito uno, luego el dígito diez”) se representan en forma de tokens. Sin embargo, esto conlleva problemas:

Costoso: Los tokens necesarios para resolver un problema complejo pueden ser más de 10 veces superiores a los necesarios para una conversación normal, lo que aumenta significativamente el costo de los recursos de cálculo.
Lento: Los pasos de pensamiento son secuenciales (se debe completar cada paso antes de pasar al siguiente), por lo que cuanto más larga es la cadena, más tiempo se tarda.

Por ejemplo, si estás enseñando a un niño a calcular 123 × 45 y él escribe cada paso en papel, debes esperar a que termine para ver el resultado; esto es exactamente lo que ocurre con la cadena de pensamiento explícita de los modelos AI: los tokens intermedios consumen recursos (papel) y tiempo.

2. Cadena de pensamiento implícita: un intento por hacer que la IA haga cálculos mentales

¿Existe alguna manera de que la IA pueda dar la respuesta directamente sin escribir los pasos intermedios? Esa es la idea detrás del ICoT: ocultar los pasos intermedios en la “cerebro” del modelo (las capas ocultas). Ya se han realizado intentos anteriores:

Primero, se utiliza el CoT explícito para que el modelo resuelva el problema y luego se reducen gradualmente los pasos intermedios (ocultando un token cada vez) para que el modelo se acostume a hacer cálculos mentales.

Pero hay desventajas evidentes: si la cadena de pensamiento consta de 16 pasos, es necesario entrenar al modelo 15 veces (ocultando uno por vez), lo que aumenta el costo linealmente. Lo más importante es que no se sabe con certeza si este método será efectivo; ¿podría el modelo perderse en medio del proceso?

3. Log-ICT: un entrenamiento arbóreo para hacer que los cálculos mentales sean más eficientes

La innovación central de este nuevo estudio es la reestructuración del proceso de entrenamiento utilizando una estructura arbórea, lo que resuelve los problemas de eficiencia anteriores:

La cadena de pensamiento tiene una naturaleza arbórea: por ejemplo, la comprobación de paridad de 16 bits (para determinar si el producto es positivo o negativo) se puede descomponer en un árbol binario de 4 niveles (cada nivel representa la multiplicación entre pares de bits).
Ocultar todos los pasos de una vez: en lugar de ocultar un token por vez, ahora se oculta toda una capa del árbol de una sola vez. Por ejemplo, para una cadena de 16 pasos, solo es necesario entrenar 4 veces (log₂16 = 4), lo que aumenta la eficiencia en más del triple.
Alineación de los niveles del modelo: Cada capa del Transformer corresponde a un nivel del árbol; la primera capa procesa las multiplicaciones entre pares de bits del nivel inferior, la segunda capa procesa los resultados del nivel anterior, y así sucesivamente. Esto asegura que el modelo trabaje de manera organizada y sin confusiones.

4. Avance teórico: la primera demostración matemática de la eficacia del ICoT

Lo más destacado de este artículo es que por primera vez se ha demostrado matemáticamente la efectividad del ICoT:

Conclusión del teorema: Un Transformer de nivel L entrenado con Log-ICT necesita un número polinómico de ejemplos y solo log₂k iteraciones de entrenamiento para generar la respuesta correcta en pruebas con un error muy bajo.
Se resuelven dos problemas importantes:
Colapso de la representación: Los modelos multinivel tienden a “promediar” la información; el equipo incorporó mecanismos de control (gates) para que solo se active la información correspondiente al nivel del árbol, evitando la pérdida de datos.
Difusión del error: Los errores pequeños durante el entrenamiento inicial pueden amplificarse; el equipo realizó una cuantificación entera de los pesos de atención para bloquear la propagación de errores en capas ya entrenadas.

5. Verificación experimental: 4 iteraciones de entrenamiento para lograr cálculos mentales perfectos

El equipo probó este método con una tarea de comprobación de paridad de 16 bits:

Se utilizaron 4 etapas de entrenamiento (correspondientes a 4 niveles del árbol); en la última etapa, todos los pasos intermedios se ocultaron y el modelo solo consideró la entrada original.
La tasa de acierto en el conjunto de validación fue del 100%, y las imágenes de calor de la atención mostraron que cada capa del modelo correspondía exactamente a su nivel en el árbol, lo que demuestra que realmente ha aprendido a hacer cálculos mentales.

Significado futuro y desafíos

Significado: Si este método se aplicara a los LLMs reales (como GPT), se podrían reducir el consumo de tokens y las demoras en la inferencia, disminuyendo así los costos de las aplicaciones AI (por ejemplo, las tarifas de las API de ChatGPT).
Desafíos: Hasta ahora, solo se ha probado con tareas sintéticas (como la comprobación de paridad); los modelos LLM reales no tienen una estructura arbórea definida, por lo que aún se necesita explorar cómo diseñar las etapas de entrenamiento adecuadas.

En resumen, este estudio convierte el “pensamiento silencioso” de los modelos AI de una técnica en un principio científico, abriendo el camino para métodos de inferencia más eficientes y económicos.

(El texto utiliza metáforas y ejemplos cotidianos para que incluso aquellos sin conocimientos financieros o de IA puedan entender fácilmente la lógica central.)