虎嗅

AI真能学会心算？隐式思维链首次得到理论证明，Stuart Russell参与

2026-06-07 阅读原文

核心内容总结

这篇新闻聚焦AI推理模型的“成本痛点”：当前AI用显式思维链（CoT）解题时，会输出大量中间步骤（像草稿纸），导致token消耗多、推理慢；而新研究提出“隐式思维链（ICoT）”的优化方法——Log-ICoT，通过树状结构训练课程，让模型把中间步骤“内化”到隐藏层，推理时只输出答案，还首次用数学证明其有效性，为降低AI推理成本和延迟提供了理论支撑。

1. 显式思维链：昂贵的“草稿纸”

AI模型解数学题、写代码时，会像人一样一步步“思考”，并把这些思考过程（比如“先算个位，再算十位”）以token形式输出——这就是显式思维链。但问题来了：

费钱：一道复杂题的思考token可能是普通对话的10倍以上，计算资源成本飙升；
慢：思考步骤是串行的（上一步做完才能做下一步），链越长等越久。

比如你辅导孩子算123×45，孩子把每一步写在纸上，你得等他写完才能看结果——AI显式CoT就是这个道理，草稿纸（中间token）既费纸（资源）又费时间。

2. 隐式思维链：让AI“心算”的尝试

有没有办法让AI不写草稿，直接报答案？这就是ICoT的思路：把中间步骤藏在模型“大脑”（隐藏层）里。之前也有尝试：

先让模型用显式CoT答题，再逐步减少中间步骤（每次藏一个token），让模型适应“心算”。

但缺点很明显：如果思维链有16步，就得训练15次（每次少一个），成本随步骤线性增长；更关键的是，没人能证明这种方法“一定有效”——会不会训练到一半模型就懵了？

3. Log-ICoT：树状训练让“心算”更高效

新研究的核心创新是用树状结构重新设计训练课程，解决了之前的效率问题：

思维链本质是树：比如16个比特的奇偶校验（判断乘积正负），可分解成4层二叉树（每层两两相乘）；
一次性藏一层：之前每次藏1个token，现在直接藏树的一整层。比如16步的链，只需训练4次（log₂16=4），效率提升3倍多；
对齐模型层级：Transformer的每一层对应树的一层，第一层处理最底层的两两乘积，第二层处理上一层结果，以此类推——模型“分工明确”，不会混乱。

4. 理论突破：第一次给“心算”上“数学保险”

这篇论文最牛的地方是首次用严格数学证明ICoT有效：

定理结论：L层Transformer用Log-ICoT训练，只需多项式级别的样本和log₂k次训练，就能在测试时直接输出正确答案（误差极小）；
解决两大难题：
表示坍缩：多层模型容易“平均化”信息，团队加了“门控”——每层只激活对应树层级的位置，避免信息丢失；
误差传播：早期训练的小误差会被放大，团队对注意力权重做“四舍五入”（整数量化），锁定已训练好的层，不让误差扩散。

5. 实验验证：4步训练就能“心算”满分

团队在16比特奇偶校验任务上测试：

4个训练阶段（对应4层树），最后阶段所有中间步骤都被藏起来，模型只看原始输入；
验证集准确率100%，注意力热图显示每层精准对应树的层级——模型真的学会了“心算”。

未来意义与挑战

意义：如果把这种方法用到真实LLM（比如GPT），就能让模型在保持推理能力的前提下，减少token消耗和延迟，降低AI应用成本（比如ChatGPT的API费用可能下降）；
挑战：目前只在合成任务（奇偶校验）上验证，真实LLM的思维链没有明确的树状结构，如何设计对应的训练阶段还需探索。

总的来说，这篇研究让AI“沉默思考”从“技巧”变成“科学”，为更高效、更便宜的AI推理打开了大门。

（全文用通俗比喻和日常例子，避免专业术语，让非财经/AI背景读者也能轻松理解核心逻辑~）