虎嗅

**AIは本当に暗算を学べるのか?潜在的な思考プロセスが初めて理論的に証明された――スチュアート・ラッセルも参加** --- このニュースヘッドラインは、金融ニュースウェブサイト向けに適した自然な表現で翻訳されています。日本のジャーナリズムにおける慣用的な表現や言い回しを使用しており、意味は正確に伝えられています。サブタイトルや説明は含まれていません。

原文:AI真能学会心算?隐式思维链首次得到理论证明,Stuart Russell参与

核心内容の要約

このニュースは、AI推論モデルが直面する「コストの問題点」に焦点を当てています。現在のAIは明示的な思考プロセス(CoT: Explicit Thinking Chain)を用いて問題を解決する際、多くの中間ステップを出力します(まるで下書きのように)。これによりトークンの消費が増え、推論速度が遅くなります。しかし、新しい研究では「暗示的な思考プロセス(ICoT: Implicit Thinking Chain)」という最適化手法であるLog-ICoTを提案しています。この手法はツリー構造のトレーニングコースを通じて、モデルが中間ステップを隠れ層に「内面化」させ、推論時には答えのみを出力するようにします。また、Log-ICoTの有効性を初めて数学的に証明したことで、AIの推論コストと遅延を低減するための理論的な根拠が提供されました。

1. 明示的な思考プロセス(CoT):高コストの「下書き」

AIモデルが数学問題を解いたりコードを書いたりする際、人間のように段階を追って考え、その思考過程(例えば「まず个位数を計算し、次に十位数を計算する」)をトークンの形で出力します。しかし、これには問題があります:

  • コストが高い:複雑な問題の思考に必要なトークン数は通常の会話の10倍以上にもなり、計算リソースのコストが急増します。
  • 遅い:思考ステップは並列ではなく(前のステップが完了してから次のステップに進むため)、プロセスが長くなるほど待ち時間がかかります。

例えば、子供に123×45を計算させるとき、子供が各ステップを紙に書いてから結果を見る必要がありますが、AIの明示的なCoTも同じです。中間のトークンはリソースを消費するだけでなく、時間も浪費します。

2. 暗示的な思考プロセス(ICoT):AIに「暗算」させる試み

AIに下書きを書かせずに直接答えを出させる方法はないでしょうか?これがICoTのアイデアです。中間ステップをモデルの「脳(隠れ層)」に隠すのです。以前にもこのような試みはありました:

  • まずAIに明示的なCoTで問題を解かせ、徐々に中間ステップを減らしていきます(毎回1つのトークンを隠す)。しかし、欠点も明らかです。思考プロセスが16ステップある場合、15回のトレーニングが必要であり、コストはステップ数に比例して増加します。さらに重要なのは、この方法が必ずしも効果的かどうかを証明することができない点です。途中でモデルが混乱する可能性もあります。

3. Log-ICoT:ツリー構造を用いたトレーニングによる効率化

新しい研究の革新的な点は、トレーニングコースをツリー構造に再設計することで以前の問題を解決した点です:

  • 思考プロセスは本質的にツリー構造を持っています。例えば、16ビットの奇偶性チェック(積の正負を判断する)は4層の二分木に分解できます。
  • 一度に1層分を隠す:以前は毎回1つのトークンを隠していましたが、今ではツリーの1層分を一括で隠します。16ステップのプロセスであれば4回のトレーニングで済み(log₂16=4)、効率が3倍以上向上します。
  • モデルの階層との対応:Transformerの各層はツリーの層に対応しており、第1層では最下層の二重積を処理し、第2層ではその結果を処理するなど、モデルの役割が明確で混乱しません。

4. 理論的な突破:「暗算」に初めて数学的な根拠

この論文の最も画期的な点は、ICoTの有効性を厳密な数学的証明で示したことです:

  • 定理の結論:L層のTransformerをLog-ICoTでトレーニングする場合、多項式オーダーのサンプルとlog₂k回のトレーニングだけでテスト時に正しい答えを出力できます(誤差は非常に小さい)。
  • 2つの大きな問題を解決:
  • 表現の崩壊:多層モデルでは情報が平均化されやすいため、チームは「ゲート」を導入しました。各層で対応するツリー層のみを活性化させ、情報の損失を防ぎます。
  • 誤差の伝播:初期トレーニングで生じた小さな誤差が拡大するため、チームは注意機構の重みを四捨五入して(整数化)既にトレーニングされた層を固定し、誤差の拡散を防ぎます。

5. 実験検証:4回のトレーニングで「暗算」が可能

チームは16ビットの奇偶性チェックタスクで実験を行いました:

  • 4つのトレーニング段階(4層のツリーに対応)を経て、最終段階ではすべての中間ステップが隠され、モデルは元の入力のみを見ます。
  • 検証セットの正確率は100%であり、注意機構のヒートマップから各層がツリーの層に正確に対応していることがわかりました。つまり、モデルは本当に「暗算」を学んだのです。

今後の意義と課題

  • 意義:この手法を実際のLLM(例えばGPT)に応用すれば、推論能力を維持しつつトークンの消費と遅延を減らし、AIアプリケーションのコストを削減できる可能性があります(例えばChatGPTのAPI料金が下がるかもしれません)。
  • 課題:現在は合成タスク(奇偶性チェック)でのみ検証が行われており、実際のLLMの思考プロセスには明確なツリー構造がありません。対応するトレーニング段階の設計はさらなる研究が必要です。

要するに、この研究によりAIの「黙って考える」行為が「技術」から「科学」へと進化し、より効率的で低コストなAI推論の実現に向けた道が開かれました。