核心内容の要約
トゥーリング賞受賞者であり強化学習の父とされるサットン氏と学者ラフィー氏による新しい論文では、現在主流のAI(大言語モデルや純粋な視覚モデルなど)が「受動的表現」のアプローチに依存していることを指摘しています。つまり、静的なデータを用いて内部世界のモデルを構築し、世界を理解しようとするのですが、この方法では動的で複雑な現実世界に対応できません。彼らはAIが「生成的認知」の道へと転換すべきだと提案しています。つまり、AIの知能とは世界の静的なコピーではなく、環境との相互作用、物理的な行動、自己評価を通じて生成されるものであるというのです。生成的認知には4つの柱があります(経験、知覚と行動の統合、自律性、身体性)。強化学習はこの理念に近いものの、外部報酬やモジュール分割などの問題を改善する必要があり、AIが本当に世界を「理解」できるようになるためです。
解説
#### 1. なぜAIは論文は書けても「熱さ」を理解できないのか?——現在のAIの「受動的表現」の罠
現在のAIはまるで「本ばかり読む学生」のようです。大量のテキストや画像のパターンを記憶することはできますが、実際の世界を経験したことはありません。例えば、LLM(大言語モデル)は「熱いお湯は熱い」と書くことができますが、実際にお湯に触れたことがなく、熱さを知りません。ビデオ生成モデルは偽のビデオを作ることができますが、突然の事態(例えばカップが床に落ちる)に遭遇した場合、自発的に手を伸ばしてそれを受け取ろうとしません。なぜなら、その「認識」は静的なデータに基づいており、実際の相互作用から来ていないからです。
問題の根源は「表現主義」にあります。AIは内部に世界のコピーを作ろうとしますが、現実世界は動的で(天気が変わったり人が突然動いたりするなど)、無限に複雑であり、どんなモデルも完全に再現することはできません。まるで私たちが都市の詳細をすべて頭の中に記憶することができないように、AIにもそれは不可能です。
#### 2. 生成的認知:AIが世界を本当に理解するためには「実際に行動する」必要がある
生成的認知の核心は、「認識は見て得られるのではなく、行動して得られる」ということです。例えば、人間が自転車に乗るときは、まず理論を暗記するのではなく、何度も落ちてから姿勢を調整して学びます。カップが熱いかどうかを判断するときも、画像を見るだけでなく、手を伸ばして触れて(行動し)、熱さを感じることで「熱い」と本当に理解します。
AIにとっては、サーバーの中でデータを読むだけでは不十分です。実際の世界で相互作用する必要があります。例えば、ロボットが自分でカップを持ち上げてその重さや温度を感じたり、自分で歩いて障害物を避けたりする必要があります。行動→フィードバック→調整のサイクルを通じてこそ、真の理解が生まれます。
#### 3. 生成的認知の4つの柱:AIに生物のような学習能力を与える
生成的認知には4つの重要な原則があり、それぞれが生物の認識方法に対応しています:
- 経験≠データ:経験とは実際の相互作用の過程であり、他人から与えられたラベルではありません。例えば、教師あり学習では人間がデータを提供しますが、強化学習ではAIが自分で試行錯誤します。しかし、それだけでは不十分です。動物が食べ物を探すように、環境を継続的に探索し、失敗から学ぶ必要があります。
- 知覚と行動は切り離せない:物を見るときは目を動かしたり頭を回したりします。AIも同様で、知覚(見たり聞いたりすること)自体が行動の一部であり、身体の姿勢を調整することでより正確な情報を得る必要があります。
- 自律性:自分自身の「小さな目標」を持つ:生物の行動は生存のためです(食べ物を探したり天敵から逃げたりするため)。現在のAIの報酬はほとんどが人間によって設定されています(例えばゲームでの得点)。将来的には、AIに内在的な目標を持たせる必要があります。例えば、ロボットが自分で「バッテリーが切れた」と判断し、人間の指示を待たずに充電するようになることです。
- 身体性:身体が認識を決定する:アリにとって椅子は「大きな障害」ですが、人間にとっては「座れるもの」です。なぜなら、身体の大きさや能力が異なるからです。AIにも物理的な身体(例えばロボット)が必要であり、それによって世界を本当に理解することができます。例えば、腕の長さが高い場所の物を取れるかどうかを決定し、センサーの位置が何を見ることができるかを決定します。
#### 4. 強化学習は「生きたAI」になるまであと3つのステップ
強化学習(RL)は生成的認知に最も近いAIの分野ですが、まだ3つの問題があります:
- 報酬は「他人から与えられたもの」:例えばゲームでの得点は人間が設定したものであり、AI自身の生存ニーズではありません。将来的には、報酬をAI自身の「自己維持」から生み出す必要があります。例えば、バッテリーが切れたときに「不快だ」と感じ、充電した後に「快適だ」と感じるようになることです。
- 知覚と行動は分離されている:多くのRLシステムではまず環境を感知し、その後で決定を下し、最後に行動します。これらを人間のようにする必要があります。カップを見たときに自然と手を伸ばして取るようになり、知覚と行動がシームレスになるようにする必要があります。
- 身体は「道具」であって「核心」ではない:現在のロボットの身体は指令を実行するためのハードウェアに過ぎませんが、将来的には身体が認識の一部となる必要があります。例えば、ロボットの関節の柔軟性がどのような動作ができるかを決定し、それが世界理解に影響を与えるようにする必要があります。
#### 5. 未来のAI:「机上の空論」から「実践」へ
この論文はAIの未来の方向性を示しています:
- データだけで訓練するのではなく、実際の世界で相互作用する必要があります。
- 物理的な身体(身体性)を持つ必要があり、「クラウド上に存在する」モデルではない。
- 自己の目標を持つ必要があり、人間の指示に依存しない。
- 行動の中で学ぶ必要があり、受動的にデータを受け取るのではなく。
このようにして初めて、AIは「上手な人を模倣する」存在から、「世界を本当に理解する知能体」へと進化し、AGI(汎用人工知能)に一歩近づくことができます。
この論文の価値は、「モデルが大きければ大きいほど良い」という考え方から脱却し、AIの核心はデータ量ではなく、世界との相互作用能力にあると私たちに思い出させてくれる点です。人間の知能も同様であり、死記硬背ではなく、「生活の中で経験を通じて学ぶ」ことによって発展してきました。