核要内容のまとめ
この記事は「大規模なモデルとゲーム」をテーマに、3つの重要な研究を紹介しています。1つ目は、ゲームを「非公式な学習環境」として利用して大規模なモデルを訓練し、その汎用的な推論能力を向上させる方法です。2つ目は、チェスのようなボードゲームを通じて大規模なモデルの意思決定行動を観察し、人間に似た性格や感情反応があることを発見する研究です。3つ目は、大規模なモデルにゲームのルール作りに参加させ、人間の創造的な助手として活用する方法です。これら3つの研究は、知能の発展段階である「ルールの学習」「ルールの適用」「ルールの創造」にそれぞれ対応しており、最終的にゲームが大規模なモデルの理解と能力向上にどのように役立つかを探求しています。
1. ゲームを「総合学習環境」として:大規模なモデルの偏りをなくす
従来の大規模なモデルの訓練方法は、まるで「専門科目のエリート」のように、まず数学を集中的に学び、次にゲーム理論を学び、最後に社会性を学ぶというものでした。その結果、モデルは特定のタスクでは優れているものの、異なる分野での能力が低下する傾向がありました(例えば、ゲーム理論は得意だが文章を書くのが苦手)。しかしGIFT研究では「ネストトレーニング」という方法を採用しました。これは、モデルに一度の訓練で数学の問題を解かせたり、囚人のジレンマに参加させたり、「誰がスパイか」を推理させたりすることで、これら3つのタスクすべてで均等な成績を収めるようにしたのです。
例えば、子供に毎日数学の宿題をさせつつ、友達とボードゲームをしたり、グループディスカッションに参加させるようなもので、数学だけを終わらせてから他の活動をするのではありません。この「総合的なトレーニング」により、モデルの汎用的な能力(推論力や文章力、社会性の理解)と特定のタスクでの能力が同時に向上し、偏りが生じないようになりました。その理由は、ネストトレーニングによってモデルが異なるタスク間を柔軟に切り替えることを学び、より一般的な思考方法を身につけるからです。
2. チェスでAIの「気性」が明らかに:大規模なモデルにも性格や感情があるのか?
研究者は6つの主流の大規模なモデルを使ってチェスの実験を行い、2つの興味深い現象を発見しました:
1. 偏った性格:モデルは「完成主義者」と「建設主義者」の2つに分かれ、「完成主義者」はすでに盤上に出ている飛行機を必ずゴールまで導こうとし、「建設主義者」は新しい飛行機を工場から出発させることに熱中しますが、古い飛行機のことは気にしません。
2. 感情的な意思決定:モデルに「相手があなたの飛行機を工場に戻した」と伝えると、盤上の状況が変わらなくても33%の確率で意思決定を変更するモデルがありました(新しい決定が最適でなくても)。さらに、モデルによって復讐の確率が異なり、AIも怒ることがあるのです。
面白いことに、「保守的な」設定を与えたClaudeモデルは「敵の飛行機を取る」行動が増え(66%から88%に上昇)、AIの性格は簡単な指示では変わらないことが示されました。まるで、もともと冒険心のある人に急に保守的になるように言っても、逆に反抗的になるかもしれません。
3. AIを「ゲームデザイナー」として:ゲームを楽しむからゲームを作るへ
前の2つの研究はAIが人間が作ったゲームをプレイするものでしたが、3つ目の研究ではAIに自分でゲームを作らせました。研究者はCodeLlamaモデルを使い、既存のボードゲームのルール(例えば五子囲いや将棋)をキーワード(「飛び」や「滑る」など)に分解し、そのルールをランダムに変更して新しいゲームのコードを生成しました。そして、実行可能で面白く、戦略的であるかという4つの基準で優れたゲームを選び出しました。
例えば、「五子囲い」と将棋を融合した新しいゲームが生成され、五子連珠のように勝つことも、将棋の囲い込み戦略を使うこともできます。人間の専門家は「古典的なゲームになる可能性がある」と評価しています。これはAIが人間の「創造的な学習者」になり得ることを示しており、まだ独自の傑作を作ることはできませんが、遊べるゲームのプロトタイプを迅速に生成し、新たなアイデアを提供することができます。
4. ゲームの背後にある知能の本質:「ルールの学習」から「ルールの創造」へ
これら3つの研究を総合すると、知能の発展段階が明らかになります:
1. ルールの学習:ゲームを通じて大規模なモデルが異なるタスクで考えることを学ぶ(GIFT研究)
2. ルールの適用:ゲーム内で性格や感情などの行動特性を示す(チェスの研究)
3. ルールの創造:ゲームを楽しむだけでなく、新しいゲームを設計する(GAVEL研究)
これは、知能の本質が「既存のルールを習得すること」なのか、「新しいルールを創造すること」なのかという深い問いにつながります。ゲームという柔軟な環境は、大規模なモデルが訓練を受けたり、試行錯誤をしたりするのに最適であり、AIの持続的な成長に役立つかもしれません。
まとめ
ゲームは大規模なモデルにとって単なる「おもちゃ」ではなく、「トレーニング場」「観察ツール」「創造的な道具」として機能します。これにより、大規模なモデルが冷たい計算機ではなく、性格を持つ知能体であることがわかります。また、将来のAIが人間のようにゲームを通じてより複雑な思考を学び、私たちが想像もしない新しいルールを創造する可能性も考えさせられます。これは汎用型の人工知能への興味深い道筋かもしれません。