虎嗅

**新しいアーキテクチャモデルHRM-Textが記録的な革新を達成!10億個のパラメータと1000ドルのコストで、チューリング賞受賞者も自ら参戦しています。**

原文:新架构模型HRM-Text创新纪录,1B参数、1000美元,图灵奖得主都亲自下场了

核要内容のまとめ

HRM-Textは10億個のパラメータ(1B)を持つAIモデルであり、その訓練コストはわずか1500ドル(H100カードを16枚使用し、2日未満で訓練完了)です。にもかかわらず、数学的推論(MATH:56.2点)、小学校レベルの算数(GSM8K:84.5点)といったベンチマークテストでは、20億~70億個のパラメータを持つモデルを上回る成績を収めました。その鍵となる革新は、従来の大規模モデルが採用してきた「パラメータの増量、データの蓄積、計算能力の強化」というアプローチを捨て、モデルアーキテクチャ(階層的な再帰計算)と訓練目的(回答部分に焦点を当てたもの)を再設計することで、ごく少量のデータ(Llama3.2の30億個のパラメータのわずか1/225にあたる400億個のユニークなトークンのみ)を用いてゼロからの事前訓練に成功した点にあります。HRM-Textの目的は「概念実証」であり、限られたリソースの下でもアーキテクチャの革新が効率向上につながることを示しています。トゥーリング賞受賞者のYoshua Bengioも同様の研究を進めており、これは大規模モデルの発展に新たな方向性を示唆しています。

詳細な解説

1. なぜ小さなモデルが「弱いながら強い」のか?——大量のリソースではなく「巧妙な計算」による

従来の大規模モデルの考え方は「大きければ大きいほど良い」というものでした:パラメータが多く、データが豊富で、計算能力が強ければ知能も高いとされています。しかしHRM-Textはその逆を行い、10億個のパラメータ(多くのモデルよりも少ない)、1500ドルのコスト(数百万個のパラメータを持つ大規模モデルに比べて大幅に安い)、そしてごく少量のデータで優れた結果を出しました。その秘訣は計算効率の最適化にあります。つまり、限られたパラメータ数でも出力前により多くの有効な内部計算を行うことで、単にパラメータ数を増やすだけではないのです。まるで同じ食材を使っても、普通の料理人が平凡な料理を作るのに対し、優れた料理人は繰り返し加工して精巧な料理を作り上げるようなものです。HRM-Textはその「優れた料理人」にあたります。

2. アーキテクチャの革新:出力前にモデルに「何度も考えさせる**

通常のTransformerモデルは「パイプライン方式」で、入力されたデータが各層を順番に処理されます。一方、HRM-Textは「反復的なイテレーション」を採用しています:

  • 2つのモジュールを持っており、高層H(更新が遅く、全体の文脈を保持する役割)と低層L(更新が速く、計算手順の微調整を行う役割)です。
  • 出力する前に、これら2つのモジュールは内部状態を繰り返し更新します(例えば、ある単語を予測する際には6回のL更新と2回のH更新が行われます)。これにより、モデルは回答する前に何度も「考え直す」ことになります。

モデルが反復的な処理で崩壊しないようにするために、2つの手法を採用しています:

  • MagicNorm:計算過程でのデータの変動を制御し、結果の乱れを防ぐ。
  • 段階的な責任付け:訓練初期にはモデルに最新の処理結果のみを担当させ、安定した後により古い処理結果も含めて処理するようにする(まるで教師が最初に最近の宿題を採点し、その後徐々に以前の宿題をチェックするようなもの)。

3. 訓練目的:「問題の解答」だけを訓練し、「問題のコピー」はしない

通常のモデルではすべてのテキストの次の単語(問題自体を含む)を予測する必要がありますが、HRM-Textは回答部分のみに誤りを計算します。例えば数学の問題を与えられた場合、問題をどのように再現するかを学ぶのではなく、正しい答えをどのように導き出すかだけを学びます。また、PrefixLMを使用してモデルが問題全体を完全に理解できるようにしています(指示部分も双方向に参照可能)。これは教師が宿題を採点する際に、答えが正しいかだけを確認し、コピーしたかどうかはチェックしないのと同じです。これにより訓練がより集中し、効率も向上します。

4. 欠点と将来性:推論能力は高いが知識が不足しており、「役割分担」が必要

HRM-Textは推論タスク(数学の問題など)では優れた性能を発揮しますが、広範な知識が求められるテスト(例えばMMLU:様々な学科の知識を試すテスト)ではより大規模なモデルに劣ります。その理由は明らかです:データが少なく、パラメータも少ないため、多くの知識を記憶できません。将来の方向性としては、「推論と知識の分離」が考えられています。つまり、HRMのようなモデルに推論計算を専門にさせ、知識部分は外部のデータベースや検索システムに任せるというわけです(人間が考える際に資料を調べるように)。チームはこの方向性で初期の成果を上げていますが、まだ公開されていません。

5. 業界への影響:大規模モデルの「内輪競争」に新たな道を切り開く

これまでの大規模モデル業界では、どちらのモデルがより多くのパラメータや計算能力を持っているかを競ってきました。しかしHRM-Textは、「大量のリソースの投入」以外にも性能向上が可能であることを証明しました。これは自動車業界に例えられます:エンジンの排気量を増やすだけでなく、構造を最適化して効率を高めることもできるのです。トゥーリング賞受賞者のBengioの研究もこの方向性が認められており、より多くの小規模チームが革新に参加する可能性があります。これにより、「資金力」だけで競う必要はなくなるかもしれません。

総括

HRM-Textは大規模モデルを置き換えることを目的としているのではなく、「低コストで高効率な」新たなアプローチを提供するものです。その価値は完璧な製品になることではなく、大規模モデルの進化が「より大きくなる」だけでなく、「より巧妙に」なることでも可能であることを示す点にあります。計算方法を再設計することで、性能とコストの関係を変えることができるのです。これは業界にとって、「規模至上主義」を打破する重要なシグナルです。