虎嗅

**Gemma4が1年半前のトップクラスのオープンソースではないモデルに追いつく!50億個のパラメータを持つモデルでもわずか2GBのビデオメモリで動作** **Gemma4の背後にある技術的な野心**

原文:Gemma4已经追平一年半前的顶尖闭源模型:50亿参数模型只需2GB显存,Gemma4背后的技术野心

核要内容のまとめ

Gemma 4はGoogle DeepMindが発表した最新のオープンソースAIモデルであり、パラメータの規模(約300億個)は前世代と変わりませんが、E2Bアーキテクチャなどの技術革新により「単位パラメータあたりの知能密度」を大幅に向上させています。その特徴は以下の通りです:

  • 50億個のパラメータを持つモデルでも2GBのビデオメモリで端末上で動作可能(スマートフォン、Raspberry Piなど)
  • 小規模なチームが50以上のパートナーと協力してリリースを実現
  • 音声、画像、短編動画に対応するマルチモーダル機能
  • 140言語をサポート
  • 小型モデルと大型モデルの境界、微調整のトレンド、MOEアーキテクチャの長所と短所についても検討されています

全体として、Gemma 4はGoogleがオープンソースAIエコシステムおよび端末展開において行う重要な取り組みであり、AIを一般ユーザーや開発者にとってより身近なものにすることを目指しています。

1. E2Bアーキテクチャ:スマートフォンでも軽量に動作する小型モデル

Gemma 4の最も驚くべき技術はE2Bパラメータの分割であり、簡単に言えば「モデルを2つの部分に分け、よく使う部分をGPUに(高速で)、あまり使わない部分をCPUやディスクに(省スペースで)格納する」というものです。

従来のAIモデルではすべてのパラメータをGPUのビデオメモリに読み込む必要があり、小型のスマートフォンでは収容できませんでした。しかしGemma 4では50億個のパラメータのうち30億個をCPUやディスクに格納し、実際にGPUに読み込むのは20億個のよく使うパラメータのみです。これは辞書を引くときに、よく使うページだけを手元に置き、あまり使わないページは本棚に置くようなもので、スペースを節約しつつ速度も損ねません。

この設計は特に端末向けに最適化されており、例えばスマートフォンやRaspberry Piなどが対象です。しかし、より大規模なモデル(例えば1000億個のパラメータ)を構築する場合は、より高密度なアーキテクチャやMOE(Hybrid Expert)モデルが必要になります。現在、Pixelや高級なSamsungスマートフォンにプリインストールされているGemini NanoもGemma技術をベースとした端末向けモデルです。

2. 小規模なチームが50以上のパートナーをどうやって協力させたか?

Gemmaチームは非常に小規模で、製品マネージャー2~3名、マーケティング担当者1名、エンジニア、研究者がいます。しかしリリース時にはllama.cpp、Ollama、Hugging Face、Nvidiaなどの外部パートナー約50社やGoogle Cloud、Androidなどの内部チームと協力しました。

なぜこれほど多くのパートナーが必要だったのでしょうか?それはオープンソースモデルにはエコシステムのサポートが必要だからです。例えばllama.cppはモデルをコンピュータ上で動作させるためのもので、Ollamaはデプロイを簡素化し、Hugging Faceはプラットフォームを提供します。Gemma 4はAndroid Studioにも直接統合されており、開発者はAPIを介さずにオフラインでAndroidコードを書くことができます。

この取り組みの目的は、Gemma 4をスマートフォンから開発ツールまで様々なシナリオで迅速に普及させ、オープンソースエコシステムの壁を築くことです。

3. 小型モデル vs 大型モデル:知識が最後の障壁

Gemma 4は1年半前のトップクラスのクローズドソースモデル(例えばGPT-4の初期バージョン)に匹敵する性能を持ち、代理機能や関数呼び出し、対話などのタスクを実行できます。しかし大型モデル(例えばGemini)との違いは知識の保存容量です。

小型モデルのパラメータは限られており、多くの情報を記憶することができませんが、Omarによると1~2年以内にスマートフォン上でGemini 3 Proレベルのモデルを実行できるようになると予測されています。その時には、チャットやコード作成、画像処理などの日常的なタスクのほとんどがオフラインで完了できるようになり、非常に複雑なタスク(例えば長文の分析や高精度な推論)だけが大型モデルを必要とするでしょう。

つまり、小型モデルと大型モデルは代替関係ではなく、補完関係にあります。小型モデルが「日常的なタスク」を、大型モデルが「専門的なタスク」を処理します。

4. マルチモーダル + 多言語:Geminiの弟分も多彩な機能を持つ

Gemma 4はGemini 3の技術をベースにおり、音声(音声認識、テキスト変換、質問応答)、画像(物体検出、説明)、短編動画(30~60秒)に対応しています。ただし、画像分割(例えば画像から猫を抽出する)や音声と映像の同時処理(例えばビデオ視聴中に音声内容を分析する)はできません。

多言語サポートに関しては140言語を対応しており、その秘訣は分詞器がGeminiと同じく優れているからです。例えばベトナム語の微調整時にも、Gemmaの分詞器は言語の細かいニュアンスをより正確に捉えることができます。

5. 微調整はもはや必要ない?MOEモデルの利点と問題点

以前は多くの人がモデルの微調整(汎用モデルに業界データを追加する)を好んでいましたが、現在ではGemma 4のプリインストールされた状態でも十分な性能があります。そのため、多くのパートナーは視覚モデルの微調整を計画していましたが、実際には微調整なしで問題ありませんでした。金融や医療など特定の分野では微調整が必要です。

また、Gemmaには2つのサイズの異なるモデルがあります:31Bの高密度モデル(すべてのパラメータを使用)と27BのMOEモデル(一部のパラメータのみを活性化)。MOEモデルは推論速度が速いですが、微調整が非常に困難です。なぜなら「ルーティングメカニズム」(どのパラメータを使用するか)がパラメータの更新に影響を与えるため、多くの変数を調整する必要があるからです。

現在のトレンドとしては、汎用タスクには既存のモデルを使用し、特定のタスクにのみ微調整を行うことが一般的です。MOEは速度を追求するシナリオに適していますが、専門的な技術が必要です。

まとめ

Gemma 4のリリースは、GoogleがオープンソースAIおよび端末展開において行う「次元削減」の一環であり、強力なAIモデルを一般ユーザーのスマートフォン上で動作させると同時に、エコシステムの協力によって利用ハードルを下げるものです。今後1~2年以内にスマートフォンが中型モデルを実行できるようになれば、私たちの日常体験(オフラインAIアシスタントやローカル画像処理など)は大きく変わるでしょう。GoogleはGemmaシリーズを通じてオープンソースAIエコシステムの優位性を確立し、クローズドソースモデル(例えばGPT-4)と差別化された競争を行っています。