虎嗅

Gemma4已经追平一年半前的顶尖闭源模型：50亿参数模型只需2GB显存，Gemma4背后的技术野心

2026-06-03 阅读原文

核心内容总结

Gemma 4是Google DeepMind推出的最新开源AI模型，虽然参数规模（约300亿）和上一代持平，但通过技术创新（如E2B架构）大幅提升了“单位参数智能密度”。它的亮点包括：50亿参数模型仅需2GB显存即可端侧运行（手机、树莓派等）；小团队协调50+合作伙伴完成发布；多模态能力覆盖音频、图片、短视频；多语言支持140种语言；同时探讨了小模型与大模型的边界、微调趋势、MOE架构的优缺点等。整体来看，Gemma 4是Google在开源AI生态和端侧部署上的重要布局，目标是让AI更贴近普通用户和开发者。

一、E2B架构：让小模型在手机上“轻装上阵”

Gemma 4最惊艳的技术是E2B参数卸载，简单说就是“把模型拆成两部分，常用的放GPU（快），不常用的放CPU或磁盘（省空间）”。

传统AI模型运行时，所有参数都要加载到GPU显存里，导致小手机根本装不下。但Gemma 4的50亿参数模型，实际只需要2GB显存——因为它把30亿参数“存起来”（放CPU或磁盘），只把20亿最常用的参数加载到GPU。这就像你查字典时，只把常用字页放在手边，不常用的放书架上，既省空间又不影响速度。

不过这个设计是专门为端侧优化的，比如手机、树莓派。如果要做大型模型（比如千亿参数），还是得用更密集的架构或MOE（混合专家）模型。现在Pixel或高端三星手机预装的Gemini Nano，就是基于Gemma技术的端侧模型，用户开箱就能用。

二、小团队如何搞定50+合作伙伴？

Gemma团队其实很小：2-3个产品经理、1个市场人员，加上工程师和研究员。但发布时却协调了近50个外部伙伴（比如llama.cpp、Ollama、Hugging Face、Nvidia等）和内部团队（Google Cloud、Android等）。

为什么要这么多伙伴？因为开源模型需要生态支持：比如llama.cpp让模型能在电脑上跑，Ollama简化部署，Hugging Face提供平台。Gemma 4还直接集成到Android Studio里——开发者可以用它离线写Android代码，不用连API。

这个操作的核心是Google想让Gemma 4快速渗透到各个场景：从手机到开发工具，让更多人用起来，建立开源生态壁垒。

三、小模型vs大模型：知识是最后一道“墙”

Gemma 4已经追平一年半前的顶尖闭源模型（比如GPT-4早期版本），能做代理、函数调用、对话等任务。但它和大模型（比如Gemini）的差距在哪里？知识存储。

小模型的参数有限，没法记住太多事实（比如某个国家25年前的总统是谁），而大模型能存更多信息。不过Omar预测：1-2年内，手机就能本地运行Gemini 3 Pro级别的模型（相当于现在的中大型模型）。到时候，大部分日常任务（比如聊天、写代码、处理图片）都能在手机上离线完成，只有超级复杂的任务（比如长文档分析、高精度推理）才需要大模型。

所以小模型大模型不是替代关系，而是互补：小模型管“日常”，大模型管“专业”。

四、多模态+多语言：Gemini的“小老弟”也能玩花样

Gemma 4基于Gemini 3的技术，支持多模态：能理解音频（语音识别、转文字、提问）、图片（物体检测、描述）、短视频（30-60秒）。不过还有短板：不能做图像分割（比如把图片里的猫单独抠出来），也不能同时处理视频和音频（比如看视频时分析声音内容）。

多语言方面，Gemma支持140种语言，秘诀是它的分词器（把文字拆成模型能懂的小单元）和Gemini用的一样优秀。比如微调越南语时，Gemma的分词器能更准确捕捉语言细节，效果比其他模型好。

五、微调不香了？MOE模型的“甜蜜与烦恼”

过去大家都爱微调模型（给通用模型加行业数据），但现在Gemma 4开箱即用的效果已经很好，很多合作伙伴本来计划微调视觉模型，结果发现不用调也够用。只有金融、医疗等特定领域还需要微调。

另外，Gemma有两个相近尺寸的模型：31B稠密模型（所有参数都用）和27B MOE模型（只激活部分参数）。MOE模型推理速度快，但微调特别难——因为它的“路由机制”（选哪个部分参数工作）会影响参数更新，需要调整很多变量（比如激活多少专家、是否冻结路由器）。

所以现在的趋势是：通用任务用现成模型，特定任务才微调；MOE适合追求速度的场景，但需要专业技术才能用好。

结语

Gemma 4的发布，本质上是Google在开源AI和端侧部署上的一次“降维打击”——让强大的AI模型能跑到普通人的手机里，同时通过生态合作降低使用门槛。未来1-2年，当手机能运行中大型模型时，我们的日常体验（比如离线AI助手、本地图片处理）会发生很大变化。而Google通过Gemma系列，正在抢占开源AI的生态高地，和闭源模型（比如GPT-4）形成差异化竞争。