虎嗅

Gemma4 hat nun das Spitzenmodell aus dem Jahr und einer halben Zeit erreicht: Ein Modell mit 5 Milliarden Parametern benötigt nur 2 GB Arbeitsspeicher. Die technischen Ambitionen hinter Gemma4 sind beeindruckend.

原文：Gemma4已经追平一年半前的顶尖闭源模型：50亿参数模型只需2GB显存，Gemma4背后的技术野心

2026-06-03 阅读原文

Zusammenfassung der Kerninhalte

Gemma 4 ist das neueste Open-Source-AI-Modell von Google DeepMind. Obwohl die Anzahl der Parameter (ca. 30 Milliarden) mit der vorherigen Generation identisch ist, wurde die „Intelligenzdichte pro Parameter“ durch technologische Innovationen (wie das E2B-Design) erheblich verbessert. Zu den Highlights gehören: Ein Modell mit 5 Milliarden Parametern benötigt nur 2 GB Speicher, um auf Endgeräten wie Smartphones oder Raspberry Pi ausgeführt zu werden; eine kleine Teamgruppe koordinierte die Zusammenarbeit mit über 50 Partnern für die Veröffentlichung; die multimodale Fähigkeit umfasst Audio, Bilder und kurze Videos; Unterstützung von 140 Sprachen; sowie Diskussionen zur Grenze zwischen kleinen und großen Modellen, zu Trends in der Feinabstimmung (Fine-Tuning) und zu den Vor- und Nachteilen des MOE-Designs. Insgesamt stellt Gemma 4 eine wichtige Strategie von Google im Bereich Open-Source-AI und der Bereitstellung auf Endgeräten dar, mit dem Ziel, AI näher an normale Nutzer und Entwickler zu bringen.

I. Das E2B-Design: Kleine Modelle für Smartphones

Die beeindruckendste Technologie von Gemma 4 ist das E2B-Parameter-Layout – im Grunde wird das Modell in zwei Teile aufgeteilt: Die häufig genutzten Parameter werden auf der GPU gespeichert (schnell), die seltener verwendeten auf der CPU oder Festplatte (platzsparend).

Bei herkömmlichen AI-Modellen müssen alle Parameter in den GPU-Speicher geladen werden, was bei kleinen Smartphones oft nicht möglich ist. Gemma 4 benötigt jedoch nur 2 GB Speicher, da 3 Milliarden Parameter auf der CPU oder Festplatte gespeichert und lediglich 2 Milliarden der am häufigsten genutzten Parameter auf die GPU geladen werden. Das ähnelt dem Vorgang beim Nachschlagen in einem Wörterbuch: Nur die häufig verwendeten Seiten liegen griffbereit, die selteneren auf dem Regal – so wird Platz gespart und die Geschwindigkeit nicht beeinträchtigt.

Dieses Design ist speziell für Endgeräte wie Smartphones oder Raspberry Pi optimiert. Für größere Modelle (mit mehr als 100 Milliarden Parametern) sind jedoch andere Architekturen oder MOE-Modelle (Mixed Expert Models) erforderlich. Das bereits in Pixel-Smartphones sowie hochwertigen Samsung-Geräten vorinstallierte Gemini Nano basiert auf Gemma-Technologie und kann direkt verwendet werden.

II. Wie eine kleine Teamgruppe mehr als 50 Partner koordinieren konnte?

Das Gemma-Team besteht aus nur 2–3 Produktmanagern, einem Marketingsmitarbeiter sowie Ingenieuren und Forschern. Dennoch wurden bei der Veröffentlichung fast 50 externe Partner (wie llama.cpp, Ollama, Hugging Face, Nvidia) sowie interne Teams (Google Cloud, Android) eingebunden.

Warum so viele Partner? Weil Open-Source-Modelle eine umfassende Unterstützung durch die Community benötigen: llama.cpp ermöglicht die Ausführung des Modells auf Computern, Ollama vereinfacht die Bereitstellung, und Hugging Face stellt die notwendige Plattform bereit. Gemma 4 wurde sogar direkt in Android Studio integriert – Entwickler können damit offline Android-Code schreiben, ohne auf APIs angewiesen zu sein.

Der Kern dieser Strategie ist es, dass Google möchte, dass Gemma 4 schnell in verschiedene Anwendungsszenarien eingeführt wird, um die Nutzung durch eine breite Nutzerbasis zu fördern und so Barrieren im Open-Source-AI-Ecosystem zu überwinden.

III. Kleine Modelle vs. große Modelle: Wissen als letzte Hürde

Gemma 4 hat die Leistung führender, geschlossener Modelle (wie frühe Versionen von GPT-4) bereits erreicht und kann Aufgaben wie Funktionenaufrufe oder Gespräche durchführen. Der Unterschied zu großen Modellen liegt jedoch im Speicherverbrauch für Wissen: Kleine Modelle können nur begrenzte Mengen an Informationen speichern, während große Modelle viel mehr Daten halten können. Omar prognostiziert jedoch, dass in 1–2 Jahren auch kleine Smartphones Modelle auf dem Niveau von Gemini 3 Pro ausführen werden können. Dann könnten die meisten alltäglichen Aufgaben (Chatten, Code-Verfassen, Bildbearbeitung) offline auf Smartphones abgewickelt werden – nur sehr komplexe Aufgaben (z. B. Analyse langer Dokumente, hochpräzise Schlussfolgerungen) würden weiterhin große Modelle erfordern.

Kleine und große Modelle sind daher nicht als Ersatz füreinander gedacht, sondern ergänzen sich: Kleine Modelle kümmern sich um alltägliche Aufgaben, große Modelle um spezialisierte Anwendungen.

IV. Multimodalität + Mehrsprachigkeit: Auch „kleine Brüder“ von Gemini können viel leisten

Gemma 4 basiert auf der Technologie von Gemini 3 und unterstützt mehrere Modalitäten (Audio, Bildern, Videos). Allerdings gibt es noch Verbesserungspotenziale – beispielsweise bei der Trennung von Bildelementen oder der gleichzeitigen Verarbeitung von Video und Audio.

In Bezug auf die Sprachunterstützung verfügt Gemma über 140 Sprachen; das liegt an einem hochwertigen Tokenizer, der den Text in Einheiten aufteilt, die das Modell verstehen kann. Bei der Feinabstimmung für vietnamesische Sprache erzielte Gemma bessere Ergebnisse als andere Modelle.

V. Ist Fine-Tuning noch relevant? Die Vor- und Nachteile von MOE-Modellen

Früher wurde gerne mit Fine-Tuning gearbeitet, um allgemeine Modelle mit spezifischen Daten zu optimieren. Doch da Gemma 4 bereits bei der Auslieferung eine sehr gute Leistung bietet, benötigen viele Partner keine weitere Feinabstimmung mehr. Nur in bestimmten Bereichen wie Finanzen oder Medizin ist Fine-Tuning weiterhin erforderlich.

Zudem verfügt Gemma über zwei ähnliche Modelle: Ein dichtes Modell mit 31 Milliarden Parametern und ein MOE-Modell mit 27 Milliarden Parametern, bei dem nur eine Teilmenge der Parameter aktiviert wird. MOE-Modelle sind schnell beim Ausführen, doch die Feinabstimmung ist schwierig – insbesondere aufgrund des komplexen „Routing-Mechanismus“ (Wahl der zu aktivernden Parameter).

Der Trend zeigt daher hin zu den Nutzung von fertigen Modellen für allgemeine Aufgaben und nur noch zur Feinabstimmung spezifischer Anwendungen. MOE-Modelle eignen sich besonders für Situationen, in denen Geschwindigkeit wichtig ist – allerdings erfordern sie spezielles Fachwissen.

Fazit

Die Veröffentlichung von Gemma 4 stellt einen wichtigen Schritt von Google im Bereich Open-Source-AI und der Bereitstellung auf Endgeräte dar. Sie macht starke AI-Modelle für normale Nutzer zugänglich und senkt gleichzeitig die Hürden für deren Nutzung durch Zusammenarbeit mit der Community. In den nächsten 1–2 Jahren werden sich unsere alltäglichen Erfahrungen (z. B. Offline-AI-Hilfen, lokale Bildverarbeitung) erheblich verändern. Durch die Gemma-Serie versucht Google, eine führende Position im Open-Source-AI-Ecosystem zu erobern und sich von geschlossenen Modellen wie GPT-4 abzugrenzen.