虎嗅

Gemma4 a rattrapé les modèles fermés de pointe d'il y a un an et demi : un modèle à 5 milliards de paramètres ne nécessite que 2 Go de mémoire vidéo, révélant l'ambition technologique de Gemma4.

原文：Gemma4已经追平一年半前的顶尖闭源模型：50亿参数模型只需2GB显存，Gemma4背后的技术野心

2026-06-03 阅读原文

Résumé des principaux points

Gemma 4 est le dernier modèle d'IA open source lancé par Google DeepMind. Bien que sa taille de paramètres (environ 30 milliards) soit similaire à celle de la génération précédente, il a été considérablement amélioré grâce à des innovations technologiques (comme l'architecture E2B), ce qui augmente la « densité d'intelligence par paramètre ». Parmi ses points forts, on peut citer : un modèle de 5 milliards de paramètres qui ne nécessite que 2 Go de mémoire vidéo pour fonctionner sur des appareils portables (téléphones, Raspberry Pi, etc.); une équipe réduite ayant coordonné le travail de plus de 50 partenaires pour sa sortie; des capacités multimodales couvrant l'audio, les images et les vidéos courtes; un support multilingue de 140 langues; ainsi que des discussions sur les limites entre les petits et les grands modèles, les tendances de fine-tuning et les avantages et inconvénients de l'architecture MOE. Dans son ensemble, Gemma 4 représente une étape importante dans la stratégie de Google pour l'IA open source et le déploiement sur des appareils mobiles, avec pour objectif de rapprocher l'IA des utilisateurs et des développeurs ordinaires.

I. L'architecture E2B : permettre aux petits modèles de fonctionner sur les téléphones

La technologie la plus remarquable de Gemma 4 est l'évacuation des paramètres via l'architecture E2B, qui consiste à diviser le modèle en deux parties : ceux utilisés fréquemment sont stockés sur la GPU (plus rapide) et les autres moins fréquents sur la CPU ou le disque (pour économiser de l'espace). Auparavant, tous les paramètres d'un modèle d'IA devaient être chargés dans la mémoire vidéo de la GPU, ce qui rendait impossible leur installation sur des téléphones de petite taille. Avec Gemma 4, le modèle de 5 milliards de paramètres ne nécessite que 2 Go de mémoire vidéo, car 3 milliards de paramètres sont stockés sur la CPU ou le disque, et seuls 2 milliards les plus utilisés sont chargés dans la GPU. C'est un peu comme garder à portée de main les mots les plus fréquents lors d'une recherche dans un dictionnaire, tout en laissant les autres sur l'étagère, ce qui économise de l'espace sans ralentir les performances.

Cependant, cette architecture a été conçue spécifiquement pour les appareils portables et les petits systèmes comme le Raspberry Pi. Pour des modèles plus complexes (comme ceux de 100 milliards de paramètres), il faut recourir à des architectures plus densées ou à des modèles MOE (Mixed Expert). Le Gemini Nano préinstallé sur certains smartphones Pixel ou des téléphones Samsung haut de gamme est basé sur la technologie Gemma et peut être utilisé immédiatement après l'achat.

II. Comment une petite équipe a-t-elle pu coordonner le travail de plus de 50 partenaires ?

L'équipe de Gemma est plutôt réduite : 2 à 3 chefs de produit, un responsable des ventes, ainsi que des ingénieurs et des chercheurs. Pourtant, elle a réussi à coordonner le travail de près de 50 partenaires externes (tels que llama.cpp, Ollama, Hugging Face, Nvidia) et d'équipes internes (Google Cloud, Android). Pourquoi autant de partenaires ? Parce que les modèles open source nécessitent un écosystème soutenant leur utilisation : llama.cpp permet de faire fonctionner le modèle sur ordinateur, Ollama simplifie le déploiement, et Hugging Face fournit une plateforme. Gemma 4 a également été intégré directement dans Android Studio, permettant aux développeurs d'écrire du code Android hors ligne sans avoir besoin d'accéder à des API. L'objectif de Google est que Gemma 4 se répande rapidement dans diverses applications, des téléphones aux outils de développement, afin de construire une barrière écologique pour l'IA open source.

III. Petits modèles vs grands modèles : les connaissances en sont la dernière limite

Gemma 4 a atteint un niveau comparable à celui des meilleurs modèles fermés d'il y a un an et demi (comme les premières versions de GPT-4) et peut effectuer des tâches telles que l'interprétation de données, les appels de fonctions et les conversations. Mais qu'est-ce qui le distingue des grands modèles comme Gemini ? La capacité de stockage des connaissances. Les petits modèles ont des limites en termes de mémoire, ce qui les empêche de retenir une grande quantité d'informations (par exemple, le nom du président d'un pays il y a 25 ans). Cependant, Omar prédit que dans un à deux ans, les téléphones pourront exécuter des modèles au niveau de Gemini 3 Pro, ce qui permettra d'accomplir la plupart des tâches quotidiennes (chat, écriture de code, traitement d'images) hors ligne. Seuls les travaux extrêmement complexes (analyse de documents longs, raisonnement de haute précision) nécessiteront encore des grands modèles. En somme, petits et grands modèles ne sont pas en compétition directe, mais se complètent : les petits modèles s'occupent des tâches quotidiennes et les grands modèles des tâches plus spécialisées.

IV. Multimodalité + multilingue : même le “petit frère” de Gemini a ses atouts

Gemma 4, basé sur la technologie Gemini 3, offre des capacités multimodales : il comprend l'audio (reconnaissance vocale, transcription en texte, questions), les images (détecteur d'objets, description) et les vidéos courtes (durée de 30 à 60 secondes). Cependant, il a encore des limites : il ne peut pas effectuer de segmentation d'images (par exemple, isoler un chat dans une image) ni traiter en même temps de l'audio et de la vidéo. En termes de multilingue, Gemma prend en charge 140 langues, grâce à un séparateur de mots performant, similaire à celui utilisé par Gemini. Par exemple, lors du fine-tuning pour le vietnamien, son séparateur de mots capture plus précisément les nuances linguistiques.

V. Le fine-tuning n'est plus nécessaire ? Les avantages et les inconvénients des modèles MOE

Auparavant, le fine-tuning des modèles était très populaire (en ajoutant des données spécifiques à un modèle généraliste). Mais avec les performances de Gemma 4 qui sont déjà excellentes dès l'achat, de nombreux partenaires ont décidé que le fine-tuning n'était pas nécessaire. Seuls certains domaines comme la finance et la santé nécessitent encore ce processus. De plus, Gemma dispose de deux versions similaires en taille : un modèle dense de 31 milliards de paramètres et un modèle MOE de 27 milliards de paramètres (seulement une partie des paramètres est activée). Les modèles MOE sont rapides en traitement, mais le fine-tuning est particulièrement difficile à mettre en œuvre car leur mécanisme de sélection des paramètres affecte l'ajustement du modèle. Aujourd'hui, la tendance est d'utiliser des modèles prêts à l'emploi pour les tâches générales et de ne faire appel au fine-tuning que pour des cas spécifiques. Les modèles MOE sont adaptés aux scénarios où la vitesse est cruciale, mais leur utilisation requiert des compétences techniques avancées.

Conclusion

La sortie de Gemma 4 marque une étape importante dans l'approche de Google en matière d'IA open source et de déploiement sur des appareils mobiles : elle permet aux modèles d'IA puissants de fonctionner sur des téléphones ordinaires tout en abaissant les barrières à leur utilisation grâce à la collaboration avec l'écosystème. Dans les 1 à 2 ans à venir, lorsque les téléphones pourront exécuter des modèles de taille moyenne à grande, notre expérience quotidienne (assistants d'IA hors ligne, traitement d'images) en sera profondément transformée. Google, avec sa série Gemma, s'efforce de prendre une position dominante dans l'écosystème de l'IA open source et de se différencier des modèles fermés comme GPT-4.