虎嗅

Gemma4 ha alcanzado el nivel de los modelos cerrados más avanzados de hace un año y medio: un modelo con 5 mil millones de parámetros que requiere solo 2 GB de memoria gráfica. La ambición tecnológica detrás de Gemma4… (“Gemma4 has reached the level of the most advanced closed-source models from a year and a half ago: a model with 5 billion parameters that requires only 2 GB of graphics memory. The technological ambition behind Gemma4…”)

原文：Gemma4已经追平一年半前的顶尖闭源模型：50亿参数模型只需2GB显存，Gemma4背后的技术野心

2026-06-03 阅读原文

Resumen del contenido principal

Gemma 4 es el último modelo de IA open source lanzado por Google DeepMind. Aunque su tamaño de parámetros (alrededor de 30 mil millones) es similar al de la generación anterior, ha mejorado significativamente la “densidad de inteligencia por parámetro” gracias a innovaciones tecnológicas como la arquitectura E2B. Entre sus principales características se encuentran: un modelo de 5 mil millones de parámetros que requiere solo 2 GB de memoria gráfica para funcionar en dispositivos móviles, Raspberry Pi, etc.; un equipo pequeño que coordinó el trabajo con más de 50 partners para su lanzamiento; capacidad multimodal que abarca audio, imágenes y videos cortos; soporte para 140 idiomas; y un análisis de las fronteras entre modelos pequeños y grandes, las tendencias en el microajuste (fine-tuning) y las ventajas y desventajas de la arquitectura MOE. En general, Gemma 4 representa una importante estrategia de Google en el ecosistema de IA open source y su implementación en dispositivos móviles, con el objetivo de acercar la IA a usuarios y desarrolladores comunes.

I. Arquitectura E2B: Permitiendo que modelos pequeños funcionen en dispositivos móviles

La tecnología más impresionante de Gemma 4 es la desinstalación de parámetros E2B, que consiste en dividir el modelo en dos partes: los parámetros más utilizados se almacenan en la GPU (lo que mejora la velocidad) y los menos utilizados, en la CPU o el disco (ahorrando espacio). En los modelos de IA tradicionales, todos los parámetros deben cargarse en la memoria gráfica de la GPU, lo que hace imposible su ejecución en dispositivos móviles de pequeño tamaño. Sin embargo, el modelo de 5 mil millones de parámetros de Gemma 4 solo necesita 2 GB de memoria gráfica, ya que almacena 3 mil millones de parámetros en la CPU o el disco y carga únicamente los 2000 millones más utilizados en la GPU. Es como tener a mano las páginas del diccionario que más usamos y dejar las menos frecuentes en el estante, lo que ahorra espacio sin afectar la velocidad. Este diseño está optimizado específicamente para dispositivos móviles y similares. Para modelos de mayor tamaño (con miles de millones de parámetros), se necesitan arquitecturas más densas o modelos MOE (Mixed Expert). El Gemini Nano preinstalado en teléfonos Pixel y Samsung de alta gama utiliza tecnología Gemma y está listo para usar al momento del desempaque.

II. Cómo un pequeño equipo logró la colaboración con más de 50 partners

El equipo de Gemma es bastante reducido: 2-3 gerentes de producto, 1 profesional de marketing, junto con ingenieros e investigadores. No obstante, coordinaron el lanzamiento con casi 50 partners externos (como llama.cpp, Ollama, Hugging Face, Nvidia) y equipos internos (Google Cloud, Android, etc.). ¿Por qué tantos partners? Porque los modelos open source necesitan un ecosistema de soporte: llama.cpp permite que el modelo funcione en ordenadores, Ollama simplifica su implementación y Hugging Face proporciona una plataforma. Gemma 4 también se integra directamente en Android Studio, lo que permite a los desarrolladores escribir código Android sin necesidad de conectar a APIs. El objetivo de Google es que Gemma 4 se difunda rápidamente en diversos entornos, desde dispositivos móviles hasta herramientas de desarrollo, para crear una barrera ecológica strong en el ámbito de la IA open source.

III. Modelos pequeños vs grandes: El conocimiento es la última barrera

Gemma 4 ha alcanzado el nivel de los modelos cerrados más avanzados de hace un año y medio (como las primeras versiones de GPT-4) y puede realizar tareas como la representación de funciones, llamadas a funciones y conversaciones. Pero ¿cuál es la diferencia con los modelos grandes (como Gemini)? La capacidad de almacenamiento de conocimiento. Los modelos pequeños tienen un número limitado de parámetros y no pueden recordar demasiada información (por ejemplo, quién era el presidente de un país hace 25 años), mientras que los modelos grandes pueden almacenar más datos. Sin embargo, Omar predice que en 1-2 años los teléfonos móviles podrán ejecutar modelos del nivel de Gemini 3 Pro. En ese momento, la mayoría de las tareas diarias (como charlar, escribir código, procesar imágenes) se podrán realizar sin conexión en el dispositivo móvil, y solo las tareas extremadamente complejas (como análisis de documentos extensos o inferencias de alta precisión) requerirán modelos grandes. Por lo tanto, los modelos pequeños y grandes no son competidores, sino complementarios: los primeros se encargan de las tareas cotidianas y los segundos, de las tareas especializadas.

IV. Multimodalidad + soporte para múltiples idiomas: El “hermano menor” de Gemini también tiene sus ventajas

Gemma 4 se basa en la tecnología de Gemini 3 y ofrece soporte multimodal: puede comprender audio (reconocimiento de voz, transcripción de texto, preguntas), imágenes (detección de objetos, descripciones) y videos cortos (de 30-60 segundos). Sin embargo, todavía tiene limitaciones: no puede realizar segmentación de imágenes (por ejemplo, separar a un gato de una imagen) ni procesar simultáneamente audio y video. En cuanto al soporte para idiomas, Gemma admite 140 idiomas, gracias a un analizador de texto excelente que permite dividir el texto en unidades comprensibles para el modelo. Por ejemplo, al microajustar el modelo para el vietnamés, su analizador de texto captura con mayor precisión los detalles del idioma, obteniendo mejores resultados que otros modelos.

V. ¿El microajuste ya no es necesario? Los pros y contras de los modelos MOE

Anteriormente, todos preferían microajustar los modelos (añadiendo datos específicos de cada industria), pero ahora el rendimiento de Gemma 4 es tan bueno que muchos partners descubrieron que no es necesario realizar ajustes adicionales. Solo campos específicos como la finanza y la medicina aún requieren microajuste. Además, Gemma cuenta con dos modelos de tamaño similar: un modelo denso de 31 mil millones de parámetros y un modelo MOE de 27 mil millones de parámetros (que activa solo una parte de ellos). Los modelos MOE son rápidos en la ejecución, pero su microajuste es particularmente difícil, ya que el “mecanismo de enrutamiento” (selección de los parámetros a activar) afecta el proceso de actualización y requiere ajustes detallados. La tendencia actual es usar modelos predefinidos para tareas generales y realizar microajustes solo para casos específicos; los modelos MOE son adecuados para escenarios que demandan velocidad, pero requieren conocimientos técnicos avanzados.

Conclusión

El lanzamiento de Gemma 4 representa un avance significativo en la estrategia de Google para el ecosistema de IA open source y su implementación en dispositivos móviles, al permitir que modelos de IA potentes funcionen en teléfonos comunes y reducir las barreras de uso a través de la colaboración con otros desarrolladores. En los próximos 1-2 años, cuando los teléfonos puedan ejecutar modelos de tamaño mediano y grande, nuestras experiencias diarias (como asistentes virtuales sin conexión o procesamiento local de imágenes) cambiarán drásticamente. Google, a través de su serie Gemma, está buscando establecer una posición dominante en el ecosistema de IA open source y diferenciarse de los modelos cerrados (como GPT-4).