虎嗅

Гемма4 уже догнал лучшие закрытые модели, существовавшие полтора года назад: модель с 5 миллиардами параметров требует всего 2 ГБ видеопамяти. Каковы технологические амбиции, стоящие за Гемма4?

原文：Gemma4已经追平一年半前的顶尖闭源模型：50亿参数模型只需2GB显存，Gemma4背后的技术野心

2026-06-03 阅读原文

Краткое содержание анализа

Gemma 4 — это новая открытая модель искусственного интеллекта, разработанная компанией Google DeepMind. Хотя количество параметров (около 30 миллиардов) соответствует предыдущему поколению, благодаря технологическим инновациям (в частности, архитектуре E2B) была значительно повышена «интеллектуальная плотность на единицу параметра». Среди особенностей модели следует отметить: модель с 5 миллиардами параметров может работать в режиме офлайн на устройствах с ограниченными ресурсами (телефоны, Raspberry Pi) при использовании всего 2 ГБ видеопамяти; разработку модели координировала небольшая команда в сотрудничестве с более чем 50 партнерами; многомодальные возможности модели охватывают аудио, изображения и короткие видео; поддержка 140 языков. Также обсуждаются вопросы границ между малыми и большими моделями, тенденции их тонкой настройки, а также преимущества и недостатки архитектуры MOE. В целом, Gemma 4 представляет собой важный шаг Google в развитии открытого сообщества ИИ и распространении технологий на мобильных устройствах с целью сделать ИИ более доступным для обычных пользователей и разработчиков.

I. Архитектура E2B: как малые модели могут работать на мобильных устройствах

Самой впечатляющей технологией Gemma 4 является архитектура E2B (Parameter Offloading to GPU/CPU), которая позволяет разделить модель на две части: часть с часто используемыми параметрами загружается в GPU для быстрого выполнения вычислений, а часть с реже используемыми параметрами — в CPU или на диск, что экономит место.

В традиционных ИИ-моделях все параметры загружаются в видеопамять GPU, из-за чего малые устройства не могут их использовать. Однако модель Gemma 4 с 5 миллиардами параметров требует всего 2 ГБ видеопамяти: 30 миллиардов параметров хранятся на диске, а в GPU загружаются только 20 миллиардов наиболее востребованных. Это похоже на использование словаря, при котором часто используемые статьи находятся под рукой, а редкие — на полке, что экономит место и не снижает скорость работы.

Такая архитектура специально разработана для устройств с ограниченными ресурсами (телефоны, Raspberry Pi). Для больших моделей (с несколькими триллионами параметров) все еще требуются более эффективные архитектуры или модели типа MOE (Mixed Expert Models). Например, предустановленная в смартфонах Pixel и высококлассных смартфонах Samsung модель Gemini Nano основана на технологиях Gemma и может использоваться сразу после распаковки.

II. Как небольшая команда смогла сотрудничать с более чем 50 партнерами?

Команда, работавшая над Gemma, состояла из 2–3 менеджеров по продукту, 1 специалиста по маркетингу, а также инженеров и исследователей. Однако для выпуска модели было необходимо сотрудничество со значительным количеством внешних партнеров (llama.cpp, Ollama, Hugging Face, Nvidia) и внутренних подразделений Google (Google Cloud, Android).

Почему так много партнеров? Потому что открытые ИИ-модели требуют поддержки со стороны всего сообщества: например, llama.cpp обеспечивает работу модели на компьютерах, Ollama упрощает ее развертывание, а Hugging Face предоставляет необходимые платформы. Gemma 4 также интегрирована в Android Studio, что позволяет разработчикам писать код для Android в режиме офлайн без использования API.

Главная цель Google — быстрое распространение модели Gemma в различных сценариях использования, чтобы больше людей могли ею пользоваться и тем самым укрепить открытое сообщество ИИ.

III. Малые модели против больших: знания — последняя преграда

Gemma 4 уже сопоставима по производительности с лучшими закрытыми моделями (например, ранними версиями GPT-4) и может выполнять такие задачи, как обработка текста, вызовы функций и ведение диалогов. Однако существует разница между ними: большие модели обладают большим объемом знаний. Однако, по прогнозам, через 1–2 года малые модели смогут работать на уровне моделей типа Gemini Pro (сотни миллиардов параметров). Тогда большинство повседневных задач (чаты, программирование, обработка изображений) будут возможны в режиме офлайн на мобильных устройствах, а только сложные задачи (анализ длинных документов, высокоточные расчеты) потребуют использования больших моделей.

Таким образом, малые и большие модели не заменяют друг друга, а дополняют друг друга: малые модели используются для решения повседневных задач, а большие — для специализированных.

IV. Многомодальность и мультиязычность: Gemma 4 расширяет возможности Gemini

Gemma 4 основана на технологиях Gemini 3 и поддерживает многомодальные функции: распознавание речи, преобразование текста в изображения, обработка изображений (обнаружение объектов, описание), а также анализ коротких видео (длительностью 30–60 секунд). Однако у модели есть недостатки: она не может выполнять сложные операции с изображениями (например, выделение отдельных объектов) и одновременно обрабатывать аудио и видео.

Поддержка 140 языков достигается благодаря качественному сегментатору текста, который позволяет модели эффективно работать с разными языками. Например, при тонкой настройке модели для вьетнамского языка сегментатор демонстрирует лучшие результаты по сравнению с другими моделями.

V. Тонкая настройка становится менее важной: преимущества и сложности архитектуры MOE

Раньше разработчики часто использовали технологию тонкой настройки (微调) для улучшения производительности моделей, добавляя специфические данные для конкретных областей. Однако с выпуском Gemma 4 эффект от такой настройки стал менее заметным, поскольку модель уже работает хорошо изначально. Многие партнеры, планировавшие тонкую настройку визуальных моделей, обнаружили, что это не требуется. Только в специфических областях (финансы, медицина) тонкая настройка все еще необходима.

Кроме того, у Gemma существуют две модели с похожим размером параметров: плотная модель объемом 31 миллиард и модель типа MOE с 27 миллиардами параметров. Модели типа MOE работают быстрее, но их настройка сложна из-за особенностей архитектуры (выбор параметров для выполнения определенных операций).

Современная тенденция заключается в использовании готовых моделей для общих задач и тонкой настройки только в специфических случаях. Архитектура MOE подходит для сценариев, требующих высокой скорости выполнения, но ее использование требует профессиональных знаний.

Заключение

Выпуск Gemma 4 является важным шагом Google в развитии открытого сообщества ИИ и распространении технологий на мобильных устройствах. Эта модель позволяет сделать ИИ более доступным для обычных пользователей, снижая при этом порог входа в эту область. Благодаря интеграции и сотрудничеству со множеством партнеров модель быстро стала популярной среди разработчиков и пользователей.