虎嗅

Gemma4, 1년 반 전의 최고 수준인 폐쇄형 모델을 따라잡다: 50억 개의 파라미터를 가진 모델이 단 2GB의 비디오 메모리만으로 구동된다 – Gemma4의 기술적 야망

原文：Gemma4已经追平一年半前的顶尖闭源模型：50亿参数模型只需2GB显存，Gemma4背后的技术野心

2026-06-03 阅读原文

핵심 내용 요약

Gemma 4는 Google DeepMind가 출시한 최신 오픈소스 AI 모델로, 파라미터 규모(약 300억 개)는 이전 세대와 동일하지만 E2B 아키텍처와 같은 기술 혁신을 통해 “단위 파라미터당 지능 밀도”를 크게 향상시켰습니다. 주요 특징은 다음과 같습니다:

50억 개의 파라미터를 가진 모델이 단 2GB의 비디오 메모리만으로도 모바일 기기(스마트폰, 라즈베리파이 등)에서 실행됩니다.
소규모 팀이 50개 이상의 파트너와 협력하여 출시를 완료했습니다.
오디오, 이미지, 짧은 동영상을 처리하는 다중 모달 기능을 갖추고 있습니다.
140개 언어를 지원합니다.
소형 모델과 대형 모델의 경계, 미세 조정 추세, MOE(Mixed Expert) 아키텍처의 장단점에 대해서도 논의했습니다.

전반적으로 Gemma 4는 Google이 오픈소스 AI 생태계와 모바일 환경에서의 배포를 강화하기 위한 중요한 시도로, 일반 사용자와 개발자에게 AI를 더 가깝게 만드는 것을 목표로 합니다.

1. E2B 아키텍처: 소형 모델의 모바일 환경에서의 효율적인 사용

Gemma 4의 가장 놀라운 기술은 E2B 파라미터 분리로, 간단히 말해 “모델을 두 부분으로 나누어 자주 사용하는 부분은 GPU에, 자주 사용하지 않는 부분은 CPU나 디스크에 저장함”으로써 공간과 성능을 효율적으로 활용합니다.

기존 AI 모델은 모든 파라미터를 GPU 비디오 메모리에 로드해야 하므로 소형 모바일 기기에서는 실행이 어려웠지만, Gemma 4의 50억 개 파라미터 모델은 실제로 2GB의 비디오 메모리만으로도 충분합니다. 이는 사전에 자주 사용하는 정보만을 활용하고 나머지는 저장함으로써 공간과 속도를 동시에 개선한 것입니다.

이러한 설계는 특히 모바일 기기나 라즈베리파이와 같은 환경을 위해 최적화되었습니다. 대형 모델(예: 수천억 개의 파라미터)을 구축하려면 더 집중된 아키텍처나 MOE(Mixed Expert) 모델이 필요합니다. 현재 Pixel이나 고급 삼성 스마트폰에 사전 설치된 Gemini Nano도 Gemma 기술을 기반으로 합니다.

2. 소규모 팀이 50개 이상의 파트너와 협력하는 방법

Gemma 팀은 제품 매니저 2-3명, 마케팅 담당자 1명, 엔지니어 및 연구원으로 구성되었지만, 출시 과정에서 llama.cpp, Ollama, Hugging Face, Nvidia 등 50개 이상의 외부 파트너와 Google Cloud, Android 등 내부 팀과 협력했습니다.

왜 이렇게 많은 파트너가 필요할까요? 오픈소스 모델은 생태계의 지원이 필수적입니다. 예를 들어, llama.cpp는 모델이 컴퓨터에서 실행되도록 돕고, Ollama는 배포를 간소화하며, Hugging Face는 플랫폼을 제공합니다. Gemma 4는 Android Studio에 직접 통합되어 개발자가 API 연결 없이도 오프라인으로 Android 코드를 작성할 수 있습니다.

이러한 협력은 Gemma 4가 다양한 환경에서 빠르게 확산되도록 하기 위함입니다.

3. 소형 모델 vs 대형 모델: 지식이 최종적인 장벽

Gemma 4는 1년 반 전의 최고 수준의 클로즈드소스 모델(GPT-4 초기 버전)과 비슷한 성능을 보입니다. 하지만 대형 모델(Gemini)과의 차이점은 지식 저장 능력에 있습니다.

소형 모델은 제한된 파라미터로 인해 많은 정보를 기억할 수 없지만, 대형 모델은 더 많은 데이터를 처리할 수 있습니다. Omar의 예측에 따르면 1-2년 내에는 스마트폰에서도 Gemini 3 Pro 수준의 모델을 로컬로 실행할 수 있게 될 것이며, 이때 대부분의 일상적인 작업(채팅, 코딩, 이미지 처리 등)은 스마트폰에서 오프라인으로 처리될 것입니다. 단, 매우 복잡한 작업(장문 문서 분석, 고정밀도 추론 등)에는 대형 모델이 필요할 것입니다.

따라서 소형 모델과 대형 모델은 서로를 대체하는 것이 아니라 상호 보완적인 관계입니다.

4. 다중 모달 + 다국어 지원: Gemini의 강력한 기능

Gemma 4는 Gemini 3의 기술을 기반으로 하여 오디오(음성 인식, 텍스트 변환), 이미지(물체 인식, 설명), 짧은 동영상(30-60초)을 처리할 수 있습니다. 단점으로는 이미지 분할 기능이 부족하고, 비디오와 오디오를 동시에 처리하는 능력도 제한적입니다.

다국어 지원 측면에서는 140개 언어를 지원하며, 이는 텍스트를 모델이 이해할 수 있는 작은 단위로 분석하는 분석기 덕분입니다. 예를 들어 베트남어 미세 조정 시 Gemma의 분석기가 다른 모델보다 더 정확한 결과를 제공합니다.

5. 미세 조정의 필요성: MOE 모델의 장단점

과거에는 모델을 미세 조정(일반 데이터에 업계 특화 정보 추가)하는 것이 일반적이었지만, Gemma 4는 출시 시점부터 이미 좋은 성능을 보여 많은 파트너가 미세 조정을 계획했습니다. 하지만 금융, 의료 등 특정 분야에서만 미세 조정이 필요합니다.

또한 Gemma에는 31B 밀도 모델(모든 파라미터 사용)과 27B MOE(Mixed Expert) 모델(일부 파라미터만 활성화) 두 가지 버전이 있습니다. MOE 모델은 추론 속도가 빠르지만 미세 조정이 어렵습니다. 이는 “경로 선택 메커니즘” 때문에 많은 변수(예: 어떤 파라미터를 활성화할지, 라우터를 어떻게 설정할지)를 조정해야 하기 때문입니다.

따라서 현재의 추세는 일반적인 작업에는 기존 모델을 사용하고, 특정 작업에만 미세 조정을 하는 것입니다. MOE는 속도가 중요한 경우에 유용하지만 전문 지식이 필요합니다.

결론

Gemma 4의 출시는 Google이 오픈소스 AI와 모바일 환경에서의 경쟁력을 강화하기 위한 중요한 단계입니다. 앞으로 1-2년 내에 스마트폰에서 대형 모델을 실행할 수 있게 되면, 오프라인 AI 도우미, 로컬 이미지 처리 등 일상적인 경험이 크게 변화할 것입니다. Google은 Gemma 시리즈를 통해 오픈소스 AI 생태계에서의 주도권을 확보하고 클로즈드소스 모델(GPT-4 등)과 차별화된 경쟁을 이어갈 것입니다.