虎嗅

عنوان باللغة العربية: جيما 4 (Gemma4) تحقق المستوى نفسه كأفضل نموذج مغلق المصدر منذ عام ونصف: نموذج بـ 5 مليارات معلمة يحتاج فقط إلى 2 جيجابايت من ذاكرة الوصول العشوائي، الطموح التقني وراء جيما 4

原文:Gemma4已经追平一年半前的顶尖闭源模型:50亿参数模型只需2GB显存,Gemma4背后的技术野心

ملخص المحتوى الرئيسي

Gemma 4 هو أحدث نموذج AI مفتوح المصدر من Google DeepMind. على الرغم من أن حجم معاملاته (حوالي 30 مليار) يظل كما في الجيل السابق، إلا أنه تم تحسين “كثافة الذكاء لكل معامل” بشكل كبير من خلال التقنيات المبتكرة مثل هيكل E2B. من بين الميزات البارزة لـ Gemma 4:

  • نموذج بـ 5 مليار معامل يحتاج فقط إلى 2 جيجابايت من ذاكرة الوصول العشوائي للتشغيل على الأجهزة المحمولة (الهواتف، Raspberry Pi، إلخ)؛
  • فريق صغير نسق أعمالًا مع أكثر من 50 شريكًا لإطلاق النموذج؛
  • قدرات متعددة الأنماط تغطي الصوت والصور ومقاطع الفيديو القصيرة؛
  • دعم لـ 140 لغة؛
  • كما تمت مناقشة حدود النماذج الصغيرة مقارنة بالكبيرة، واتجاهات التحسين، ومزايا وعيوب هيكل MOE.

بشكل عام، يُعد Gemma 4 ترتيبًا مهمًا من جانب Google في بيئة AI المفتوحة المصدر والنشر على الأجهزة المحمولة، بهدف جعل التكنولوجيا الذكية أقرب إلى المستخدمين العاديين والمطورين.

أولاً: هيكل E2B: تمكين النماذج الصغيرة من العمل على الأجهزة المحمولة بكفاءة

أبرز تقنية في Gemma 4 هي هيكل E2B لتخزين المعاملات، والذي يعني “تقسيم النموذج إلى جزأين: يتم تخزين المعاملات الشائعة الاستخدام في الـ GPU (للسرعة)، بينما تُخزن المعاملات الأقل استخدامًا في الـ CPU أو القرص (لتوفير المساحة)**.

في النماذج التقليدية لـ AI، يتم تحميل جميع المعاملات إلى ذاكرة الوصول العشوائي للـ GPU، مما يجعل من المستحيل تثبيتها على الأجهزة المحمولة الصغيرة. ومع ذلك، يحتاج نموذج Gemma 4 بـ 5 مليار معامل فقط إلى 2 جيجابايت من ذاكرة الوصول العشوائي، لأنه يخزن 30 مليار معامل في الـ CPU أو القرص ويقوم فقط بتحميل 20 مليار معامل شائع الاستخدام في الـ GPU. هذا يشبه حفظ الكلمات الشائعة في متناول اليد ووضع الكلمات الأقل استخدامًا على الرف، مما يوفر المساحة دون التأثير على السرعة.

لكن هذا التصميم مُخصص لتحسين أداء النماذج على الأجهزة المحمولة مثل الهواتف وRaspberry Pi. إذا كنت ترغب في استخدام نموذج ضخم (مثل 100 مليار معامل)، فسيكون من الضروري استخدام هيكل أكثر كثافة أو نماذج MOE (النماذج المختلطة). يُعد Gemini Nano المثبت مسبقًا في هواتف Pixel أو الهواتف الراقية من Samsung مثالًا على نموذج مبني على تقنية Gemma، ويمكن للمستخدمين استخدامه فور فتح العبوة.

ثانيًا: كيف نجح فريق صغير في التعاون مع أكثر من 50 شريكًا؟

فريق Gemma صغير جدًا (2-3 مديري منتج، موظف تسويق واحد، بالإضافة إلى المهندسين والباحثين)، لكنهم نسقوا العمل مع ما يقرب من 50 شريكًا خارجيًا (مثل llama.cpp، Ollama، Hugging Face، Nvidia، إلخ) وفرق داخلية (Google Cloud، Android، إلخ).

لماذا هناك حاجة إلى العديد من الشركاء؟ لأن النماذج المفتوحة المصدر تحتاج إلى دعم بيئي: مثل llama.cpp التي تسمح للنموذج بالعمل على أجهزة الكمبيوتر، وOllama التي تسهل عملية النشر، وHugging Face التي توفر منصة. كما تم دمج Gemma 4 مباشرة في Android Studio، مما يتيح للمطورين كتابة الكود بدون الحاجة إلى استخدام واجهات برمجية.

الهدف من ذلك هو تسريع انتشار Gemma 4 في مختلف المجالات، من الهواتف إلى أدوات التطوير، لجعلها أكثر شيوعًا وبناء حصانة بيئية مفتوحة المصدر.

ثالثًا: النماذج الصغيرة مقابل الكبيرة: المعرفة هي الحاجز الأخير

لقد وصل Gemma 4 إلى مستوى نماذج الـ AI المغلقة المصدرية الرائدة منذ عام ونصف (مثل الإصدارات المبكرة من GPT-4)، ويمكنه تنفيذ مهام مثل الوكالة واستدعاء الدوال والمحادثات. لكن ما هو الفرق بينه وبين النماذج الكبيرة (مثل Gemini)؟ يكمن الفرق في تخزين المعرفة.

النماذج الصغيرة لديها عدد محدود من المعاملات، ولا تستطيع تذكر الكثير من المعلومات (مثل رئيس دولة معين قبل 25 عامًا)، بينما يمكن للنماذج الكبيرة تخزين المزيد من المعلومات. ومع ذلك، يتوقع Omar أنه في غضون عام إلى عامين، سيصبح من الممكن تشغيل نماذج بمستوى Gemini 3 Pro على الأجهزة المحمولة. في ذلك الوقت، ستتمكن معظم المهام اليومية (مثل المحادثات وكتابة الكود ومعالجة الصور) من التنفيذ أوفلاين على الهواتف، باستثناء المهام المعقدة جدًا (مثل تحليل المستندات الطويلة والتفسير ذو الدقة العالية) التي ستحتاج إلى نماذج كبيرة.

لذلك، ليست النماذج الصغيرة والكبيرة بديلاً لبعضها البعض، بل هي مكملة: تتولى النماذج الصغيرة المهام اليومية، بينما تتولى النماذج الكبيرة المهام المتخصصة.

رابعًا: متعددة الأنماط + متعددة اللغات: حتى “الأخ الأصغر” لـ Gemini يمكنه التنوع

يعتمد Gemma 4 على تقنية Gemini 3 ويدعم المعالجة متعددة الأنماط: فهم الصوت (التعرف على الكلام، التحويل إلى نصوص، طرح الأسئلة)، والصور (الكشف عن الأجسام، ووصف المحتويات)، ومقاطع الفيديو القصيرة (مدة 30-60 ثانية). لكن له بعض العيوب: لا يمكنه تقسيم الصور (مثل فصل القط من الصورة)، ولا يدعم جميع أنظمة التشغيل.

خامسًا: استخدامات Gemma في مجالات متنوعة

يمكن استخدام نماذج Gemma في مجالات متنوعة مثل الرعاية الصحية، والتعليم، والتجارة، والتكنولوجيا، وغيرها. على سبيل المثال، يمكن استخدامها لتطوير تطبيقات الذكاء الاصطناعي لمساعدة الأطباء في تشخيص الأمراض، أو لتحسين تجربة التعلم للطلاب، أو لتحسين عمليات التسوق.

كما يمكن استخدامها في مجال الألعاب لإضافة عناصر من الذكاء الاصطناعي إلى الشخصيات أو لتحسين تجربة اللاعبين.

مع ذلك، قد يكون هناك تحديات في تطوير هذه التطبيقات، مثل التأكد من أن النموذج يعمل بشكل موثوق وفعال على جميع الأجهزة والأنظمة، وضمان أنه لا يتسبب في مشاكل أمنية أو استخدامية.

سادسًا: التحديات المستقبلية

مع تطور تقنيات الذكاء الاصطناعي، من المتوقع أن تظهر تحديات جديدة في مجال تطوير واستخدام نماذج Gemma. على سبيل المثل، قد تحتاج إلى التكيف مع التغيرات في أنظمة التشغيل أو اللغات، أو قد تحتاج إلى تحسين أدائها لمواجهة المهام المتزايدة التعقيدية.

كما قد تظهر فرص جديدة مثل استخدام الذكاء الاصطناعي في مجالات لم يتم التفكير فيها بعد، مما يتطلب من المطورين والشركات البحث والابتكار باستمرار.

خلاصة

نموذج Gemma هو مثال على تقدم تقنيات الذكاء الاصطناعي، ويمكن استخدامه في مجالات متنوعة. لكن يوجد حاجة إلى المزيد من البحث والتطوير لضمان أدائه بشكل موثوق وفعال، ولخلق تطبيقات مفيدة ومستسهلة الاستخدام.

مع ذلك، فإن استخدام التقنيات الجديدة يتطلب أيضًا التفكير المستمر والابتكار لمواجهة التحديات المحتملة.