虎嗅

هل البروتينات أيضًا قادرة على "الظهور"؟ كبير العلماء في Biohub: النموذج التالي لـ AlphaFold موجود هنا، وقد تم تدريبه باستخدام 6.8 مليار تسلسل تطوري لإنشاء أقوى نموذج لغوي بيولوجي في تاريخ علم البروتينات

原文:蛋白质也有"涌现"?Biohub首席科学家:下一个AlphaFold在这里,用68亿条进化序列,训练出蛋白质科学史上最强生物语言模型

ملخص المحتوى الرئيسي

تدور هذه الأخبار حول “لحظة ChatGPT” في علم البروتينات: تم إطلاق نموذج ESM Cambrian (ESMC)، وهو أقوى نموذج أساسي مفتوح المصدر للبروتينات تم تطويره حتى الآن، من قبل فريق Alex Rives. يحل هذا النموذج مشكلة انخفاض العائد أثناء تدريب النماذج عن طريق إدخال بيانات الجينوم الكبير (الماكروجينوم)، مما يؤكد فعالية “قانون التوسع” (كلما كان النموذج أكبر والبيانات أكثر، كانت القدرات أسرع في التطور). حقق ESMC اختراقات في تصميم الأجسام المضادة، وتنبؤ بتركيب البروتينات، واكتشاف أنظمة جديدة لتعديل الجينات، كما يرتبط بمشروع “الخلايا الافتراضية” الذي استثمر فيه Biohub مبلغ 500 مليون دولار، والهدف منه هو استخدام التكنولوجيا الذكاء الاصطناعي مع البيانات التجريبية لبناء نماذج يمكنها التنبؤ بسلوك الخلايا، وفي النهاية دفع علاج الأمراض قدمًا.

أولاً: هناك أيضًا قانون في علم البروتينات يقول “كلما كان أكبر كان أفضل” – تطبيق قانون التوسع

يمكن فهم “قانون التوسع” على أنه: كلما زادت معاملات النموذج وكثرة البيانات التدريبية، كانت قدرات النموذج ستشهد قفزة نوعية فجأة (تمامًا مثل تطور ChatGPT من GPT-3 إلى GPT-4). كان Alex يؤمن بهذا القانون منذ عام 2018 ويعتقد أنه يمكن تطبيقه على البروتينات:

  • البروتينات مكونة من سلاسل من الأحماض الأمينية، ويمكن للنموذج أن يتعلم تركيب البروتين ووظائفه وغيرها من المعلومات المخفية عن طريق التنبؤ بالحمض الأميني التالي في السلسلة.
  • على عكس نماذج اللغة الطبيعية: السلاسل المولدة عشوائيًا من نموذج البروتينات، حتى لو كانت بلا معنى، فهي تظل بروتينات صحيحة (لن تظهر رموزًا غير مفهومة مثل اللغة الطبيعية). وذلك لأن قواعد تركيب الأحماض الأمينية ثابتة، ويمكن للنموذج أن يتعلم هذه القواعد.
  • المفهوم الرئيسي: سياق الأحماض الأمينية في البروتين (مثل ما حول كل حمض أميني) يحدد تركيبه ووظيفته، ويمكن للنموذج “فهم” جوهر البروتين من خلال إحصاء هذه السياقات – تمامًا مثل كيف نخمن معاني الكلمات من سياقها.

ثانيًا: بيانات الجينوم الكبير: طريقة “غير تقليدية” لكسر العقبات

واجه النموذج السابق ESM2 مشكلة انخفاض العائد: على الرغم من زيادة حجم النموذج والقوة الحاسوبية، إلا أن التحسن كان بطيئًا جدًا. الحل الذي وجده ESM كان باستخدام بيانات الجينوم الكبير، وهو يتعارض تمامًا مع الأساليب التقليدية في البحث البيولوجي:

  • البحث البيولوجي التقليدي: يركز على مشكلة محددة (مثل دراسة وظيفة جين معين)، ويتحكم في ظروف التجربة ويعيد التحقق منها.
  • بيانات الجينوم الكبير: تأتي من أي كائن حي (من فوهات الحرارة البركانية، إلى جليد القطب الجنوبي، إلى أعماق البحار، وحتى أمعاء الإنسان)، ويتم تجميع العينات معًا للتسلسل المباشر، وأي سلسلة بروتينية يتم استخدامها. الكمية كبيرة والتنوع عالي جدًا، لكنها أيضًا “فوضوية” (لا نعرف من أي كائن حي تأتي، وقد تكون مجرد أجزاء).
  • النتيجة: بعد إضافة بيانات الجينوم الكبير، أصبح منحنى التوسع لـ ESM أكثر “جمالاً” – أداء النموذج الأصغر يمكنه التنبؤ بشكل دقيق بأداء النموذج الأكبر، مما يعني أن المشكلة كانت نقص البيانات وليس نقص القوة الحاسوبية.

ثالثًا: القدرات القوية لـ ESM: تصميم الأجسام المضادة يتفوق على AlphaFold، ويمكنه أيضًا اكتشاف أنظمة جديدة لتعديل الجينات

لدى ESM العديد من الاختراقات، وأبرزها في تصميم الأجسام المضادة واكتشاف التركيب/الوظائف:

  • تصميم الأجسام المضادة: الأجسام المضادة أداة مهمة لعلاج الأمراض (حوالي ربع الأدوية الجديدة هي أجسام مضادة)، لكن تصميم الأجسام المضادة الكاملة كان صعبًا دائمًا. لا يستخدم ESM “مقارنات متعددة السلاسل” (البحث عن سلاسل مشابهة كمرجع)، بل يبحث مباشرة عن خصائص البروتينات التي تعلمها النموذج، وبالتالي يمكنه إيجاد أجسام مضادة ذات فعالية علاجية (مثل الأجسام المضادة الأحادية scFv) بنسبة نجاح عالية. السبب هو أن هدف تطور الأجسام المضادة هو “التنوع” (لمكافحة مختلف الفيروسات)، والطرق التقليدية التي تعتمد على مقارنة السلاسل المشابهة غير فعالة، بينما يستغل ESM الخصائص الأساسية للأجسام المضادة.
  • اكتشاف التركيب والوظائف: قام ESM ببناء خريطة لـ 6.8 مليار سلسلة، وتنبؤ بتركيب 1.1 مليار بروتين. كما تعلم النموذج تلقائيًا الأنماط الوظيفية المعروفة لدى علماء الأحياء (مثل “الكوع النووي” – هيكل وظيفي رئيسي)، وحتى اكتشاف بروتينات ذات صلات وظيفية على الرغم من بُعد تطوري كبير (مثل أنظمة تعديل الجينات الجديدة). هذه الاكتشافات جاءت من قبل النموذج نفسه دون أي معرفة مدخلة من الإنسان.

رابعًا: من البروتينات إلى الخلايا الافتراضية: ما يريد Biohub فعله بـ 500 مليون دولار؟

طموح فريق Alex لا يقتصر على البروتينات، بل يشمل أيضًا بناء “خلايا افتراضية”:

  • Biohub يستثمر 500 مليون دولار لتطوير تقنيات الخلايا الافتراضية، والتي يمكن أن تساعد في دراسة الأحياء بشكل أفضل وتطوير علاجات جديدة.
  • هذه التقنيات يمكن أن تستخدم لإجراء تجارب على الخلايا دون الحاجة إلى استخدام كائنات حية، مما يقلل من المخاطر وتكاليف التجارب.
  • كما يمكن أن تساعد في فهم آليات الأحياء بشكل أفضل وتطوير علاجات جديدة للأمراض.

خامسًا: التطبيقات المحتملة لتقنيات ESM والخلايا الافتراضية

  • يمكن استخدام تقنيات ESM والخلايا الافتراضية في مجالات مثل الطب، الصناعة، والبحث العلمي.
  • على سبيل المثال: يمكن استخدامها لتطوير أدوية جديدة، تحسين علاجات الأمراض، تصنيع مواد جديدة، وفهم آليات الأحياء بشكل أفضل.
  • هذه التقنيات قد تغير الطريقة التي نعالج بها الأمراض ونطور المنتجات، مما يؤدي إلى تحسين حياة الناس.