虎嗅

Les protéines connaîtraient-elles également une « explosion de découvertes » ? Le scientifique en chef de Biohub affirme que le prochain modèle d'apprentissage automatique de type AlphaFold se trouve ici : en utilisant 6,8 milliards de séquences évolutives, nous avons développé le modèle linguistique biologique le plus puissant de l'histoire de la science des protéines.

原文:蛋白质也有"涌现"?Biohub首席科学家:下一个AlphaFold在这里,用68亿条进化序列,训练出蛋白质科学史上最强生物语言模型

Résumé des points clés

Cette nouvelle porte essentiellement sur le “moment ChatGPT” dans la science des protéines : l’ESM Cambrian, développé par l’équipe d’Alex Rives et actuellement le modèle de base open-source le plus puissant pour les protéines, a été officiellement mis à disposition du public. En intégrant des données de métagénomique, ce modèle a surmonté le problème de la diminution des performances lors de l’entraînement, prouvant ainsi l’efficacité de la “loi de l’échelle” (plus le modèle est grand et plus les données sont abondantes, meilleures sont ses capacités). ESMC a réalisé des avancées significatives dans la conception d’anticorps, la prédiction de structures protéiques et la découverte de nouveaux systèmes d’édition génétique. Ces progrès sont également liés au projet “Cellules virtuelles” du Biohub, qui investit 500 millions de dollars dans la construction de modèles capables de prévoir le comportement des cellules à l’aide d’IA et de données expérimentales, dans le but de promouvoir le traitement des maladies.

I. La science des protéines suit également la loi de l’échelle

Vous pouvez comprendre la “loi de l’échelle” comme suivant : plus les paramètres du modèle sont nombreux et plus les données d’entraînement sont riches, plus les capacités du modèle connaissent une progression qualitative soudaine (comme le passage de ChatGPT de GPT-3 à GPT-4). Alex croyait déjà en 2018 que cette loi pouvait être appliquée aux protéines :

  • Les protéines sont des “chaînes” composées d’acides aminés, et le modèle peut apprendre leur structure et leurs fonctions en prédisant quel acide aminé suivra dans la chaîne.
  • Contrairement aux modèles de langage naturel, les séquences générées aléatoirement par un modèle protéique, même si elles n’ont pas de sens, sont toujours des protéines valides (contrairement aux caractères erronés produits par les langages naturels). Cela est dû aux règles fixes de combinaison des acides aminés que le modèle peut apprendre.
  • La logique clé est que le contexte des acides aminés dans une protéine (par exemple, ceux qui l’entourent) détermine sa structure et sa fonction. Le modèle peut “comprendre” l’essence de la protéine en analysant ces contextes, tout comme nous devinons le sens d’un mot en fonction de son contexte.

II. Les données de métagénomique : une approche “anti-traditionnelle” pour surmonter les limites

Le modèle ESM2 (la génération précédente) a rencontré un problème de diminution des performances : même si la taille du modèle et les ressources informatiques augmentaient, l’amélioration des résultats ralentissait. La clé pour résoudre ce problème réside dans l’utilisation de données de métagénomique, une approche complètement opposée à celle de la recherche biologique traditionnelle :

  • La recherche biologique traditionnelle se concentre sur un problème spécifique (par exemple, l’étude de la fonction d’un gène) et reproduit les expériences sous des conditions contrôlées.
  • Les données de métagénomique proviennent de diverses sources (évents hydrothermaux, glace antarctique, océans profonds, intestins humains), sont séquencées ensemble et utilisées telles quelles. Elles sont très nombreuses et diverses, mais également très “désordonnées” (on ne sait pas d’où elles proviennent, et elles peuvent être des fragments).
  • Résultat : l’ajout de données de métagénomique a redonné une forme “lisse” à la courbe de croissance des performances d’ESMC, indiquant que le problème résidait dans un manque de données et non dans un manque de puissance de calcul.

III. Les forces d’ESMC : une conception d’anticorps supérieure à celle d’AlphaFold et la découverte de nouveaux systèmes d’édition génétique

Les innovations majeures d’ESMC se situent principalement dans la conception d’anticorps et la découverte de structures/fonctions :

  • Conception d’anticorps : les anticorps sont des outils essentiels pour le traitement des maladies (environ un quart des nouveaux médicaments en contiennent), mais leur conception complète a longtemps été difficile. ESMC évite l’utilisation de comparaisons multiples de séquences et recherche directement des caractéristiques protéiques apprises par le modèle pour trouver des anticorps efficaces (comme les anticorps monocaténaires scFv), avec un taux de succès élevé. Cela est dû au fait que l’évolution des anticorps vise la “diversité” (pour combattre divers virus), et les méthodes traditionnelles basées sur la recherche de séquences similaires sont inefficaces ; ESMC capte donc les caractéristiques essentielles des anticorps.
  • Découverte de structures et de fonctions : ESMC a construit une carte de 6,8 milliards de séquences et prédit la structure de 1,1 milliard de protéines. Le modèle a également appris spontanément des motifs fonctionnels connus des biologistes (comme le “coud de nucléophilie”), ainsi que des protéines dont les relations évolutives sont éloignées mais dont les fonctions sont similaires (comme de nouveaux systèmes d’édition génétique). Ces découvertes ont été faites par le modèle lui-même, sans aucune intervention humaine.

IV. Des protéines aux cellules virtuelles : que veut faire le Biohub avec ses 500 millions de dollars ?

L’ambition de l’équipe d’Alex ne se limite pas aux protéines, mais vise la construction de “cellules virtuelles” : utiliser des modèles d’IA pour simuler le comportement des cellules et prédire les effets de nouvelles interventions (comme les médicaments) :

  • Situation actuelle : Les modèles de “cellules virtuelles” existants ne peuvent que s’adapter aux données disponibles et ne peuvent pas prédire de nouveaux scénarios (par exemple, l’effet d’un nouveau médicament sur une cellule).
  • Objectif : Faire en sorte que le modèle puisse prédire des résultats “d’expériences jamais réalisées”, tout comme il peut prédire les structures protéiques. Par exemple, en fournissant un nouveau médicament au modèle, celui-ci pourrait indiquer comment la cellule réagira.
  • Plan de 500 millions de dollars : 400 millions sont destinés à la production de données internes et au développement technologique, et 100 millions à des collaborations externes. La stratégie principale est d’“intervenir sur une échelle biologique” significative – observer les cellules dans un grand nombre de conditions différentes (par exemple, avec différents médicaments, en changeant l’environnement) pour accumuler suffisamment de données et permettre au modèle d’apprendre leurs comportements.

V. Les futurs défis et un appel à la collaboration : le manque de puissance de calcul et l’utilisation d’ESMC

Bien que ESMC soit puissant, il reste des défis à surmonter :

  • Barrage de la puissance de calcul : Alex souligne que la puissance de calcul est le principal obstacle non évident ; une augmentation de 100 fois de la puissance permettrait d’améliorer encore les performances d’ESMC, tout en nécessitant également une expansion des données.
  • Potential des données : Les séquences protéiques disponibles représentent actuellement environ 100 milliards, et ce n’est qu’un début ; le problème de la diminution des performances n’a pas encore été atteint.
  • Appel à la communauté : ESMC est mis à disposition du public sous licence MIT, dans l’espoir que les chercheurs du monde entier en fassent usage pour leurs recherches. L’équipe d’Alex ne cherche pas à développer des médicaments, mais à créer des outils scientifiques capables de guérir les maladies.

En somme, cette nouvelle montre que l’IA est en train de révolutionner profondément la science des protéines, allant de la prédiction des structures à la conception de médicaments, en passant par la simulation du comportement des cellules. L’ouverture source d’ESMC permet à davantage de personnes de participer à cette révolution.