虎嗅

Proteine „entstehen“ auch spontan? Chefwissenschaftler von Biohub: Der nächste AlphaFold befindet sich hier – mit 6,8 Milliarden Evolutionssequenzen wurde das stärkste Biologiesprachmodell in der Geschichte der Proteinforschung entwickelt.

原文:蛋白质也有"涌现"?Biohub首席科学家:下一个AlphaFold在这里,用68亿条进化序列,训练出蛋白质科学史上最强生物语言模型

Zusammenfassung des Kerninhalts

Die Nachricht dreht sich um den „ChatGPT-Moment“ in der Proteinforschung: Das von Alex Rives’ Team entwickelte ESM Cambrian – das derzeit stärkste open-source-Protein-Grundmodell – wurde offiziell als Open Source veröffentlicht. Durch die Integration von Metagenom-Daten wurde das Problem des abnehmenden Nutzens beim Modelltraining überwunden, was die Wirksamkeit der „Skalierungsgesetzgebung“ (je größer das Modell, je mehr Daten, desto schnellerer Fortschritt) in der Proteinforschung bestätigt. ESMC hat Durchbrüche bei der Antikörperentwicklung, der Vorhersage von Proteinstrukturen und der Entdeckung neuer Geneditierungssysteme erzielt und steht im Zusammenhang mit dem 500-Millionen-Dollar-Programm „Virtual Cells“ des Biohub. Ziel dieses Programms ist es, mithilfe von AI und experimentellen Daten Modelle zu erstellen, die das Verhalten von Zellen vorhersagen können, um letztendlich die Krankheitsbehandlung voranzutreiben.

I. Auch in der Proteinforschung gilt das Prinzip „Je größer, desto besser“ – Die Anwendung der Skalierungsgesetzgebung

Die „Skalierungsgesetzgebung“ besagt: Je mehr Modellparameter und je umfangreicher die Trainingsdaten, desto größer ist plötzlich der qualitative Sprung in der Leistung des Modells (ähnlich wie der Fortschritt von GPT-3 zu GPT-4 bei ChatGPT). Schon 2018 glaubte Alex, dass dieses Prinzip auch auf Proteine angewendet werden kann:

Proteine bestehen aus Aminosäuren, und das Modell lernt durch die Vorhersage des nächsten Aminosäurs in der „Kette“ Informationen über die Struktur und Funktion des Proteins.

Im Gegensatz zu natürlichen Sprachmodellen sind die von Proteinmodellen erzeugten Sequenzen auch dann gültige Proteine, wenn sie sinnlos erscheinen – schließlich sind die Kombinationen der Aminosäuren festgelegt. Das Modell kann diese Regeln erkennen.

Wichtiger Aspekt: Der Kontext der Aminosäuren bestimmt die Struktur und Funktion des Proteins; das Modell „versteht“ dadurch die Essenz des Proteins, ähnlich wie wir den Wortsinne aus dem Kontext ableiten.

II. Metagenom-Daten: Eine „anti-traditionelle“ Methode, um Engpässe zu überwinden

Das vorherige Modell ESM2 stieß auf das Problem des abnehmenden Nutzens: Obwohl das Modell größer wurde und die Rechenleistung zunahm, verbesserte sich die Leistung nur langsam. Der Schlüssel zur Lösung dieses Problems waren Metagenom-Daten, was völlig gegen die herkömmlichen biologischen Forschungsansätze verstößt:

Herkömmliche Biologie: Konzentration auf ein spezifisches Problem (z. B. Funktion eines Gens), Kontrolle der Experimentalsbedingungen, wiederholte Überprüfungen.

Metagenom-Daten: Unabhängig von der Herkunft des Probenmaterials (von hydrothermalen Quellen über antarktischen Eis bis zum menschlichen Darm) werden die Proben gemischt und sequenziert; alle Proteinsequenzen werden verwendet. Die Datenmenge ist groß und vielfältig – allerdings auch unstrukturiert.

Effekt: Durch die Integration von Metagenom-Daten wurde die Skalierungskurve des ESMC wieder „glatter“; die Leistung kleiner Modelle konnte die Leistung größerer Modelle genau vorhersagen, was darauf hindeutet, dass es an ausreichenden Daten und nicht an mangelnder Rechenleistung lag.

III. Die Stärken des ESMC: Antikörperentwicklung übertrifft AlphaFold – und neue Geneditierungssysteme werden entdeckt

ESMC weist viele Durchbrüche auf, insbesondere in den Bereichen Antikörperentwicklung und Struktur-/Funktionsvorhersage:

  • Antikörperentwicklung: Antikörper sind wichtige Werkzeuge zur Krankheitsbehandlung (etwa ein Viertel aller neuen Medikamente basieren auf Antikörpern); die Entwicklung vollständiger Antikörper war jedoch bisher schwierig. ESMC nutzt keine „Vergleichssequenzen“, sondern sucht direkt nach Proteinmerkmalen, um wirksame Antikörper (z. B. scFv-Einzelschleifenantikörper) zu finden – mit hoher Erfolgsrate. Der Grund: Das Ziel der Antikörpertwicklung ist die Vielfalt (um verschiedene Viren zu bekämpfen); herkömmliche Methoden, die auf ähnlichen Sequenzen basieren, sind ineffektiv.
  • Struktur-/Funktionsvorhersage: ESMC erstellte ein Netzwerk aus 6,8 Milliarden Sequenzen und prognostizierte die Strukturen von 1,1 Milliarden Proteinen. Das Model lernte auch selbst bekannte funktionelle Motive (z. B. „nukleophile Ellbogen“) sowie funktionsverwandte Proteine mit großer evolutionärer Distanz. Diese Entdeckungen wurden ohne menschliches Eingreifen erreicht.

IV. Vom Protein zur virtuellen Zelle: Was will der Biohub mit seinen 500 Millionen Dollar erreichen?

Die Ambitionen des Alex-Teams gehen über die Proteinforschung hinaus – sie möchten virtuelle Zellen erstellen, um das Verhalten von Zellen mithilfe von AI-Modellen zu simulieren und die Wirkung neuer Interventionen (z. B. Medikamente) vorherzusagen:

Aktueller Stand: Aktuelle „virtuelle Zell“-Modelle können nur bestehende Daten anpassen, nicht aber neue Situationen vorhersagen (z. B. wie sich Zellen unter dem Einfluss neuer Medikamente verhalten).

Ziel: Das Modell soll in der Lage sein, auch „nie durchgeführte Experimente“ vorherzusagen – z. B. sollte man ein neues Medikament eingeben können und das Modell sagen, wie die Zellen reagieren werden.

500-Millionen-Dollar-Plan: 400 Millionen Dollar werden für die interne Datenerstellung und Technologieentwicklung verwendet, 100 Millionen für externe Kooperationen. Die Kernstrategie ist es, „biologische Interventionen auf großem Maßstab“ durchzuführen – unter möglichst vielen verschiedenen Bedingungen Zellen zu beobachten (z. B. mit unterschiedlichen Medikamenten, Veränderung der Umgebung) und genügend Daten zu sammeln, um die Gesetzmäßigkeiten des Zellverhaltens zu verstehen.

V. Zukünftige Herausforderungen und Aufruf: Rechenleistung ist noch nicht ausreichend – Nutzen Sie ESMC gemeinsam

Obwohl ESMC sehr leistungsfähig ist, gibt es noch Herausforderungen:

  • Rechenleistung: Alex betont, dass die Rechenleistung der größte, jedoch nicht offensichtliche Engpass ist; eine Verdopplung der Rechenleistung würde ESMC weiter verbessern – auch die Datenmenge müsste entsprechend erhöht werden.
  • Potenzial der Daten: Derzeit stehen etwa 100 Milliarden Proteinsequenzen zur Verfügung; das Potenzial ist noch lange nicht ausgeschöpft, und das Problem des abnehmenden Nutzens ist noch nicht aufgetreten.

Aufruf an die Gemeinschaft: ESMC wurde unter einer MIT-Lizenz als Open Source veröffentlicht; es wird gehofft, dass Forscher weltweit es für ihre Arbeit nutzen. Das Team von Alex möchte keine Medikamente entwickeln, sondern Werkzeuge schaffen, die die Wissenschaft vorantreiben und letztendlich Krankheiten heilen können.

Insgesamt zeigt diese Nachricht, dass KI die Proteinforschung grundlegend verändert – von der Vorhersage von Proteinstrukturen über die Entwicklung von Medikamenten bis zur Simulation von Zellenprozessen. Die Open-Source-Veröffentlichung des ESMC ermöglicht es mehr Menschen, an dieser Revolution teilzuhaben.