虎嗅

タイトル:タンパク質にも「進化」があるのか?Biohubのチーフサイエンティストによると、次なるAlphaFoldはここにあり――68億個の進化シーケンスを用いて、タンパク質科学研究史上最強の生物言語モデルが開発された! 本文:Biohubのチーフサイエンティストは、68億個ものタンパク質の進化シーケンスを分析することで、タンパク質科学研究における新たなブレークスルーを達成した。この研究成果により、タンパク質の構造や機能をより正確に予測する強力な生物言語モデルが誕生した。これはAlphaFoldに次ぐ画期的な成果であり、タンパク質科学の発展に大きな影響を与えると期待されている。

原文:蛋白质也有"涌现"?Biohub首席科学家:下一个AlphaFold在这里,用68亿条进化序列,训练出蛋白质科学史上最强生物语言模型

核心内容の要約

このニュースは、タンパク質科学における「ChatGPT的な瞬間」に焦点を当てています。Alex Rives氏のチームが開発したESM Cambrian(ESMC)——現在最も強力なオープンソースのタンパク質基盤モデル——が正式にオープンソース化されました。ESMCはマクロゲノムデータを導入することで、モデルトレーニングにおける収益逓減の問題を解決し、「スケーリング法則」(モデルが大きくなり、データが増えるほど性能が飛躍的に向上する)の有効性を実証しました。ESMCは抗体設計、タンパク質構造予測、新規遺伝子編集システムの発見などで大きな進歩を遂げており、Biohubが5億ドルを投じた「バーチャルセル」プロジェクトとも関連しています。このプロジェクトの目標は、AIと実験データを組み合わせて細胞の挙動を予測するモデルを構築し、最終的には疾病治療を推進することです。

1. タンパク質科学にも「大きければ大きいほど良い」という法則——スケーリング法則の応用

「スケーリング法則」とは、モデルのパラメータが多く、トレーニングデータが豊富になるほど、モデルの性能が飛躍的に向上するということです(ChatGPTがGPT-3からGPT-4へと進化したように)。Alex氏は2018年にすでにこの法則がタンパク質科学にも適用可能だと信じていました:

  • タンパク質はアミノ酸で構成された「鎖」であり、モデルはその「鎖」の次に来るアミノ酸を予測することで、タンパク質の構造や機能などの隠れた情報を学ぶことができます。
  • 自然言語モデルとは異なり、タンパク質モデルから生成されるシーケンスは無意味であっても合法的なタンパク質です(自然言語のようにエラーが発生することはありません)。これはアミノ酸の組み合わせ規則が固定されているためです。
  • キーポイント:タンパク質のアミノ酸の文脈(例えば、あるアミノ酸の周りに何があるか)がその構造や機能を決定し、モデルはこれらの文脈を統計的に分析することでタンパク質の本質を「理解」します——まるで私たちが文脈から単語の意味を推測するように。

2. マクロゲノムデータ:ボトルネックを打開する「非伝統的な」アプローチ

ESM2(前世代モデル)は「収益逓減」の問題に直面していました。モデルが大きくなり、計算能力が向上しても効果の向上は鈍化していました。ESMCがこの問題を解決した鍵はマクロゲノムデータであり、これは従来の生物学的研究アプローチとは全く異なります:

  • 伝統的な生物学研究では、特定の問題(例えばある遺伝子の機能)に焦点を当て、実験条件を制御し、繰り返し検証します。
  • マクロゲノムデータでは、熱水噴出孔、南極の氷、深海、人間の腸などから得られたサンプルを混ぜ合わせて直接シークエンス化し、タンパク質配列であればすべて利用します。データ量が多く多様性に富んでいますが、非常に「乱雑」です(どの生物から来たものかわかりませんし、断片である可能性もあります)。
  • 効果:マクロゲノムデータを加えた後、ESMCのスケーリング曲線は再び「美しく」なりました。小さなモデルの性能が大きなモデルのパフォーマンスを正確に予測できるようになり、これはデータが不足していたためであり、計算能力が不足していたわけではありません。

3. ESMCの実力:抗体設計でAlphaFoldを超え、新規遺伝子編集システムも発見

ESMCの大きな進歩は多岐にわたりますが、特に注目すべきは抗体設計構造/機能の発見です:

  • 抗体設計:抗体は疾病治療において重要なツールであり(新薬の約4分の1が抗体です)、全長抗体の設計は非常に困難でした。ESMCは「多序列比較」を使用せず、モデルが学んだタンパク質の特徴を直接検索することで治療効果のある抗体(例えばscFv単鎖抗体)を見つけることができ、成功率は非常に高いです。これは抗体の進化の目標が「多様性」であるためであり、従来の類似配列を参照する方法では効果がありませんでした。ESMCは抗体の本質的な特徴を捉えています。
  • 構造と機能の発見:ESMCは68億個の配列からなるマップを構築し、11億個のタンパク質構造を予測しました。また、生物学者が既に知っている機能モチーフ(例えば「親核肘」——重要な機能構造)も自動的に学び出し、進化的には遠い関係にあるが機能的に関連するタンパク質(例えば新規遺伝子編集システム)を発見しました。これらの発見はすべてモデルが自ら「悟り」たものであり、人為的な知識の入力は必要ありませんでした。

4. タンパク質からバーチャルセルへ:Biohubが5億ドルを投じる目的

Alex氏のチームの野望はタンパク質にとどまらず、「バーチャルセル」の構築です。AIモデルを使用して細胞の挙動をシミュレーションし、新たな介入(例えば薬物)の効果を予測することです:

  • 現状:現在の「バーチャルセル」モデルは既存のデータにしか適合できず、新しい状況(例えば新しい薬物を細胞に加えた場合)を予測することはできません。
  • 目標:モデルがタンパク質構造の予測と同様に、「これまで行われていない実験」も予測できるようにすることです。例えば、新しい薬物を入力すると、モデルは細胞がどのような反応を示すかを教えてくれます。
  • 5億ドルのプロジェクト:4億ドルは内部データの生成と技術開発に、1億ドルは外部との協力に使用されます。核心戦略は「生物学への大規模な介入」であり、可能な限り多くの異なる条件下で細胞を観察し(例えば異なる薬物を加えたり環境を変更したりして)、十分なデータを蓄積し、モデルに細胞の規則性を学ばせることです。

5. 今後のボトルネックと呼びかけ:計算能力が不足しているため、皆でESMCを活用しよう

ESMCは非常に強力ですが、まだ課題もあります:

  • 計算能力のボトルネック:Alex氏によると、計算能力は最も顕著ではないボトルネックです。計算能力が100倍になれば、ESMCはさらに優れたものになりますが、データも同時に拡大する必要があります。
  • データの潜在力:現在利用可能なタンパク質配列は約1000億個あり、まだまだ使い切っていません。収益逓減の問題はまだ発生していません。
  • コミュニティへの呼びかけ:ESMCはMITライセンスに基づいてオープンソース化されており、世界中の研究者が研究に使用することを望んでいます。Alex氏のチームの目的は薬物を開発することではなく、科学を推進するツールを構築し、最終的には疾病を治療することです。

要するに、このニュースはAIがタンパク質科学を根本から変えつつあることを示しています。構造の予測から薬物の設計、さらには細胞のシミュレーションまで、将来はさらなる革新的な医療突破がもたらされる可能性があります。ESMCのオープンソース化により、より多くの人々がこの革命に参加することができるようになりました。