虎嗅

蛋白质也有"涌现"？Biohub首席科学家：下一个AlphaFold在这里，用68亿条进化序列，训练出蛋白质科学史上最强生物语言模型

2026-06-06 阅读原文

核心内容总结

这篇新闻围绕蛋白质科学的“ChatGPT时刻”展开：Alex Rives团队开发的ESM Cambrian（ESMC）——目前最强的开源蛋白质基础模型——正式开源。它通过引入宏基因组数据打破了模型训练的收益递减问题，验证了“scaling law”（模型越大、数据越多，能力越突飞猛进）在蛋白质领域的有效性。ESMC在抗体设计、蛋白质结构预测、新基因编辑系统发现等方面取得突破，还关联到Biohub投入5亿美元的“虚拟细胞”计划，目标是用AI+实验数据构建能预测细胞行为的模型，最终推动疾病治疗。

一、蛋白质科学也有“越大越好”的规律——scaling law的应用

你可以把“scaling law”理解成：模型参数越多、训练数据越丰富，模型的能力就会突然出现质的飞跃（就像ChatGPT从GPT-3到GPT-4的变化）。Alex早在2018年就相信这个规律能用到蛋白质上：

蛋白质是由氨基酸组成的“链条”，模型通过预测“链条”里下一个氨基酸是什么，就能学到蛋白质的结构、功能等隐藏信息。
和自然语言模型不同：从蛋白质模型里“乱生成”的序列，哪怕没意义，也是合法的蛋白质（不会像自然语言那样出乱码）。这是因为氨基酸的组合规则是固定的，模型能学到这种规则。
关键逻辑：蛋白质的氨基酸上下文（比如某个氨基酸周围是什么）决定了它的结构和功能，模型通过统计这些上下文，就能“理解”蛋白质的本质——就像我们通过上下文猜词义一样。

二、宏基因组数据：打破瓶颈的“反传统”方法

ESM2（上一代模型）遇到了“收益递减”：模型变大、算力增加，但效果提升越来越慢。ESMC解决这个问题的关键是宏基因组数据，这和传统生物研究思路完全相反：

传统生物研究：聚焦某个具体问题（比如研究某个基因的功能），控制实验条件，重复验证。
宏基因组数据：不管来自什么生物（从热液喷口、南极冰、深海到人类肠道），把样本混在一起直接测序，只要是蛋白质序列就用。数据量大、多样性极高，但也很“乱”（不知道来自哪个生物，甚至可能是片段）。
效果：加入宏基因组数据后，ESMC的scaling曲线又变“漂亮”了——小模型的性能能精准预测大模型的表现，说明之前是数据不够，不是算力不够。

三、ESMC的硬实力：抗体设计超越AlphaFold，还能找新基因编辑系统

ESMC的突破点很多，最亮眼的是抗体设计和结构/功能发现：

抗体设计：抗体是治疗疾病的重要武器（约1/4新药是抗体），但全长抗体设计一直很难。ESMC不用“多序列比对”（找相似序列参考），直接通过模型学到的蛋白质特征搜索，就能找到有治疗效果的抗体（比如scFv单链抗体），成功率很高。原因是抗体进化的目标是“多样性”（对抗各种病毒），传统参考相似序列的方法反而没用，ESMC抓住了抗体的本质特征。
结构与功能发现：ESMC构建了68亿条序列的图谱，预测了11亿个蛋白质结构。模型还自发学到了生物学家已知的功能基序（比如“亲核肘”——一种关键功能结构），甚至发现了进化距离很远但功能相关的蛋白质（比如新型基因编辑系统）。这些发现都是模型自己“悟”出来的，没有人为输入知识。

四、从蛋白质到虚拟细胞：Biohub砸5亿要做什么？

Alex团队的野心不止于蛋白质，而是构建“虚拟细胞”——用AI模型模拟细胞的行为，预测新干预（比如药物）的效果：

现状：现在的“虚拟细胞”模型只能拟合已有数据，不能预测新情况（比如给细胞加个新药物会怎样）。
目标：让模型像预测蛋白质结构一样，能预测“没做过的实验”。比如，输入一个新药物，模型能告诉我们细胞会有什么反应。
5亿美元计划：4亿用于内部数据生产和技术开发，1亿用于外部合作。核心策略是“规模化干预生物学”——在尽可能多的不同条件下观察细胞（比如加不同药物、改变环境），积累足够多的数据，让模型学到细胞的规律。

五、未来的瓶颈和呼吁：算力不够，大家一起来用ESMC

ESMC虽然强大，但还有挑战：

算力瓶颈：Alex说算力是最大的非显而易见瓶颈——如果算力多100倍，ESMC会更好，数据也需要同步扩大。
数据潜力：目前可用的蛋白质序列约有1000亿条，远没用完，收益递减还没到来。
社区呼吁：ESMC以MIT协议开源，希望全球科研人员用它做研究。Alex团队不是要做药物，而是要构建推动科学的工具，最终治愈疾病。

总的来说，这篇新闻告诉我们：AI正在彻底改变蛋白质科学，从预测结构到设计药物，再到模拟细胞，未来可能会带来更多颠覆性的医疗突破。而ESMC的开源，让更多人能参与到这场革命中。