核心内容总结
这篇新闻围绕蛋白质科学的“ChatGPT时刻”展开:Alex Rives团队开发的ESM Cambrian(ESMC)——目前最强的开源蛋白质基础模型——正式开源。它通过引入宏基因组数据打破了模型训练的收益递减问题,验证了“scaling law”(模型越大、数据越多,能力越突飞猛进)在蛋白质领域的有效性。ESMC在抗体设计、蛋白质结构预测、新基因编辑系统发现等方面取得突破,还关联到Biohub投入5亿美元的“虚拟细胞”计划,目标是用AI+实验数据构建能预测细胞行为的模型,最终推动疾病治疗。
一、蛋白质科学也有“越大越好”的规律——scaling law的应用
你可以把“scaling law”理解成:模型参数越多、训练数据越丰富,模型的能力就会突然出现质的飞跃(就像ChatGPT从GPT-3到GPT-4的变化)。Alex早在2018年就相信这个规律能用到蛋白质上:
- 蛋白质是由氨基酸组成的“链条”,模型通过预测“链条”里下一个氨基酸是什么,就能学到蛋白质的结构、功能等隐藏信息。
- 和自然语言模型不同:从蛋白质模型里“乱生成”的序列,哪怕没意义,也是合法的蛋白质(不会像自然语言那样出乱码)。这是因为氨基酸的组合规则是固定的,模型能学到这种规则。
- 关键逻辑:蛋白质的氨基酸上下文(比如某个氨基酸周围是什么)决定了它的结构和功能,模型通过统计这些上下文,就能“理解”蛋白质的本质——就像我们通过上下文猜词义一样。
二、宏基因组数据:打破瓶颈的“反传统”方法
ESM2(上一代模型)遇到了“收益递减”:模型变大、算力增加,但效果提升越来越慢。ESMC解决这个问题的关键是宏基因组数据,这和传统生物研究思路完全相反:
- 传统生物研究:聚焦某个具体问题(比如研究某个基因的功能),控制实验条件,重复验证。
- 宏基因组数据:不管来自什么生物(从热液喷口、南极冰、深海到人类肠道),把样本混在一起直接测序,只要是蛋白质序列就用。数据量大、多样性极高,但也很“乱”(不知道来自哪个生物,甚至可能是片段)。
- 效果:加入宏基因组数据后,ESMC的scaling曲线又变“漂亮”了——小模型的性能能精准预测大模型的表现,说明之前是数据不够,不是算力不够。
三、ESMC的硬实力:抗体设计超越AlphaFold,还能找新基因编辑系统
ESMC的突破点很多,最亮眼的是抗体设计和结构/功能发现:
- 抗体设计:抗体是治疗疾病的重要武器(约1/4新药是抗体),但全长抗体设计一直很难。ESMC不用“多序列比对”(找相似序列参考),直接通过模型学到的蛋白质特征搜索,就能找到有治疗效果的抗体(比如scFv单链抗体),成功率很高。原因是抗体进化的目标是“多样性”(对抗各种病毒),传统参考相似序列的方法反而没用,ESMC抓住了抗体的本质特征。
- 结构与功能发现:ESMC构建了68亿条序列的图谱,预测了11亿个蛋白质结构。模型还自发学到了生物学家已知的功能基序(比如“亲核肘”——一种关键功能结构),甚至发现了进化距离很远但功能相关的蛋白质(比如新型基因编辑系统)。这些发现都是模型自己“悟”出来的,没有人为输入知识。
四、从蛋白质到虚拟细胞:Biohub砸5亿要做什么?
Alex团队的野心不止于蛋白质,而是构建“虚拟细胞”——用AI模型模拟细胞的行为,预测新干预(比如药物)的效果:
- 现状:现在的“虚拟细胞”模型只能拟合已有数据,不能预测新情况(比如给细胞加个新药物会怎样)。
- 目标:让模型像预测蛋白质结构一样,能预测“没做过的实验”。比如,输入一个新药物,模型能告诉我们细胞会有什么反应。
- 5亿美元计划:4亿用于内部数据生产和技术开发,1亿用于外部合作。核心策略是“规模化干预生物学”——在尽可能多的不同条件下观察细胞(比如加不同药物、改变环境),积累足够多的数据,让模型学到细胞的规律。
五、未来的瓶颈和呼吁:算力不够,大家一起来用ESMC
ESMC虽然强大,但还有挑战:
- 算力瓶颈:Alex说算力是最大的非显而易见瓶颈——如果算力多100倍,ESMC会更好,数据也需要同步扩大。
- 数据潜力:目前可用的蛋白质序列约有1000亿条,远没用完,收益递减还没到来。
- 社区呼吁:ESMC以MIT协议开源,希望全球科研人员用它做研究。Alex团队不是要做药物,而是要构建推动科学的工具,最终治愈疾病。
总的来说,这篇新闻告诉我们:AI正在彻底改变蛋白质科学,从预测结构到设计药物,再到模拟细胞,未来可能会带来更多颠覆性的医疗突破。而ESMC的开源,让更多人能参与到这场革命中。