虎嗅

Anthropic最新博客:生物学Agent的瓶颈不在模型,而在数据基础设施

核心内容总结

AI在生物学领域的发展远慢于编程领域,根本瓶颈不是大模型推理能力不够,而是生物数据基础设施太落后——这些设施是为人类手动操作设计的(像马车时代的老城),不适合AI Agent(现代汽车)使用。Anthropic的研究指出,解决办法是为Agent构建稳定、可操作的数据工具,比如他们和NCBI合作开发的gget virus,能大幅提升Agent检索生物数据的准确率和稳定性。

一、生物学AI Agent的最大瓶颈:数据基础设施像“马车时代的老城”

你可以把生物数据基础设施想象成一座没规划过汽车的老城:街道窄、弯多,现代汽车(Agent)根本开不顺。具体问题有三个:

1. 格式乱、数据库散:生物数据有各种奇怪的文件格式,数据存在不同数据库里,没有统一入口;

2. 工具定制化:操作这些数据的工具都是“量身定做”的,只能用于特定场景,Agent没法通用;

3. 缺明确反馈:软件领域改个代码能快速通过测试判断对错,但生物学里,Agent做对了没有明确的“奖励信号”(比如检索数据对不对,很难立刻验证)。

相比之下,软件领域的基础设施是为“汽车”设计的:有标准化的API(像清晰的车道)、版本控制(像交通规则),Agent能顺畅跑起来。

二、Karpathy的吐槽:生物学和Web开发面临同一个问题

几个月前,AI大佬Karpathy说他写Web应用时,代码很容易,但身份验证、支付这些环节要在浏览器里点来点去,花了一周时间——他抱怨“代码是最简单的,麻烦的是点击操作”。

这和生物学的痛点一模一样:生物数据工具都是给人类手动点击设计的。比如病毒学家要从数据库里找序列,得手动勾几十个筛选条件,Agent根本没法自动化这些步骤。

三、病毒学里的“点击税”:人类都头疼,Agent更崩溃

拿埃博拉疫情举例:当刚果暴发埃博拉时,科学家需要快速对比新毒株和历史数据,判断现有诊断和药物是否有效。但这个过程要在NCBI Virus数据库里手动勾选几十项筛选条件(比如宿主是人类、采样地点在非洲、序列长度够长等),不仅枯燥,还容易出错。

这种“必须手动点击的麻烦”,就像给科研交了“点击税”——人类都嫌烦,Agent更是做不好:它没法理解网页上的下拉菜单、复选框,更没法记住所有筛选规则。

四、Agent自己检索有多不靠谱?结果差还会误导结论

Anthropic团队做了个测试(VirBench),让多个AI模型(比如GPT-5.5、Claude Opus)完成120个病毒序列检索任务。结果发现:

1. 准确率低:最好的模型准确率才91.3%,最差的只有16.9%;

2. 结果不稳定:同一个模型跑三次,结果差异巨大。比如查埃博拉序列,标准答案是266条,Claude Sonnet 4三次分别返回106、15、5条;

3. 误导结论:用错误数据做分析,会得出离谱结果——比如把病毒共同祖先时间从2014年推到1922年,或者错误判断抗体药物是否有效。

这些问题的根源是:Agent没有可靠的路径去访问数据,只能“猜”着操作,结果看似合理,实际错得离谱。

五、解决方案:给数据加个“稳定接口”,Agent就能靠谱干活

Anthropic和NCBI合作开发了gget virus工具,把复杂的病毒数据检索变成Agent能直接调用的“稳定接口”。它能:

  • 协调多个数据库的API,自动处理筛选条件;
  • 输出标准化结果,带详细日志(方便检查对错);
  • 解决批量检索、分页截断等问题。

效果立竿见影:所有Agent的准确率都提升到90%以上(GPT-5.5达99.7%),重复运行结果也稳定了。

作者强调:科学Agent需要“无聊但可靠”的底座——模型可以有创造力(比如生成假设),但底层的数据访问、检索逻辑必须稳定。即使未来模型变强,这种可靠的基础设施依然重要(不然Agent每次都要重新“闯迷宫”,既慢又贵)。

总结

AI要帮人类攻克生物学难题,不是光靠大模型就行,得先把生物数据基础设施“翻新”成适合Agent用的样子。gget virus只是第一步,未来需要更多这样的工具,让AI真正成为科学家的可靠助手。