虎嗅

Anthropic最新博客：生物学Agent的瓶颈不在模型，而在数据基础设施

2026-06-09 阅读原文

核心内容总结

AI在生物学领域的发展远慢于编程领域，根本瓶颈不是大模型推理能力不够，而是生物数据基础设施太落后——这些设施是为人类手动操作设计的（像马车时代的老城），不适合AI Agent（现代汽车）使用。Anthropic的研究指出，解决办法是为Agent构建稳定、可操作的数据工具，比如他们和NCBI合作开发的gget virus，能大幅提升Agent检索生物数据的准确率和稳定性。

一、生物学AI Agent的最大瓶颈：数据基础设施像“马车时代的老城”

你可以把生物数据基础设施想象成一座没规划过汽车的老城：街道窄、弯多，现代汽车（Agent）根本开不顺。具体问题有三个：

1. 格式乱、数据库散：生物数据有各种奇怪的文件格式，数据存在不同数据库里，没有统一入口；

2. 工具定制化：操作这些数据的工具都是“量身定做”的，只能用于特定场景，Agent没法通用；

3. 缺明确反馈：软件领域改个代码能快速通过测试判断对错，但生物学里，Agent做对了没有明确的“奖励信号”（比如检索数据对不对，很难立刻验证）。

相比之下，软件领域的基础设施是为“汽车”设计的：有标准化的API（像清晰的车道）、版本控制（像交通规则），Agent能顺畅跑起来。

二、Karpathy的吐槽：生物学和Web开发面临同一个问题

几个月前，AI大佬Karpathy说他写Web应用时，代码很容易，但身份验证、支付这些环节要在浏览器里点来点去，花了一周时间——他抱怨“代码是最简单的，麻烦的是点击操作”。

这和生物学的痛点一模一样：生物数据工具都是给人类手动点击设计的。比如病毒学家要从数据库里找序列，得手动勾几十个筛选条件，Agent根本没法自动化这些步骤。

三、病毒学里的“点击税”：人类都头疼，Agent更崩溃

拿埃博拉疫情举例：当刚果暴发埃博拉时，科学家需要快速对比新毒株和历史数据，判断现有诊断和药物是否有效。但这个过程要在NCBI Virus数据库里手动勾选几十项筛选条件（比如宿主是人类、采样地点在非洲、序列长度够长等），不仅枯燥，还容易出错。

这种“必须手动点击的麻烦”，就像给科研交了“点击税”——人类都嫌烦，Agent更是做不好：它没法理解网页上的下拉菜单、复选框，更没法记住所有筛选规则。

四、Agent自己检索有多不靠谱？结果差还会误导结论

Anthropic团队做了个测试（VirBench），让多个AI模型（比如GPT-5.5、Claude Opus）完成120个病毒序列检索任务。结果发现：

1. 准确率低：最好的模型准确率才91.3%，最差的只有16.9%；

2. 结果不稳定：同一个模型跑三次，结果差异巨大。比如查埃博拉序列，标准答案是266条，Claude Sonnet 4三次分别返回106、15、5条；

3. 误导结论：用错误数据做分析，会得出离谱结果——比如把病毒共同祖先时间从2014年推到1922年，或者错误判断抗体药物是否有效。

这些问题的根源是：Agent没有可靠的路径去访问数据，只能“猜”着操作，结果看似合理，实际错得离谱。

五、解决方案：给数据加个“稳定接口”，Agent就能靠谱干活

Anthropic和NCBI合作开发了gget virus工具，把复杂的病毒数据检索变成Agent能直接调用的“稳定接口”。它能：

协调多个数据库的API，自动处理筛选条件；
输出标准化结果，带详细日志（方便检查对错）；
解决批量检索、分页截断等问题。

效果立竿见影：所有Agent的准确率都提升到90%以上（GPT-5.5达99.7%），重复运行结果也稳定了。

作者强调：科学Agent需要“无聊但可靠”的底座——模型可以有创造力（比如生成假设），但底层的数据访问、检索逻辑必须稳定。即使未来模型变强，这种可靠的基础设施依然重要（不然Agent每次都要重新“闯迷宫”，既慢又贵）。

总结

AI要帮人类攻克生物学难题，不是光靠大模型就行，得先把生物数据基础设施“翻新”成适合Agent用的样子。gget virus只是第一步，未来需要更多这样的工具，让AI真正成为科学家的可靠助手。