虎嗅

**Anthropic의 최신 블로그: 생물학적 에이전트(Agent)의 병목 현상은 모델에 있지 않고, 데이터 인프라에 있다** 안토립(Anthropic)의 최신 블로그에서, 생물학적 에이전트의 성능 향상을 저해하는 요인이 모델 자체가 아니라 데이터 인프라에 있다고 지적했습니다. 이는 AI 기술 발전에 있어 중요한 시사점을 제공합니다. 데이터 인프라의 개선이 생물학적 에이전트의 성능을 크게 향상시킬 수 있음을 의미하며, 관련 분야 연구자와 기업들에게 새로운 전략적 방향을 제시합니다.

原文:Anthropic最新博客:生物学Agent的瓶颈不在模型,而在数据基础设施

핵심 내용 요약

AI가 생물학 분야에서의 발전은 프로그래밍 분야에 비해 훨씬 느립니다. 근본적인 병목 현상은 대형 모델의 추론 능력이 부족한 것이 아니라, 생물학 데이터 인프라가 너무 낙후되어 있다는 점입니다. 이러한 인프라는 인간이 수동으로 작업하기 위해 설계된 것으로(마차 시대의 오래된 도시와 같음), AI 에이전트(현대 자동차)가 사용하기에 적합하지 않습니다. Anthropic의 연구에 따르면, 해결책은 에이전트를 위해 안정적이고 사용하기 편리한 데이터 도구를 구축하는 것입니다. 예를 들어, 그들이 NCBI와 협력하여 개발한 `gget virus`는 에이전트가 생물학 데이터를 검색할 때의 정확도와 안정성을 크게 향상시킬 수 있습니다.

1. 생물학 AI 에이전트의 가장 큰 병목 현상: “마차 시대의 오래된 도시” 같은 데이터 인프라

생물학 데이터 인프라를 자동차가 다닐 수 없는 계획되지 않은 오래된 도시에 비유할 수 있습니다. 거리가 좁고 구불구불하여 현대 자동차(에이전트)가 원활하게 이동할 수 없습니다. 구체적인 문제는 다음과 같습니다:

1. 형식의 불균일성과 데이터베이스의 분산: 생물학 데이터는 다양한 이상한 파일 형식을 가지고 있으며, 데이터가 여러 데이터베이스에 흩어져 있어 통합된 접근 포인트가 없습니다.

2. 도구의 맞춤화: 이러한 데이터를 다루는 도구들은 특정 상황에만 사용되도록 “맞춤 제작”되어 있어 에이전트가 일반적으로 사용할 수 없습니다.

3. 명확한 피드백의 부족: 소프트웨어 분야에서는 코드를 수정하면 즉시 테스트를 통해 올바른지 확인할 수 있지만, 생물학 분야에서는 에이전트가 작업을 올바르게 수행했을 때 명확한 “보상 신호”가 없습니다(예: 데이터 검색 결과의 정확성 확인이 어렵습니다).

반면, 소프트웨어 분야의 인프라는 자동차를 위해 설계되었습니다. 표준화된 API(명확한 도로와 같음)와 버전 관리(교통 규칙과 같음)가 있어 에이전트가 원활하게 작동할 수 있습니다.

2. Karpathy의 불만: 생물학과 웹 개발이 동일한 문제에 직면

몇 달 전, AI 분야의 거장인 Karpathy는 웹 애플리케이션을 개발할 때 코드 작성은 쉬웠지만, 인증이나 결제와 같은 과정에서 브라우저 내에서 반복적으로 클릭해야 해서 일주일이 걸렸다고 불평했습니다. 그는 “코드 자체는 가장 간단한 부분이며, 문제는 클릭 작업에 있다”고 말했습니다.

이것은 생물학 분야의 고충과 정확히 같습니다. 생물학 데이터 도구들은 인간이 수동으로 클릭하기 위해 설계되었습니다. 예를 들어, 바이러스 학자가 데이터베이스에서 서열을 찾아야 할 때 수십 개의 필터 조건을 수동으로 선택해야 하며, 에이전트는 이러한 과정을 자동화할 수 없습니다.

3. 바이러스학 분야의 “클릭 부담”: 인간도 힘들어하는데, 에이전트는 더욱 어렵습니다

에볼라 사태를 예로 들면, 콩고에서 에볼라가 발생했을 때 과학자들은 새로운 바이러스 균주와 과거 데이터를 빠르게 비교하여 기존의 진단 및 치료법이 효과적인지 판단해야 했습니다. 그러나 이 과정에서 NCBI Virus 데이터베이스에서 수십 개의 필터 조건을 수동으로 선택해야 했는데, 이는 지루할 뿐만 아니라 오류가 발생하기 쉬웠습니다.

이러한 “수동 클릭의 번거로움”은 마치 과학 연구에 “클릭 세금”을 내는 것과 같습니다. 인간도 이를 귀찮아하지만, 에이전트는 더욱 어려워합니다. 에이전트는 웹 페이지의 드롭다운 메뉴나 체크박스를 이해할 수 없으며, 모든 필터 규칙을 기억하는 것도 불가능합니다.

4. 에이전트가 직접 데이터를 검색하는 것이 얼마나 신뢰할 수 없는가?

Anthropic 팀은 `VirBench`라는 테스트를 수행하여 여러 AI 모델(GPT-5.5, Claude Opus 등)에게 120개의 바이러스 서열 검색 작업을 시켰습니다. 그 결과:

1. 낮은 정확도: 가장 좋은 모델의 정확도도 91.3%에 불과했으며, 가장 나쁜 모델은 16.9%에 불과했습니다.

2. 불안정한 결과: 같은 모델을 세 번 실행해도 결과에 큰 차이가 있었습니다. 예를 들어, 에볼라 서열을 검색할 때 표준 답은 266개였지만, Claude Sonnet는 세 번에 걸쳐 각각 106개, 15개, 5개의 결과를 반환했습니다.

3. 잘못된 결론 유도: 잘못된 데이터로 분석을 하면 터무니없는 결과가 나올 수 있습니다(예: 바이러스의 공통 조상 시기를 2014년에서 1922년으로 오해하거나, 항체 치료제의 효과를 잘못 판단하는 등).

이러한 문제의 근원은 에이전트가 데이터에 접근할 수 있는 신뢰할 수 있는 경로가 없어서 “추측”에 의존해 작업해야 하기 때문입니다. 결과는 겉보기에는 타당하지만 실제로는 크게 잘못될 수 있습니다.

5. 해결책: 데이터에 “안정적인 인터페이스”를 추가하면 에이전트가 신뢰할 수 있게 작동합니다

Anthropic과 NCBI는 `gget virus`라는 도구를 공동으로 개발하여 복잡한 바이러스 데이터 검색을 에이전트가 직접 호출할 수 있는 “안정적인 인터페이스”로 만들었습니다. 이 도구는 다음과 같은 기능을 제공합니다:

  • 여러 데이터베이스의 API를 조율하여 필터 조건을 자동으로 처리합니다.
  • 표준화된 결과를 출력하며, 상세한 로그를 함께 제공하여 오류 확인이 용이합니다.
  • 대량 검색 및 페이지 나누기와 같은 문제를 해결합니다.

효과는 즉시 나타났습니다. 모든 에이전트의 정확도가 90% 이상으로 향상되었으며(GPT-5.5의 경우 99.7%), 반복 실행 결과도 안정적이 되었습니다.

저자는 강조합니다: 과학 에이전트에게는 “지루하지만 신뢰할 수 있는 기반”이 필요합니다. 모델은 창의성(예: 가설 생성)을 발휘할 수 있지만, 데이터 접근 및 검색 로직은 반드시 안정적이어야 합니다. 미래에 모델이 더 강력해진다고 해도 이러한 신뢰할 수 있는 인프라는 여전히 중요합니다(그렇지 않으면 에이전트는 매번 새로운 “미로를 헤쳐나가야 하며, 이는 느리고 비용이 많이 듭니다).

결론

AI가 생물학의 어려움을 해결하려면 대형 모델만으로는 충분하지 않습니다. 먼저 생물학 데이터 인프라를 에이전트가 사용할 수 있도록 “개선”해야 합니다. `gget virus`는 첫 번째 단계에 불과하며, 앞으로 더 많은 이러한 도구가 필요하여 AI가 과학자들의 신뢰할 수 있는 조력자가 되도록 해야 합니다.