核心内容のまとめ
AIが生物学分野での進歩はプログラミング分野に比べて大幅に遅れており、根本的なボトルネックは大規模モデルの推論能力不足ではなく、生物データのインフラストラクチャーが古く時代遅れであることです。これらのインフラストラクチャーは人間が手動で操作するために設計されており(まるで馬車時代の古い都市のように)、AIエージェント(現代の自動車)には適していません。Anthropicの研究によると、解決策はエージェント向けに安定した操作可能なデータツールを構築することであり、例えば彼らがNCBIと共同で開発した「gget virus」は、エージェントが生物データを検索する際の精度と安定性を大幅に向上させることができます。
生物学AIエージェントの最大のボトルネック:「馬車時代の古い都市」のようなデータインフラストラクチャー
生物データのインフラストラクチャーを、自動車が通れないように計画されていない古い都市に例えることができます。具体的な問題は以下の3つです:
1. フォーマットが乱雑でデータベースが分散している:生物データには様々な奇妙なファイル形式があり、データは異なるデータベースに散在しており、統一されたアクセスポイントがありません。
2. ツールがカスタマイズされている:これらのデータを操作するツールは特定のシナリオ向けに作られており、エージェントでは汎用的に使用できません。
3. 明確なフィードバックが欠如している:ソフトウェア分野ではコードを変更するだけで迅速にテストを行い正誤を判断できますが、生物学ではエージェントが正しい処理をしたとしても明確な「報酬信号」がありません(例えばデータ検索が正しいかどうかをすぐに確認することが難しい)。
これに対して、ソフトウェア分野のインフラストラクチャーは「自動車」向けに設計されており、標準化されたAPI(明確な車線のように)やバージョン管理(交通規則のように)があり、エージェントはスムーズに動作できます。
Karpathyの不満:生物学とウェブ開発が同じ問題に直面している
数ヶ月前、AIの権威者Karpathyはウェブアプリケーションを書くのは簡単だが、認証や支払いなどの処理はブラウザ内で何度も操作する必要があり、1週間もかかったと不満を述べています。彼は「コード自体は最も簡単な部分で、面倒なのはクリック操作だ」と言っています。
これは生物学の問題と全く同じです。生物データのツールは人間が手動でクリックするために設計されており、例えばウイルス学者がデータベースから配列を検索する際には数十個のフィルター条件を手動で選択しなければならず、エージェントではこれらのプロセスを自動化することができません。
ウイルス学における「クリック税」:人間も困っているが、エージェントはさらに苦労する
エボラ疫情を例にとると、コンゴでエボラが発生した際に科学者は新しいウイルス株と過去のデータを迅速に比較し、既存の診断法や薬剤が有効かどうかを判断する必要がありました。しかし、このプロセスではNCBI Virusデータベースで数十個のフィルター条件を手動で選択しなければならず(例えば宿主が人間であること、サンプリング場所がアフリカであること、配列長が十分であることなど)、面倒であり、ミスも発生しやすいです。
このような「手動でのクリック操作」はまるで科学研究に「クリック税」を課されているかのようで、人間もエージェントも苦労します。エージェントにとってはウェブページ上のドロップダウンメニューやチェックボックスを理解することができず、すべてのフィルター条件を覚えることも困難です。
エージェントによる自動検索はどれほど信頼できるか?
Anthropicチームは「VirBench」というテストを行い、GPT-5.5やClaude Opusなどの複数のAIモデルに120個のウイルス配列検索タスクを実行させました。その結果、以下の問題が明らかになりました:
1. 精度が低い:最も優れたモデルでも精度は91.3%に過ぎず、最も劣るモデルではわずか16.9%でした。
2. 結果の不安定性:同じモデルを3回実行しても結果に大きなばらつきがありました。例えばエボラ配列を検索すると、正解は266件ですが、Claude Sonnetでは3回にわたってそれぞれ106件、15件、5件の結果が返されました。
3. 誤った結論を導く:誤ったデータを使って分析すると、奇妙な結果が得られることがあります。例えばウイルスの共通祖先の時期を2014年から1922年に間違えたり、抗体薬剤の有効性を誤って判断したりします。
これらの問題の根本原因は、エージェントがデータにアクセスするための信頼できる手段がなく、推測に頼らざるを得ないことです。その結果は一見合理的に見えますが、実際には大きな誤りが含まれています。
解決策:データに「安定したインターフェース」を提供する
AnthropicとNCBIは「gget virus」というツールを共同で開発し、複雑なウイルスデータの検索をエージェントが直接呼び出せるようにする安定したインターフェースに変えました。このツールは以下の機能を持っています:
- 複数のデータベースのAPIを調整し、フィルター条件を自動的に処理します。
- 標準化された結果を出力し、詳細なログを記録する(正誤の確認が容易になる)。
- バッチ検索やページングの問題を解決します。
その効果はすぐに現れました。すべてのエージェントの精度が90%以上に向上し(GPT-5.5では99.7%)、繰り返し実行しても結果が安定しました。
著者は強調しています:科学用のエージェントには「退屈だが信頼できる基盤」が必要です。モデルには創造性(例えば仮説を生成する能力)があっても、データアクセスや検索ロジックの基盤は安定していなければなりません。将来モデルが強化されても、このような信頼できるインフラストラクチャーは依然として重要です(そうでなければエージェントは毎回「迷宮を探す」必要があり、時間もコストもかかります)。
まとめ
AIが生物学の難問を解決するためには、大規模モデルだけでは不十分です。まず生物データのインフラストラクチャーをエージェントが使用できるように「リニューアル」する必要があります。「gget virus」はその第一歩に過ぎません。将来的には、AIが科学者の信頼できる助手となるためのさらなるツールが必要です。