Краткое содержание анализа
Развитие искусственного интеллекта (ИИ) в области биологии значительно отстает от прогресса в программировании. Основная проблема не в недостаточных возможностях больших моделей для обработки данных, а в устаревшей инфраструктуре для хранения и поиска биологической информации. Данная инфраструктура была создана с учетом потребностей ручного обработки данных человеком, что не соответствует требованиям современных ИИ-агентов (аналогично старым городам эпохи карет). Исследования компании Anthropic показывают, что решение заключается в создании надежных и удобных инструментов для работы с биологическими данными. Например, совместно с NCBI был разработан инструмент gget virus, который значительно повышает точность и стабильность поиска информации ИИ-агентами.
Основная проблема ИИ-агентов в биологии: устаревшая инфраструктура
Биологическую инфраструктуру можно сравнить со старым городом, не спроектированным с учетом потребностей автомобилей: узкие улицы и много поворотов делают движение ИИ-агентов невозможным. Существует три основных проблемы:
1. Нестандартизированные форматы данных и распределенные базы данных: биологические данные хранятся в различных форматах и базах, отсутствует единый способ их получения;
2. Инструменты для работы с данными являются специализированными: они предназначены для конкретных задач и не могут использоваться в общем порядке;
3. Отсутствие четких сигналов об успехе: в программном обеспечении изменения кода быстро проверяются на корректность, но в биологии отсутствуют явные механизмы подтверждения правильности выполненных действий (например, результатов поиска данных).
В отличие от этого, инфраструктура программного обеспечения создана с учетом потребностей автомобилей: используются стандартизированные API и системы контроля версий, что облегчает работу ИИ-агентов.
Проблемы, характерные для биологии и веб-разработки
Несколько месяцев назад известный специалист по ИИ Karpathy отметил, что написание веб-приложений не представляет сложностей, однако процедуры аутентификации и оплаты требуют много времени (нажатий кнопок в браузере). Это точно так же касается биологии: инструменты для работы с биологическими данными разработаны с учетом ручных действий человека. Например, вирусологам при поиске информации из баз данных приходится вручную задавать множество фильтров, что делает автоматизацию процесса невозможной.
Проблемы, связанные с ручным вводом данных
Например, во время эпидемии Эболы ученым приходилось вручную задавать множество фильтров в базе данных NCBI для поиска информации о новых штаммах вируса. Это не только трудоемко, но и подвержено ошибкам.
Насколько надежны методы автоматического поиска данных?
Команда Anthropic провела тест (VirBench), в ходе которого несколько ИИ-моделей (GPT-5.5, Claude Opus) выполняли задачи по поиску информации о вирусных последовательностях. Результаты показали:
1. Низкая точность: лучший результат составил 91,3%, худший — всего 16,9%;
2. Неустойчивость результатов: один и тот же модель давал сильно разные результаты при трех повторных запусках;
3. Возможность ошибочного анализа: использование неверных данных приводило к ошибочным выводам (например, определение времени общего происхождения вирусов или оценка эффективности лекарств).
Причина этих проблем в отсутствии надежного доступа к данным; ИИ-агенты вынуждены действовать на основе предположений, что приводит к ошибкам.
Решение проблемы: создание стабильных интерфейсов для работы с данными
Команда Anthropic в сотрудничестве с NCBI разработала инструмент gget virus, который представляет собой надежный интерфейс для работы с биологическими данными. Он позволяет:
- координировать работу API нескольких баз данных;
- автоматически обрабатывать фильтры;
- выводить стандартизированные результаты с подробным отчетом о процессе поиска;
- решать проблемы массового поиска и форматирования результатов.
Эффект от использования gget virus был мгновенным: точность работы всех ИИ-агентов увеличилась до более 90% (у GPT-5.5 — до 99,7%), а результаты при повторных запусках стали более стабильными.
Авторы подчеркивают, что для эффективного использования ИИ в научных исследованиях необходима надежная, хотя и скучная инфраструктура. Модели могут обладать творческими способностями, но основы работы с данными должны быть надежными. Даже если в будущем ИИ-модели станут еще сильнее, такая инфраструктура останется важной.
Вывод
Чтобы ИИ мог помочь человеку решать сложные биологические задачи, необходимо сначала модернизировать инфраструктуру для хранения и поиска биологической информации. Инструмент gget virus — это лишь первый шаг; в будущем потребуется еще много подобных решений, чтобы ИИ действительно стал надежным помощником ученых.