虎嗅

Белки тоже могут проявлять себя необычным образом? Главный научный сотрудник Biohub: следующий прорыв в области биологии — это AlphaFold. С помощью 6,8 миллиарда эволюционных последовательностей был создан самый мощный в истории биологической науки модель биологического языка.

原文:蛋白质也有"涌现"?Biohub首席科学家:下一个AlphaFold在这里,用68亿条进化序列,训练出蛋白质科学史上最强生物语言模型

Краткое содержание статьи

Статья посвящена важному событию в области биологии белков — запуску открытого исходного кода самой мощной на сегодняшний день модели для анализа структуры белков ESM Cambrian, разработанной командой Алекса Ривза (Alex Rives). Эта модель преодолевает проблему уменьшения эффективности при увеличении размеров моделей, используя данные макрогеномики, что подтверждает справедливость так называемого закона масштабирования (чем больше модель и данных, тем быстрее происходит её развитие). ESM Cambrian добилась значительных успехов в области проектирования антител, предсказания структуры белков и открытия новых систем генной инженерии. Эти достижения связаны с планом Biohub по созданию виртуальных клеток на сумму 500 миллионов долларов, целью которого является разработка моделей, способных предсказывать поведение клеток с использованием искусственного интеллекта и экспериментальных данных для лечения заболеваний.

I. Применение закона масштабирования в биологии белков

Закон масштабирования гласит, что чем больше параметров модели и данных для обучения, тем быстрее происходит её совершенствование (аналогично развитию ChatGPT от GPT-3 до GPT-4). Алекс Ривз с 2018 года уверен, что этот принцип может быть применен и в биологии белков:

Белки состоят из аминокислот, и модель может выучить их структуру и функции, предсказывая следующий элемент в этой последовательности. В отличие от языковых моделей, случайно сгенерированные последовательности белков всегда представляют собой законные биологические структуры (в отличие от некорректных данных в языковых моделях). Это связано с фиксированными правилами комбинирования аминокислот. Ключевой момент заключается в том, что контекст аминокислот определяет их структуру и функции, и модель может «понять» суть белка на основе этих данных.

II. Макрогеномика как инновационный подход

Предыдущая версия модели ESM2 столкнулась с проблемой уменьшения эффективности при увеличении размеров и вычислительной мощности. Решение этой проблемы было найдено благодаря использованию данных макрогеномики, что противоречит традиционным подходам биологических исследований:

Традиционные исследования сосредоточены на конкретных вопросах (например, функциях определенных генов) с контролируемыми условиями. Макрогеномические данные собираются из различных источников (гидротермальные источники, антарктический лед, глубоководные области, человеческий кишечник) и сразу подвергаются секвенированию; используются все белковые последовательности. Благодаря большому объему и разнообразию данных эффективность модели значительно улучшилась.

III. Преимущества ESM Cambrian

ESMC добилась значительных успехов в таких областях, как проектирование антител и предсказание структуры белков:

  • Проектирование антител: Антитела играют ключевую роль в лечении заболеваний (около четверти новых лекарств основаны на них), однако их проектирование оставалось сложной задачей. ESM Cambrian использует алгоритмы, не основанные на сравнении множества последовательностей, а напрямую ищет характеристики белков, что повышает эффективность. Это связано с тем, что естественный процесс эволюции антител направлен на обеспечение их разнообразия для борьбы с различными вирусами.
  • Открытие новых систем генной инженерии: Модель создала карту 6,8 миллиардов белковых последовательностей и предсказала структуры 1,1 миллиарда белков. Она также самостоятельно выявила известные биологам функциональные элементы (например, «ядерные локусы») и обнаружила белки с схожими функциями, несмотря на большое эволюционное расстояние между ними.

IV. Создание виртуальных клеток с помощью AI

Команда Алекса Ривза стремится к созданию виртуальных клеток, которые смогут использовать искусственный интеллект для моделирования поведения клеток и предсказания эффектов новых вмешательств (например, лекарств):

Существующие модели виртуальных клеток могут только адаптироваться к имеющимся данным, но не способны предсказывать новые сценарии (например, реакцию клеток на новое лекарство). Цель плана Biohub — разработка моделей, способных делать такие прогнозы. 400 миллионов долларов из выделенного бюджета будут использованы на сбор внутренних данных и технологическое развитие, а 100 миллионов — на сотрудничество с другими учреждениями. Основная стратегия заключается в проведении масштабных экспериментов при различных условиях для получения достаточного количества данных.

V. Будущие проблемы и потребность в совместных усилиях

Несмотря на успехи ESM Cambrian, существуют еще препятствия:

  • Нехватка вычислительной мощности: Алекс Ривз отмечает, что это основное нерешенное проблемное обстоятельство; увеличение мощности в 100 раз позволило бы значительно улучшить модель. Также необходимо расширить объем используемых данных.
  • Потенциал данных: Из доступных данных всего около 100 миллиардов белковых последовательностей, и этот потенциал еще не исчерпан.

Заключение

Статья демонстрирует, как искусственный интеллект радикально меняет биологию белков: от предсказания структуры до разработки лекарств и моделирования клеточного поведения. Открытие ESM Cambrian позволяет большему количеству ученых принять участие в этом процессе, что может привести к новым прорывам в медицине.