虎嗅

단백질도 "등장"하는가? Biohub 수석 과학자: 다음 AlphaFold는 여기에 있습니다. 68억 개의 진화 시퀀스를 사용하여 단백질 과학 역사상 가장 강력한 생물 언어 모델을 훈련시켰습니다.

原文:蛋白质也有"涌现"?Biohub首席科学家:下一个AlphaFold在这里,用68亿条进化序列,训练出蛋白质科学史上最强生物语言模型

핵심 내용 요약

이 기사는 단백질 과학 분야에서의 “ChatGPT 같은 순간”을 중심으로 다룹니다. Alex Rives 팀이 개발한 ESM Cambrian(ESMC)이라는 현재까지 가장 강력한 오픈소스 단백질 기반 모델이 공개되었다는 소식입니다. 이 모델은 메타게놈 데이터를 도입함으로써 모델 훈련 시 발생하는 성능 저하 문제를 해결했으며, “스케일링 법칙”(scaling law, 즉 모델의 규모와 데이터 양이 증가할수록 성능이 급격히 향상된다는 원리)이 단백질 분야에서도 유효하다는 것을 입증했습니다. ESMC는 항체 설계, 단백질 구조 예측, 새로운 유전자 편집 시스템 발견 등 다양한 분야에서 혁신을 이뤘으며, Biohub가 5억 달러를 투자한 “가상 세포” 프로젝트와도 연관되어 있습니다. 이 프로젝트의 목표는 AI와 실험 데이터를 결합하여 세포의 행동을 예측하는 모델을 구축하고, 궁극적으로 질병 치료에 활용하는 것입니다.

1. 단백질 과학에서도 “더 크면 더 좋다”는 원리 – 스케일링 법칙의 적용

“스케일링 법칙”이란 모델의 파라미터가 많고 훈련 데이터가 풍부할수록 모델의 성능이 급격히 향상된다는 것을 의미합니다(ChatGPT가 GPT-3에서 GPT-4로 발전한 것처럼). Alex는 2018년부터 이 원리가 단백질 과학에도 적용될 수 있다고 믿었습니다:

  • 단백질은 아미노산으로 구성된 “사슬”이며, 모델은 다음 아미노산이 무엇인지 예측함으로써 단백질의 구조와 기능 등 숨겨진 정보를 학습할 수 있습니다.
  • 자연어 모델과는 달리, 단백질 모델에서 “무작위로 생성된” 서열이라도 의미가 없을 수 있지만, 아미노산의 조합 규칙은 고정되어 있기 때문에 모델은 이를 학습할 수 있습니다.
  • 중요한 점은 단백질의 아미노산 상황(예: 특정 아미노산 주변의 환경)이 그 구조와 기능을 결정하며, 모델은 이러한 상황을 분석함으로써 단백질의 본질을 “이해”할 수 있습니다.

2. 메타게놈 데이터: 한계를 극복하는 “비전통적인” 방법

이전 모델인 ESM2는 훈련 시 성능 저하 문제에 직면했습니다. 모델의 크기와 연산 능력이 증가해도 성능 향상 속도가 느려졌습니다. ESMC는 메타게놈 데이터를 활용하여 이 문제를 해결했으며, 이는 전통적인 생물학 연구 방식과는 완전히 다릅니다:

  • 전통적인 생물학 연구는 특정 문제(예: 특정 유전자의 기능 연구)에 집중하고 실험 조건을 통제하여 반복적으로 검증합니다.
  • 메타게놈 데이터는 열수 분출구, 남극 얼음, 심해, 인간 장 등 다양한 생물체에서 채취한 샘플을 혼합하여 직접 시퀀싱합니다. 데이터 양이 많고 다양성이 높지만, 출처가 불명확하거나 단편적인 경우도 있습니다.
  • 메타게놈 데이터를 추가한 후 ESMC의 성능 곡선이 다시 “정상화”되었습니다. 이는 기존에는 데이터가 부족했을 뿐, 연산 능력이 부족하지 않았다는 것을 의미합니다.

3. ESMC의 강점: 항체 설계에서 AlphaFold를 뛰어넘고 새로운 유전자 편집 시스템도 발견

ESMC의 주요 성과는 항체 설계와 구조/기능 발견 분야입니다:

  • 항체 설계: 항체는 질병 치료에 중요한 도구이며, 새로운 약물의 약 4분의 1이 항체입니다. 그러나 전장 항체의 설계는 어려웠습니다. ESMC는 “다중 서열 비교”를 사용하지 않고, 모델이 학습한 단백질 특성을 바탕으로 직접 검색하여 치료 효과가 있는 항체(예: scFv 단일 가닥 항체)를 찾아내는 데 성공했습니다. 이는 항체의 진화 목적이 다양성에 있기 때문입니다.
  • 구조 및 기능 발견: ESMC는 68억 개의 서열을 분석하여 11억 개의 단백질 구조를 예측했습니다. 또한 생물학자들이 이미 알고 있는 기능적 특성(예: “친핵 엘보”라는 구조)을 자동으로 학습했으며, 진화적으로 멀리 떨어져 있지만 기능이 유사한 단백질(새로운 유전자 편집 시스템)도 발견했습니다. 이러한 결과는 모델이 스스로 도출한 것으로, 인위적인 지식 입력 없이 이루어졌습니다.

4. 단백질에서 가상 세포까지: Biohub의 5억 달러 투자 목표

Alex 팀의 야망은 단백질에만 국한되지 않습니다. 그들은 AI 모델을 사용하여 세포의 행동을 시뮬레이션하고 새로운 치료법(예: 약물)의 효과를 예측하는 “가상 세포”를 구축하는 것입니다:

  • 현재의 “가상 세포” 모델은 기존 데이터만을 학습할 수 있으며, 새로운 상황(예: 약물을 추가했을 때의 반응)을 예측할 수 없습니다.
  • 목표는 단백질 구조 예측과 마찬가지로 “이전에 시도하지 않은 실험”도 예측할 수 있는 모델을 만드는 것입니다. 예를 들어, 새로운 약물을 입력하면 모델이 세포의 반응을 예측해 줄 것입니다.
  • 5억 달러 투자 계획은 4억 달러가 내부 데이터 생성과 기술 개발에, 1억 달러가 외부 협력에 사용됩니다. 핵심 전략은 “대규모 생물학적 실험”으로, 가능한 한 많은 조건에서 세포를 관찰하여 충분한 데이터를 수집하고 모델이 세포의 규칙을 학습하도록 하는 것입니다.

5. 미래의 과제와 요구: 연산 능력의 한계, ESMC의 활용

ESMC는 강력하지만 아직 해결해야 할 과제가 있습니다:

  • 연산 능력의 한계: Alex는 연산 능력이 가장 큰 잠재적인 제약 요소라고 지적했습니다. 연산 능력이 100배 증가하면 ESMC의 성능도 훨씬 향상될 것이며, 데이터도 동시에 확장되어야 합니다.
  • 데이터의 잠재력: 현재 사용 가능한 단백질 서열은 약 1000억 개에 불과하며, 아직 충분하지 않습니다. 성능 저하 문제는 아직 발생하지 않았습니다.
  • 커뮤니티의 요구: ESMC는 MIT 계약에 따라 오픈소스로 공개되었으며, 전 세계 연구자들이 이를 활용하여 연구를 진행하기를 바랍니다. Alex 팀의 목표는 약물을 개발하는 것이 아니라 과학 발전을 촉진하는 도구를 만드는 것입니다.

결론적으로, 이 기사는 AI가 단백질 과학에 혁명을 일으키고 있음을 보여줍니다. 구조 예측에서 약물 설계, 세포 시뮬레이션에 이르기까지, 미래에는 더 많은 혁신적인 의학적 진전이 있을 것입니다. ESMC의 오픈소스화를 통해 더 많은 사람들이 이 혁명에 참여할 수 있게 되었습니다.