핵심 내용 요약
최근 딥 프린시플스(Deep Principles) 팀의 AI 연구 에이전트인 MIRA가 큰 도약을 이루었습니다. MIRA는 재귀적 자가 학습(recursive self-training)을 통해 코드 재구성, 데이터 정제부터 훈련 전략 설계에 이르는 전 과정을 완전히 자율적으로 수행하여 MPA(Material Property Prediction Algorithm)라는 모델을 개발했습니다. 이 모델은 40개의 실험 기반 예측 작업에서 세계 최고 수준(SOTA: State of the Art)의 성능을 보여주었으며, 평균 오차가 10% 감소하고 최대 51%까지 개선되었습니다. 무엇보다도 이는 재료 과학 분야에서 AI의 자기 진화가 본격적으로 시작됨을 의미하며, 일반 인공 지능(AGI: Artificial General Intelligence)의 도래가 예상보다 빨라질 수 있음을 시사합니다.
상세 설명
#### 1. 기존 재료 모델은 “데이터의 양”에 의존했지만, MPA는 “혁신적인 방법”으로 한계를 극복
이전에 상하이에서 개발된 Suiren 모델은 320개의 고성능 GPU와 7천만 개의 데이터를 사용하여 18억 개의 파라미터를 구축하여 당시 최고 성능을 기록했습니다. 하지만 이 모델에는 치명적인 단점이 있었습니다. 즉, 양자 화학 소프트웨어로 대량으로 계산할 수 있는 “계산적 특성”은 예측할 수 있었지만, 실제 연구 개발에서 중요한 “실험적 특성”(예: 끓는점, 독성, 용해도 등)을 예측하는 데는 어려움이 있었습니다.
왜냐하면 실험적 특성은 데이터가 부족하고(한 번의 실험이 며칠이 걸림), 잡음이 많으며(다른 연구소의 결과가 다름), 각 특성 뒤에 숨겨진 물리적 원리가 완전히 다르기 때문입니다(예: 끓는점은 분자간 작용력과 관련이 있고, 독성은 생물학적 메커니즘과 관련이 있음). 데이터와 하드웨어를 단순히 쌓아 올리는 방식으로는 이러한 “물리적 다양성” 문제를 해결할 수 없습니다. MPA는 이러한 문제에 집중하여 AI가 스스로 혁신적인 방법을 찾도록 했습니다.
#### 2. AI가 “전문 연구원”이 되다: 스스로 문제를 생각하고 코드를 수정한다
MIRA는 단순한 연구 도구가 아닙니다. 마치 “올라운드 역량을 갖춘 연구 조수”와 같습니다:
- 자율적 사고: 팀이 MIRA에게 “3D 분자 구조와 실험 데이터가 주어졌을 때, 어떻게 다양한 특성을 예측하는 모델을 설계할 것인가?”라는 질문을 하면, MIRA는 가능한 모든 방법을 체계적으로 분석한 후 UniMol의 3D 구조를 기반으로 모델을 설계합니다.
- 자율적 코드 수정: MIRA는 기존 모델의 소스 코드를 직접 재구성합니다(파라미터를 조정하는 것이 아님). 예를 들어, 중복된 모듈을 제거하고 데이터 흐름을 재설계하며, 사전 학습/중간 학습/후처리 과정의 인터페이스를 표준화합니다. 이 전체 과정에서 인간은 단지 문제를 제시하고 방향을 확인하는 역할만 하며, 코드를 직접 작성하지 않습니다.
이것이 MIRA가 일반적인 연구 도구와 다른 점입니다. MIRA는 모델의 아키텍처와 훈련 프로세스의 내부 코드까지 직접 조작할 수 있습니다.
#### 3. AI도 “연구적 직관”을 가지고 있다: 데이터를 자동으로 정제하고 물리학적 원리를 이해한다
실험 데이터는 여러 데이터베이스에서 수집되어 혼란스럽습니다(단위가 일관되지 않음, 중복된 샘플, 잘못된 라벨 등). MIRA는 이러한 기본적인 문제들을 자동으로 처리할 뿐만 아니라 “물리학적 상식”을 바탕으로 데이터의 타당성을 판단합니다.
예를 들어, 특정 분자의 끓는점 데이터가 그 분자량이나 기능 그룹 구성과 명백히 맞지 않을 경우, MIRA는 해당 데이터를 자동으로 삭제합니다. 이 작업은 전문가가 수주일 동안 수작업으로 해야 했지만, 이제 AI가 자동으로 처리합니다.
#### 4. 세 단계의 학습 과정: LLM의 경험과 물리학적 법칙을 결합하여 모델을 더 스마트하게 만든다
MPA의 핵심은 MIRA가 자체적으로 설계한 “세 단계 학습 프레임워크”입니다. 이 프레임워크는 대형 언어 모델(LLM: Large Language Model)의 학습 방식과 재료 물리학적 법칙을 결합합니다:
- 사전 학습: 6,400만 개의 분자의 일반적인 3D 구조를 학습하여 기초를 다집니다.
- 물리적 원리에 맞춘 중간 학습: 목표 특성과 “공통된 물리적 메커니즘”을 가진 내용만을 학습합니다(예: 열역학적 특성은 가산적이므로, 이에 맞는 기능을 집중적으로 학습함).
- 후처리 학습: Huber 손실 함수를 사용하여 이상값의 영향을 줄이고(기존의 MSE 손실 함수보다 더 안정적임), 분자 크기에 따라 변하는 특성(예: 연소 엔탈피)과 변하지 않는 특성(예: 휘발점)을 처리하는 방식을 설계합니다.
이러한 설계 덕분에 모델은 다양한 물리적 법칙에 자동으로 적응할 수 있으며, 오차가 크게 감소했습니다(예: 연소 엔탈피의 오차가 51% 감소).
#### 5. AI가 스스로를 개선하면서 AGI의 발전이 가속화된다?
MPA의 성능은 매우 뛰어납니다. 40개의 작업에서 모두 SOTA를 기록했으며, 새로운 분자에 대한 예측도 더 안정적입니다(성능 저하율이 Suiren보다 6% 감소). 하지만 더 중요한 것은 이것이 의미하는 바입니다:
이는 “AI를 위한 AI”(AI for AI)의 가장 설득력 있는 사례입니다. MIRA는 AI를 사용하여 모델 코드를 재구성하고, 훈련 데이터를 최적화하며, 학습 전략을 설계함으로써 더 강력한 AI 모델을 만들어냅니다. 인간의 역할은 “실행자”에서 “목표 설정자”로 변했습니다.
이러한 “재귀적 자가 개선”의 과정이 시작되면, 매번의 진화가 이전보다 빨라질 것입니다(더 강력한 AI가 다음 AI를 더 빠르게 개선할 수 있기 때문입니다). 자동 코드 작성에서부터 자동 연구, 그리고 자율적인 모델 개선에 이르기까지 AI의 능력은 빠르게 확장되고 있으며, AGI의 도래는 예상보다 가까워질 수 있습니다.
한 마디로 요약
AI는 이제 스스로 연구를 수행하고 자신의 모델을 개선할 수 있게 되었습니다. 재료 과학은 그 시작에 불과합니다. AGI의 발전은 이미 시작되었으며, 미래는 우리가 생각하는 것보다 더 빨라질 수 있습니다.