虎嗅

**새로운 아키텍처 모델 HRM-Text, 혁신적인 기록을 세우다: 10억 개의 파라미터와 1,000달러의 비용으로 튜링상 수상자들까지 직접 참여**

原文:新架构模型HRM-Text创新纪录,1B参数、1000美元,图灵奖得主都亲自下场了

핵심 내용 요약

HRM-Text는 10억 개의 파라미터(1B)를 가진 AI 모델로, 훈련 비용은 단지 1,500달러(16개의 H100 그래픽 카드를 사용하여 이틀도 채 걸리지 않았음)에 불과하지만, 수학적 추론(MATH 56.2점), 초등학교 수학(GSM8K 84.5점) 등의 벤치마크 테스트에서 20억~70억 개의 파라미터를 가진 모델들을 능가했습니다. 이 모델의 핵심 혁신은 기존 대형 모델들이 사용하는 ‘파라미터 증가, 데이터 축적, 연산 능력 향상’이라는 접근 방식을 버리고, 모델 아키텍처(계층적 재귀 계산)와 훈련 목표(답변에 집중)를 재설계함으로써 극소량의 데이터(단 400억 개의 고유 토큰, Llama3.2의 30억 개 파라미터의 1/225에 불과)로도 성공적으로 사전 학습을 수행한 점에 있습니다. HRM-Text는 “컨셉 증명(concept proof)”의 목적으로 만들어졌으며, 이는 제한된 자원 하에서도 아키텍처 혁신이 효율성을 향상시킬 수 있음을 보여줍니다. 심지어 튜링상 수상자인 요슈아 벤기오(Yoshua Bengio)도 유사한 연구를 진행하며 대형 모델 개발에 새로운 방향을 제시했습니다.

상세 분석

1. 왜 소규모 모델이 “약자가 강자를 이길 수 있는가?” – 자원을 많이 사용하는 것이 아니라 ‘영리한 계산’에 달려 있습니다

기존 대형 모델의 논리는 “더 크면 더 좋다”였습니다: 파라미터가 많고, 데이터가 많으며, 연산 능력이 강할수록 지능도 높아집니다. 하지만 HRM-Text는 이와 반대의 접근을 택했습니다: 10억 개의 파라미터(많은 모델에 비해 적음), 1,500달러의 비용(수백만 개의 파라미터를 가진 대형 모델에 비해 훨씬 저렴함), 극소량의 데이터로도 좋은 성능을 거두었습니다. 그 비결은 계산 효율성의 최적화에 있습니다 – 제한된 파라미터를 사용하여 출력 전에 더 많은 유효한 내부 계산을 수행하는 것입니다. 마치 같은 재료로도 일반 요리사는 평범한 음식을 만들지만, 뛰어난 요리사는 정교한 요리를 만듭니다; HRM-Text가 바로 그런 “뛰어난 요리사”입니다.

2. 아키텍처 혁신: 모델이 출력 전에 ‘몇 번 더 생각하도록’ 하기

일반적인 Transformer 모델은 “파이프라인” 방식을 사용합니다: 입력 데이터가 각 계층을 순차적으로 통과하며, 각 계층은 한 번만 처리합니다. HRM-Text는 이를 “반복적인 반복(iterative iteration)” 방식으로 변경했습니다:

  • 두 개의 모듈을 사용합니다: 상위 계층(H)(느리게 업데이트되며 전체 문제의 맥락을 기억하는 역할)과 하위 계층(L)(빠르게 업데이트되며 계산 단계를 조정하는 역할).
  • 출력하기 전에, 모델은 이 두 개의 모듈이 내부 상태를 반복적으로 업데이트하도록 합니다 (예: 단어를 예측하기 전에 6번의 L 업데이트와 2번의 H 업데이트를 수행함). 이는 모델이 내부에서 ‘몇 번 더 생각한’ 후에 답변을 내리도록 합니다.

모델이 반복적인 과정에서 붕괴되지 않도록 하기 위해 두 가지 방법을 사용했습니다:

  • MagicNorm: 계산 과정에서의 데이터 변동을 제어하여 결과가 잘못되는 것을 방지합니다.
  • 점진적인 책임 부여(progressive accountability): 훈련 초기에는 모델이 가장 최근의 계산 단계만 책임지도록 하고, 안정된 후에 이전의 단계까지 점차 확대합니다 (교사가 먼저 최근의 숙제를 검토한 후에 이전의 숙제를 체크하는 것과 같음).

3. 훈련 목표: ‘답변’만 연습하고, ‘문제 복사’는 하지 않기

일반 모델은 모든 텍스트의 다음 단어를 예측해야 하지만(HRM-Text도 마찬가지), HRM-Text는 답변 부분의 오류만을 계산합니다. 예를 들어, 수학 문제를 주었을 때 모델은 문제를 어떻게 재구성할지 배울 필요가 없으며, 정답을 어떻게 구하는지만 배웁니다. 또한 PrefixLM을 사용하여 모델이 전체 문제(지시 부분 포함)를 완전히 이해할 수 있도록 합니다. 이는 교사가 숙제를 검토할 때 정답만 확인하고 복사했는지는 신경 쓰지 않는 것과 같습니다; 훈련이 더 집중적이고 효율적입니다.

4. 단점과 미래: 추론은 강하지만 지식이 부족하므로 ‘역할 분담’이 필요

HRM-Text는 추론 작업(예: 수학 문제)에서는 잘 수행하지만, 광범위한 지식이 필요한 테스트(MMLU 등)에서는 더 큰 모델에 비해 부족합니다. 그 이유는 간단합니다: 데이터가 적고 파라미터가 적어 많은 지식을 기억할 수 없기 때문입니다. 미래의 방향은 추론과 지식의 분리(decoupling of reasoning and knowledge)입니다 – HRM과 같은 모델이 추론 계산에 집중하고, 지식 부분은 외부 데이터베이스나 검색 시스템(사람이 생각할 때 자료를 찾는 것처럼)에 의존하도록 하는 것입니다. 팀은 이 방향에서 초기 결과를 이미 얻었지만 아직 공개하지 않았습니다.

5. 업계적 의미: 대형 모델의 ‘내부 경쟁’에 새로운 경주장을 제공합니다

과거에는 대형 모델 업계에서 누가 더 많은 파라미터와 더 강력한 연산 능력을 가지고 있는지를 경쟁했습니다. 이로 인해 진입 장벽이 점점 높아졌습니다. HRM-Text는 “자원 증가” 외에도 계산 과정의 최적화만으로도 성능을 향상시킬 수 있음을 증명했습니다. 이는 자동차 업계에서 엔진 배기량을 늘리는 것뿐만 아니라 구조를 최적화하여 효율성을 높이는 것과 같습니다. 튜링상 수상자인 벤기오의 연구도 이 방향이 인정받고 있음을 보여주며, 더 많은 소규모 팀이 혁신에 참여할 수 있게 해줄 것입니다. 이제는 “돈을 많이 쓰는” 것만으로 경쟁하는 것이 아닙니다.

결론

HRM-Text는 대형 모델을 대체하려는 것이 아니라, ‘저비용 고효율’의 새로운 길을 제시합니다. 그 가치는 완벽한 제품이 되는 데 있지 않고, 대형 모델의 발전이 “더 크다는 것”뿐만 아니라 “더 영리하게 설계하는 것”으로도 성능과 비용의 관계를 변화시킬 수 있음을 증명하는 데 있습니다. 이는 업계에 있어 “규모만 중요하다는 생각”을 깨는 중요한 신호입니다.