虎嗅

**AI, 정말로 머릿속으로 계산하는 법을 배울 수 있을까? 은밀한 사고 과정이 처음으로 이론적으로 증명되다… 스튜어트 러셀도 참여**

原文:AI真能学会心算?隐式思维链首次得到理论证明,Stuart Russell参与

핵심 내용 요약

이 기사는 AI 추론 모델의 “비용 문제”에 초점을 맞추고 있습니다. 현재 AI가 명시적 사고 과정(CoT: Explicit Thinking Chain)을 사용하여 문제를 해결할 때, 많은 중간 단계를 출력하는데, 이로 인해 토큰(token) 소모가 증가하고 추론 속도가 느려집니다. 새로운 연구에서는 “암시적 사고 과정(ICoT: Implicit Thinking Chain)”을 최적화하는 방법인 Log-ICoT를 제안합니다. 이 방법은 트리 구조의 학습 과정을 통해 모델이 중간 단계를 내부에 “내재화”시켜, 추론 시에는 결과만 출력하도록 합니다. 또한 Log-ICoT의 효과를 수학적으로 입증함으로써 AI 추론 비용과 지연을 줄이는 데 이론적 근거를 제공합니다.

1. 명시적 사고 과정(CoT): 비용이 많이 드는 “초안”

AI 모델이 수학 문제를 풀거나 코드를 작성할 때, 인간처럼 단계별로 “생각”하며 이러한 생각 과정(예: 먼저 개位数을 계산하고, 그 다음 십位数을 계산한다)을 토큰 형태로 출력합니다. 하지만 문제는 다음과 같습니다:

  • 비용이 많이 든다: 복잡한 문제의 경우, 생각에 필요한 토큰 수가 일반 대화의 10배 이상일 수 있어 계산 자원 비용이 급격히 증가합니다.
  • 속도가 느립니다: 생각 단계가 순차적이므로 이전 단계가 완료되어야 다음 단계를 진행할 수 있으며, 사고 과정이 길수록 기다리는 시간이 오래 걸립니다.

예를 들어, 아이에게 123×45를 계산하도록 가르칠 때, 아이가 각 단계를 종이에 적고 나서 결과를 확인해야 한다면, AI의 명시적 CoT도 마찬가지로 중간 토큰이 자원과 시간을 모두 소모합니다.

2. 암시적 사고 과정(ICoT): AI가 “심사숙고”하지 않고 바로 답을 내는 방법

AI가 초안을 작성하지 않고 바로 답을 내도록 할 수 있는 방법이 있을까요? 이것이 ICoT의 아이디어입니다. 즉, 중간 단계를 모델의 “뇌”(숨겨진 계층)에 저장하는 것입니다. 이전에도 비슷한 시도가 있었습니다:

  • 먼저 AI에게 명시적 CoT로 문제를 풀게 한 후, 점차 중간 단계를 줄여나가며 모델이 “심사숙고”하는 데 익숙해지도록 합니다.

하지만 단점은 명확합니다: 사고 과정이 16단계라면 15번의 훈련이 필요하며, 비용이 단계 수에 따라 선형적으로 증가합니다. 더 중요한 것은, 이 방법이 반드시 효과적인지를 입증할 수 없다는 점입니다. 훈련 도중 모델이 혼란스러워질 수도 있습니다.

3. Log-ICoT: 트리 구조로 “심사숙고”를 더 효율적으로 만들다

새로운 연구의 핵심 혁신은 트리 구조로 학습 과정을 재설계한 것입니다. 이를 통해 이전의 효율성 문제를 해결했습니다:

  • 사고 과정은 본질적으로 트리와 같습니다. 예를 들어, 16비트의 짝수/홀수 검사는 4개의 이진 트리로 분해할 수 있으며(각 층에서 두 개씩 곱합니다),
  • 한 번에 한 층을 숨깁니다: 이전에는 매번 하나의 토큰을 숨겼지만, 이제는 트리의 한 층 전체를 숨깁니다. 16단계의 사고 과정이라면 단 4번의 훈련만으로도 충분합니다(log₂16=4), 효율성이 3배 이상 향상됩니다.
  • 모델 계층을 정렬합니다: Transformer의 각 층은 트리의 한 층에 해당하며, 첫 번째 층은 가장 낮은 단계의 곱셈 결과를 처리하고, 두 번째 층은 그 위 층의 결과를 처리하는 식으로 진행됩니다. 이렇게 모델의 역할이 명확해져 혼란이 없습니다.

4. 이론적 돌파: “심사숙고”에 처음으로 수학적 근거를 제공

이 논문의 가장 큰 성과는 ICoT의 효과를 엄격한 수학적 방법으로 입증한 것입니다:

  • 정리 결론: L층 Transformer을 Log-ICoT로 훈련하면, 다항식 수준의 샘플과 log₂k번의 훈련만으로도 테스트에서 정확한 답을 바로 출력할 수 있습니다(오차가 매우 작음).
  • 두 가지 큰 문제를 해결했습니다:
  • 표현 축소: 다층 모델은 정보를 “평균화”하는 경향이 있는데, 연구팀은 “게이트”(gate)를 추가하여 각 층이 해당 트리 계층의 정보만 활성화하도록 함으로써 정보 손실을 방지합니다.
  • 오차 전파: 초기 훈련에서 발생한 작은 오차가 증폭될 수 있는데, 연구팀은 주의력 가중치(attention weight)를 “반올림”하여 이미 학습된 계층을 고정시켜 오차가 확산되지 않도록 했습니다.

5. 실험 검증: 4단계의 훈련만으로 “심사숙고”에 완전한 점수를 얻다

연구팀은 16비트 짝수/홀수 검사 작업을 통해 실험을 진행했습니다:

  • 4개의 훈련 단계(4개의 트리 층에 해당)를 거쳐, 마지막 단계에서는 모든 중간 단계가 숨겨졌으며, 모델은 원본 입력만을 확인했습니다.
  • 검증 세트의 정확도는 100%였으며, 주의력 열지도(attention heat map)는 각 층이 트리의 계층과 정확하게 일치하는 것을 보여줍니다. 모델이 실제로 “심사숙고”를 배운 것입니다.

미래의 의미와 도전

  • 의미: 이 방법을 실제 LLM(예: GPT)에 적용하면, 모델의 추론 능력을 유지하면서 토큰 소모와 지연을 줄일 수 있으며, AI 응용 비용(예: ChatGPT의 API 사용료)을 낮출 수 있습니다.
  • 도전: 현재는 합성 작업(짝수/홀수 검사)에서만 검증되었으며, 실제 LLM의 사고 과정에는 명확한 트리 구조가 없습니다. 따라서 해당하는 훈련 단계를 설계하는 방법을 아직 모색해야 합니다.

전반적으로, 이 연구는 AI의 “침묵적 사고”를 “기술”에서 “과학”으로 발전시켜 더 효율적이고 저렴한 AI 추론을 가능하게 합니다.

(전문 용어를 사용하지 않고 일상적인 비유와 예시를 통해 비금융/AI 전문가도 쉽게 이해할 수 있도록 작성되었습니다.)