虎嗅

투링상 수상자 서튼의 신작: AI의 다음 단계는 ‘생성 인지’로 나아가는 것입니다. (Translation of the Chinese headline into Korean.)

原文：图灵奖得主Sutton新作：AI的下一步，是走向“生成认知”

2026-06-02 阅读原文

핵심 내용 요약

튜링상 수상자이자 강화학습의 아버지인 서튼(Sutton)과 학자 라피(Rafiee)가 새로 발표한 논문에 따르면, 현재 주류 AI(대규모 언어 모델, 순수 시각 모델 등)는 “수동적 표현” 방식에 의존하고 있습니다. 즉, 정적인 데이터를 기반으로 내부 세계의 모델을 구축하여 세상을 이해하려 하지만, 이러한 방법은 동적이고 복잡한 실제 세계에 대응할 수 없습니다. 그들은 AI가 “생성 인식(generative cognition)”의 길로 전환해야 한다고 주장합니다. 지능이란 세상의 정적인 복제가 아니라, 환경과의 상호작용, 신체적 행동, 자율적인 평가를 통해 생성되는 것입니다. 생성 인식에는 네 가지 핵심 요소가 있습니다: 경험, 지각과 행동의 통합, 자율성, 신체성. 강화학습은 이러한 개념에 근접하지만, 외부 보상 시스템과 모듈 분리 등의 문제를 개선해야 AI가 진정으로 세상을 “이해”할 수 있습니다.

상세 해석

#### 1. 왜 AI는 논문은 쓸 수 있지만 ‘뜨거움’을 이해하지 못하는가? – 현재 AI의 ‘수동적 표현’의 한계

현재의 AI는 마치 “책벌레”와 같습니다. 엄청난 양의 텍스트나 이미지 패턴을 기억할 수 있지만, 실제 세상을 직접 경험하지 못했습니다. 예를 들어, 대규모 언어 모델(MLM)은 “뜨거운 물이 타것”이라고 쓸 수 있지만, 실제로 뜨거운 물을 만져본 적이 없으므로 그 느낌을 모릅니다. 비디오 생성 모델은 가짜 영상을 만들 수 있지만, 예기치 못한 상황(예: 컵이 갑자기 바닥에 떨어지는 경우)에 대처할 수 없습니다. 왜냐하면 그들의 “인식”은 정적인 데이터에서 비롯되었기 때문입니다.

문제의 근원은 “표현주의(representationalism)”에 있습니다. AI는 내부에 세상의 복사본을 만들려고 하지만, 실제 세계는 동적이며(예: 날씨가 변하거나 사람이 갑자기 움직일 수 있음) 무한히 복잡하기 때문에 어떤 모델도 완벽하게 복제할 수 없습니다. 마치 우리가 도시의 모든 세부 사항을 머릿속에 담을 수 없는 것처럼, AI도 마찬가지입니다.

#### 2. 생성 인식: AI가 진정으로 세상을 이해하려면 실제로 행동해야 한다

생성 인식의 핵심은 “인식은 보는 것이 아니라, 하는 것”입니다. 예를 들어, 인류가 자전거를 배울 때 이론을 먼저 배우는 것이 아니라 몇 번 넘어지고 자세를 조정하면서 배웁니다. 컵이 뜨겁은지 판단할 때도 사진만 보는 것이 아니라 직접 만져보고 뜨거운 느낌을 통해 “뜨겁다”고 이해합니다.

AI에게 이는 단순히 서버에서 데이터를 읽는 것만으로는 충분하지 않으며, 실제 세계와 상호작용해야 한다는 것을 의미합니다. 예를 들어, 로봇이 스스로 컵을 집어 들고 무게와 온도를 느끼거나, 장애물을 피하며 걸어야 합니다. 행동 → 피드백 → 조정의 반복을 통해 진정한 이해를 얻을 수 있습니다.

#### 3. 생성 인식의 네 가지 핵심 요소: AI가 생물처럼 “살아있게” 배우도록 하기

생성 인식에는 네 가지 중요한 원칙이 있으며, 각각 생물의 인식 방식과 일치합니다:

경험 ≠ 데이터: 경험은 직접적인 상호작용의 결과이며, 다른 사람이 제공하는 레이블이 아닙니다. 예를 들어, 감독 학습(supervised learning)은 인간이 데이터를 제공하지만, 강화 학습(reinforced learning)은 AI가 스스로 시행착오를 통해 배웁니다. 그러나 동물처럼 지속적으로 환경을 탐색하고 실패로부터 학습하는 것이 더 중요합니다.
지각과 행동의 통합: 우리가 무언가를 볼 때는 눈을 움직이거나 고개를 돌립니다; 물건을 만질 때도 손가락으로 누르며 단순히 보기만 하는 것이 아닙니다. AI도 마찬가지로, 지각(보거나 듣는 것) 자체가 행동의 일부여야 하며, 신체 자세를 조정하여 더 정확한 정보를 얻어야 합니다.
자율성: 자신만의 목표를 가지는 것: 생물의 행동은 생존을 위함입니다(예: 음식을 찾거나 포식자를 피하는 것). 현재 AI의 보상 대부분은 인간이 설정한 것(예: 게임 점수)이지만, 미래에는 AI가 내재적인 목표를 가질 수 있어야 합니다(예: 로봇이 스스로 “배터리가 다 됐다”고 판단하고 충전을 요청하는 것).
신체성: 신체는 인식에 영향을 미칩니다. 개미에게 의자는 “거대한 장애물”이지만, 인간에게는 “앉을 수 있는 곳”입니다. AI도 물리적인 신체(예: 로봇)를 가지고 있어야 세상을 진정으로 이해할 수 있습니다. 예를 들어, 로봇의 팔 길이는 높은 곳에 있는 물건을 닿을 수 있는지 결정하며, 센서의 위치는 어떤 것을 볼 수 있는지 결정합니다.

#### 4. 강화 학습은 “살아있는 AI”에 이르기까지 아직 세 가지 단계가 필요

강화 학습(RL)은 생성 인식에 가장 근접한 AI 분야입니다(행동과 피드백을 강조하기 때문입니다). 하지만 아직 세 가지 문제가 있습니다:

**보상은 “다른 사람이 제공하는 것”: 예를 들어, 게임 AI의 점수는 인간이 설정한 것이며, 로봇의 생존 필요와는 무관합니다. 미래에는 보상이 로봇 자체의 “자기 유지”에서 비롯되어야 합니다(예: 배터리가 다 되면 “불편하다”고 느끼고 충전을 요청하는 것).
지각과 행동이 분리되어 있음: 많은 RL 시스템은 먼저 환경을 인식한 후에 결정을 내리고 행동합니다. 이는 인간처럼 자연스러운 상호작용과는 거리가 멉니다(예: 컵을 보면 자동으로 손을 뻗어야 합니다).
신체는 ‘도구’일 뿐, ‘핵심’은 아님: 현재 로봇의 신체는 명령을 실행하는 하드웨어에 불과하지만, 미래에는 신체가 인식의 일부가 되어야 합니다. 예를 들어, 로봇의 관절 유연성이 어떤 동작을 할 수 있는지 결정하며, 이는 세상에 대한 이해에 영향을 미칩니다.

#### 5. 미래의 AI: “책상 위에서의 이론”에서 “실제 행동”으로

이 논문은 AI의 미래 방향을 제시합니다:

데이터만으로 학습하는 것이 아니라 실제 세계와 상호작용해야 합니다.
물리적인 신체(신체성)를 가져야 하며, “클라우드에 떠 있는” 모델이어서는 안 됩니다.
인간의 명령에 의존하는 것이 아니라 자율적인 목표를 가져야 합니다.
행동을 통해 배워야 하며, 데이터를 수동적으로 받아들이는 것이 아닙니다.

이러한 방식만으로 AI가 “고수를 모방하는” 것에서 “진정으로 세상을 이해하는 지능체”로 발전할 수 있으며, AGI(일반 인공지능)에 한 걸음 더 가까워질 수 있습니다.

이 논문의 가치는 “모델이 클수록 좋다”는 고정관념을 벗어나, AI의 핵심은 데이터 양이 아니라 세상과의 상호작용 능력임을 상기시켜 줍니다. 인간의 지능도 단순한 암기가 아니라 “삶 속에서의 경험”을 통해 발전했습니다.