虎嗅

대화: 오크넛, 생강, 강요오 – ‘언어에는 본능이 없지만, 조작에는 있다’; 청화대학 박사들이 8년간 신체 기반의 새로운 접근법에 투자하다

原文：对话橡木果姜峣： “语言没有本能，操作有”，一群清华博士用8年时间押注具身新路线

2026-06-02 阅读原文

핵심 내용 요약

청화대학교의 강요팀(8명의 박사들 모두가 그를 따랐음)은 주류 AI와는 다른 길을 걸으며, 신경과학 연구에서 “조작에는 본능이 있지만 언어에는 본능이 없다”는 사실을 발견했습니다. 8년 동안 “본능 기반의 로봇 제어” 방식을 개발해왔으며, 대량 데이터를 이용한 모델 구축이 아닌 인간과 유사한 촉각 본능 반응(예: 물건을 잡을 때 미끄러짐을 감지하고 힘을 자동으로 조절하는 것)을 로봇에 내재화시켰습니다. 이를 통해 산업 현장에서 VLA(시각-언어-행동) 및 세계 모델의 한계를 극복했습니다. 현재 화장품, 향수 등 소비재 산업에 상용화되고 있으며, “생산 라인을 바꿔도 기계 조정이 필요 없다”는 문제를 해결하는 데 중점을 두고 있습니다.

1. 왜 그들은 AI의 최신 트렌드를 따르지 않았을까? – 조작과 언어는 전혀 다른 개념입니다

주류 AI(예: ChatGPT)는 “대량 데이터 기반의 모델 구축”으로 성공했기 때문에 사람들은 로봇 제어도 같은 방식으로 할 수 있다고 생각합니다. 즉, 시각 정보와 언어 명령을 이용해 데이터를 통해 동작을 학습시키는 것입니다. 하지만 강요팀은 하버드대에서 인간 뇌를 연구하면서 발견했습니다: 언어는 후천적으로 습득되는 것이며(가르치지 않아도 말할 수 있음), 반면에 물건을 잡는 행동은 본능적이어서 거의 모든 사람이 할 수 있으며 그 방식도 비슷합니다. 이는 조작에는 데이터로 만들어지는 것이 아닌 본능이 있다는 것을 의미합니다.

예를 들어, 물 한 병을 잡을 때 전통적인 방법은 물의 무게와 마찰 계수를 미리 알아야 하지만(잡기 전에는 모르죠), 데이터 기반의 방식은 다양한 상황(무거운, 부드러운, 미끄러운 등)을 시뮬레이션해야 합니다. 반면에 본능 기반의 방식은 로봇이 물체가 미끄러지는 것을 감지하면 자동으로 힘을 조절합니다; 미끄럽지 않으면 힘을 줄입니다. 마치 사람처럼 “촉감에 의해” 동작하는 것입니다.

2. VLA와 세계 모델이 왜 실패했을까? – 하드웨어 차이와 접촉 역학의 한계

지난해 인기를 끌었던 VLA(시각-언어-행동)와 올해의 세계 모델은 산업 현장에서 실패했습니다:

VLA의 문제: “작업(예: 물건을 잡는 것)”과 “하드웨어(로봇의 손)”가 결합되어 있습니다. 예를 들어, 같은 형태의 집게라도 조임 강도가 다르면 VLA가 학습한 모델이 적용되지 않아 로봇이 제대로 작동하지 못합니다. 또한 VLA는 촉각 기능이 없어 시각적 동작만을 모방할 뿐, 실제 조작에는 도움이 되지 않습니다.
세계 모델의 문제: 실제 물리 세계를 시뮬레이션하려고 하지만 접촉 행동(예: 펜을 밀는 것)은 행성 운동 예측보다도 어렵습니다. 시뮬레이터는 마찰 계수나 하드웨어의 저항과 같은 세부 사항을 재현할 수 없습니다. 실제 환경에서 벗어난 시뮬레이션은 단지 이론에 불과합니다.

3. 로봇에게 “촉감”을 어떻게 주나요? – 촉각 센서 + 세 가지 본능 반응

강요팀은 7년 동안 촉각 센서를 개발하여 물체의 부드러움, 마찰, 미끄러움 등의 정보를 수집했으며, 로봇에게 세 가지 “본능 반응”을 내재화시켰습니다:

1. 방향성 반응: 물체를 보면 손이 자동으로 다가갑니다.

2. 탐색 반응: 불을 끄고도 물체를 찾을 수 있습니다(촉각을 통해 물체를 인식함).

3. 잡기 반응: 미끄러짐을 감지하면 자동으로 힘을 조절합니다.

예를 들어, 로봇이 신분증을 잡을 때 엄지손가락이 없어서 잡기 어렵다면, 스스로 신분증을 들어 올려서 집습니다. 이는 프로그램으로 정해진 것이 아니라 본능에 의한 행동입니다; 마치 아이가 스스로 문제를 해결하는 것처럼 말입니다.

4. 왜 상용화는 소비재 산업부터 시작했을까? – 자동차 산업은 실패, 소비재 산업의 문제가 더 명확합니다

처음에는 자동차 산업을 대상으로 했지만 어려움을 겪었습니다. 자동차 생산 라인의 속도가 너무 빠르고(분당 100번의 동작), 기계화가 필수적이었으며, 주요 제조업체들은 비용을 아끼려 했습니다. 그러나 소비재 산업(화장품, 향수)의 문제가 더 명확했습니다:

제품 종류가 많고(수백 가지), 생산 라인 변경이 자주 필요합니다(몇 주마다 한 번씩). 전통적인 자동화 방식은 매번 기계를 조정해야 하며, 이로 인한 손실이 큽니다.
예를 들어, 향수의 캔들 심지를 바로잡는 작업: 심지가 부드럽고 굵기가 다르므로 적절한 힘이 필요합니다; 촉각 본능이 없으면 제대로 작동하지 않습니다. 로봇 두 대만으로도 이 작업을 처리할 수 있습니다.

그들의 강점은 “제로 설치 비용”입니다: 로봇을 조정할 필요가 없으며, 바로 사용할 수 있으며, 사용할수록 더 숙련됩니다.

5. 왜 8명의 박사들이 모두 그와 함께 창업했을까? – 신념이 고임금보다 중요하며, 창업이 유일한 길입니다

팀 선발 시 “본능에 대한 신념”을 기준으로 했습니다. 컴퓨터 전공 학생들은 데이터 기반의 사고 방식을 바꿀 수 없으면 팀에 들어올 수 없었습니다. 8명의 박사가 모두 함께한 이유는:

신념의 일치: 본능 기반의 제어가 옳다고 믿으며, 주류 길을 따르지 않기로 했습니다.
학교의 역량 부족: 학교에서는 3년에 한 대의 시제품을 만드는 반면, 시장 지향 기업은 1년에 수천 대를 판매합니다. 창업하지 않으면 경쟁에서 뒤처집니다.
강요팀의 집념: 그는 이 길을 10~30년 동안 계속하겠다고 결심했으며, 팀은 그가 성공할 것이라 믿었습니다.

창업 후에는 힘들었지만(6개월이 5년처럼 느껴졌음), 제품이 출시되고 사용자로부터 데이터를 수집하여 점점 성숙해졌습니다.

결론: 반대 의견의 가치

주류 AI가 “데이터 축적과 시뮬레이션”에 집중하는 동안, 강요팀은 인간의 본능에서 출발하여 로봇 제어의 새로운 길을 찾았습니다. “일반적인 조작”을 추구하는 것이 아니라 “물건 잡기”를 사람보다 더 잘하는 것에 집중했습니다. 이러한 반대 의견의 집념은 업계의 실제 문제를 해결하고 AI 발전에 새로운 방향을 제시합니다: 인간 자체에서 배우는 것이 데이터 축적보다 효과적일 수 있습니다.