虎嗅

로봇들이 아직 대규모로 돈을 벌지 못하는 가운데, “데이터를 파는” 회사들이 먼저 유니콘 기업이 되었습니다.

原文：机器人还没大规模赚钱，“卖数据的”先成独角兽了

2026-06-02 阅读原文

핵심 내용 요약

최근 신체화된 지능(즉, 사람처럼 인식하고 결정하며 행동하는 로봇 기술) 분야에서 “골드러너들은 돈을 벌지 못했지만, 삽을 파는 사람들이 먼저 부유해졌다”는 현상이 나타났습니다. 로봇 자체는 아직 대규모로 이익을 내지 못하고 있지만, 로봇 훈련에 사용되는 데이터 수집 사업은 급성장하고 있습니다. 여러 데이터 수집 회사들이 대규모 자금 조달과 주문을 받았으며, 보쉬, 징동과 같은 대기업들도 이 분야에 뛰어들고 있습니다. 이 경쟁 분야는 로봇 회사의 부수적인 사업에서 자본이 독립적으로 평가하고 거대 기업들이 투자하는 독립적인 시장으로 변모했습니다. 그 배경에는 데이터 부족, 강한 수요, 자본의 추진력 등이 있습니다. 현재 참여자들은 세 가지 유형으로 나뉘며, 대기업들의 진입으로 업계의 논리가 재구성되고 있습니다. 앞으로 데이터의 질과 상호 연동성이 최종 결과를 결정할 것입니다.

1. 왜 데이터 수집이 로봇 자체보다 먼저 돈을 벌까? 세 가지 이유

이 문제를 이해하려면 신체화된 지능의 “데이터 핵심 요소”를 명확히 알아야 합니다:

엄청난 데이터 부족: 대형 언어 모델(GPT 등)은 인터넷에서 수십 년 동안 축적된 텍스트 데이터를 사용하지만, 신체화된 모델에는 로봇과 실제 세계의 상호작용 데이터(물건을 잡거나 장애물을 피하는 3차원 동작 등)가 필요합니다. 이러한 데이터는 실제 로봇을 사용해 수집해야 하며, 현재 전 세계적으로 고품질의 이런 데이터는 약 50만 시간 분량에 불과하며, 대형 언어 모델의 2만 시간 분량도 채 되지 않습니다. 게다가 다양한 로봇과 센서의 데이터 형식이 통일되어 있지 않아 공유하기 어렵고, 부족 현상이 더 심각합니다.
강한 수요: 모델을 만드는 회사든 로봇을 제조하는 회사든 데이터를 서둘러 구매합니다. 데이터를 먼저 확보하면 먼저 모델을 훈련시키고 고객에게 제공할 수 있으며, 시장을 선점할 수 있기 때문입니다. 보쉬나 니더라이트와 같은 기업들은 데이터 회사와 협력하여 자신의 공장 생산 라인을 개방해 데이터를 수집하는데, 이는 데이터의 질이 로봇의 성능을 결정한다는 것을 잘 알고 있기 때문입니다.
자본의 상류로의 흐름: 2026년 이후 로봇 자체에 대한 투자 문턱이 높아졌으며(상위 기업들의 평가액은 수십억 위안을 초과), 소규모 기관들은 투자할 여력이 없어 상류의 데이터 수집 분야로 전환했습니다. “전체 산업의 데이터에 대한 강한 수요에 베팅하는 것이 단일 로봇 제품에 베팅하는 것보다 더 안정적”입니다.

이 세 가지 요소가 합쳐져 데이터 수집 분야가 먼저 상업화의 이익을 얻게 되었습니다.

2. 경쟁 참여자들은 세 가지 유형으로 나뉜다: 전문 데이터 회사, 로봇 자체와 데이터 분리, 다른 산업의 거대 기업

현재 데이터 수집 분야의 참여자들은 각자의 생존 논리를 가지고 있습니다:

전문 데이터 회사: 로봇을 제조하지 않고 데이터 인프라만 구축합니다. 예를 들어, 광륜 지능(Guanglun Intelligence)은 설립된 지 3년 만에 전 세계 최초의 신체화된 지능 분야 유니콘 기업(평가액 10억 달러 이상)이 되었으며, 1분기에 5.5억 위안의 주문을 받았습니다. 고객으로는 엔비디아(NVIDIA),的字节(Baidu), 지원 로봇(Zhiyuan Robot) 등이 있으며, 이들은 업계의 “전력·수도·석유 공급자”와 같습니다. 무문 지과(Wuwen Zhike)는 국내에서 가장 큰 실제 훈련장을 구축하여 물류, 산업 등 6가지 시나리오를 커버하며 하루에 수천 시간 분량의 데이터를 생산합니다. 자금 조달 시에는 풍력 발전, 자동차 검사 등 다른 산업 분야의 기업들도 참여시켜 미리 주문을 확보했습니다.
로봇 자체와 데이터 분리: 로봇을 제조하는 회사들은 데이터 사업을 독립적으로 운영합니다. 예를 들어, 지원 로봇(Zhiyuan Robot)은 데이터 수집 및 거래 업무를 미풍 과학(Mifeng Technology)로 분리하여 10일 만에 수억 위안의 자금을 조달했습니다. 이 모델은 로봇 자체가 제품 개발에 집중할 수 있게 하면서 데이터 사업도 독립적으로 수익을 창출할 수 있게 합니다.
다른 산업의 거대 기업: 자신들의 시나리오 우위를 활용해 이 분야에 진입합니다. 예를 들어, 징동(Jingdong)은 60만 명의 인력을 동원하여 2년 안에 1,000만 시간 분량의 실제 시나리오 데이터를 수집할 계획입니다(자체 물류 및 창고 시설을 사용하며, 장소를 대여하지 않음). 바이두 지능 클라우드(Baidu Intelligent Cloud)는 “신체화된 지능 데이터 슈퍼마켓”을 운영하여 데이터를 상품처럼 판매합니다. 중국 이동(China Mobile)은 가정용 훈련장을 구축했습니다. 이러한 거대 기업들은 소규모 회사의 사업을 빼앗으려는 것이 아니라 “데이터 플랫폼”을 구축하려는 것입니다. 앞으로 로봇 회사들은 클라우드 컴퓨팅처럼 필요에 따라 데이터를 플랫폼에서 직접 사용할 수 있게 될 것입니다.

3. 징동 등 대기업의 진입: 사업을 빼앗으려는 것이 아니라, 업계 규칙을 재구성하려는 것

대기업들의 참여로 경쟁 분야에 두 가지 중요한 변화가 생겼습니다:

규모의 효과: 징동은 이미 갖춘 물류 및 창고 시설을 활용하여 60만 명의 인력이 수집하는 데이터량은 스타트업들이 몇 년 동안 달성할 수 없는 규모입니다. 이러한 규모는 데이터 비용을 신속하게 낮추어 하위의 로봇 회사들이 고품질의 데이터를 사용할 수 있게 합니다.
플랫폼화의 추진: 바이두의 “데이터 슈퍼마켓”과 징동의 “전체 라인 인프라”는 분산된 데이터를 표준화된 “상품”으로 전환하는 것입니다. 앞으로 소규모 회사들은 자체적으로 데이터 수집 팀을 구축할 필요가 없으며, 플랫폼에서 직접 데이터를 구매하면 됩니다(예: 온라인 쇼핑몰을 운영할 때 자체 서버를 구축하지 않고 알리 클라우드(Ali Cloud)를 사용하는 것과 같습니다). 이로 인해 업계는 “분산된 수집”에서 “플랫폼화된 공급”으로 전환될 것이며, 스타트업들은 자신의 위치를 재정립해야 합니다: 플랫폼 공급자가 되거나 데이터 도구 제조업체가 되거나 시나리오와 깊이 결합해야 합니다.

4. 경쟁의 최종 결과: 누가 데이터 질의 기준을 정하느냐에 따라 미래가 달려있다

이 데이터 경쟁의 최종 결과는 데이터 양이 많은 쪽이 아니라 다음 두 가지 요소에 달려 있습니다:

데이터 질에 대한 발언권: 니더라이트, 보쉬와 같은 기업들은 데이터의 질을 결정하는 데 큰 영향력을 가집니다.
혁신의 속도: 새로운 기술과 서비스를 빠르게 도입하는 회사가 시장에서 우위를 차지할 것입니다.