虎嗅

한국어 번역: “두보는 왼쪽으로, 위챗은 오른쪽으로…” 해석: 이 중문 헤드라인은 중국의 인터넷 서비스 ‘두보(豆包)’와 ‘위챗(微信)’의 상반된 성장 방향을 비유적으로 표현하고 있습니다. ‘두보’는 중국 내에서 인기 있는 모바일 메신저 서비스인 반면, ‘위챗’은 해외 시장으로 더 확장하는 추세를 보이고 있습니다. 이 표현은 각 서비스의 전략적 방향성을 간결하게 비교하는 데 사용됩니다.

原文：豆包向左，微信向右

2026-06-05 阅读原文

핵심 내용 요약

위챗은 내장형 AI 에이전트를 테스트 중입니다. 이 에이전트는 위챗의 미니 프로그램들과 연결되어 사용자가 커피 주문, 식당 찾기와 같은 일상적인 작업을 수행할 수 있도록 도와줍니다. 두바오(Doubao)의 “독립적인 AI 인터페이스”와는 달리, 위챗은 기존 생태계에 AI를 통합하는 접근 방식을 취하고 있습니다. 기술적으로는 GUI 에이전트(GUI Agent)라는 방법을 사용하여 AI가 마치 사람처럼 인터페이스를 보고 버튼을 클릭할 수 있도록 하여, 미니 프로그램 개발자의 적응 문제를 해결했습니다. 위챗은 14억 명의 사용자 데이터, 수백만 개의 미니 프로그램 실행 능력, 위챗 페이(WeChat Pay)의 거래 체인 등 독특한 장점을 가지고 있지만, 계산 비용이 높고 권한 경계가 명확하지 않으며, 사용자 반응 인식이 약한 등의 과제도 직면하고 있습니다. 향후 위챗은 “광고 판매” 모델에서 “사용자를 도와 작업을 수행하고 그 대가로 수익을 얻는” 모델로 전환할 가능성이 있으며, 이는 두바오와는 다른 AI 발전 방향을 의미합니다.

상세 해석

1. 위챗 AI 에이전트 vs 두바오: 완전히 다른 두 가지 AI 접근 방식

두바오는 “독립적인 인터페이스”로, 사용자가 의도적으로 앱을 열어 AI의 도움을 받아야 합니다(예: 숙제 작성, 사진 편집 등). 반면 위챗 AI 에이전트는 “생태계에 내장된 형태”로, 사용자가 위챗에서 대화하는 도중에 간단히 요청하면 자동으로 식당을 찾아주거나 예약을 해줍니다(예: 주말에 모임을 가자고 말하면 식당을 찾아주는 등).

두바오는 사용자가 AI를 사용하는 습관을 들이도록 유도하는 반면, 위챗 AI 에이전트는 사용자가 이미 위챗을 사용하는 상황에서 자연스럽게 작업을 대신 처리해줍니다.

2. GUI 에이전트: AI가 마치 사람처럼 미니 프로그램을 사용하도록 하기

일반적인 AI는 미니 프로그램을 사용하기 위해 개발자가 특별한 인터페이스(API)를 작성해야 하지만, 위챗은 수백만 개의 미니 프로그램이 있어 모두에게 이를 적용하는 것이 현실적이지 않습니다. 위챗의 GUI 에이전트는 이 문제를 해결하여 AI가 직접 미니 프로그램 인터페이스를 보고 버튼을 클릭할 수 있도록 합니다.

구체적인 과정은 다음과 같습니다:

인터페이스 이해: AI에게 미니 프로그램의 스크린샷을 보여주면, AI는 “주문” 버튼의 위치를 정확하게 찾아냅니다(위챗 팀은 이 분야에서 세계 최고 수준).
결과 예측: 버튼을 클릭하기 전에 어디로 이동할지 예측해야 합니다(위챗은 시뮬레이션 데이터를 사용하여 AI가 낯선 미니 프로그램도 쉽게 조작할 수 있도록 훈련시킴).
반응 판단: 버튼을 클릭한 후에 작업이 성공했는지 확인해야 합니다(예: 버튼이 회색으로 변하거나 “결제 성공” 메시지가 표시됨). 하지만 이 과정은 아직 개선이 필요합니다(인터페이스의 미세한 변화를 AI가 인식하기 어려움).

3. 위챗의 AI 에이전트 개발을 가능하게 한 “선천적 장점”

위챗은 다른 기업들이 가지고 있지 않은 세 가지 요소를 활용할 수 있습니다:

사용자 데이터: 사용자가 그룹 채팅에서 “차를 마시고 싶다”거나 친구들의 게시물에서 “새로 오픈한 커피숍”을 좋아한다는 등의 실제 요구사항을 AI가 직접 포착할 수 있습니다.
실행 능력: 수백만 개의 미니 프로그램이 거의 모든 생활 상황을 커버하므로, AI가 이를 바로 활용할 수 있습니다(외식 주문, 영화 티켓 구매, 택시 호출 등).
거래 체인: 식당 찾기부터 주문, 결제까지 모든 과정이 위챗 내에서 이루어져 다른 앱으로 이동할 필요가 없으며, 누가 거래를 완료했는지 정확하게 추적할 수 있습니다(ChatGPT와 달리 외부 결제 도구에 의존하지 않음).

4. 시연에서 실제 제품으로: 위챗 AI 에이전트가 극복해야 할 세 가지 과제

시연은 매력적이지만, 실제 제품으로 만들기 위해서는 다음 세 가지 문제를 해결해야 합니다:

높은 비용: AI가 작업을 수행할 때마다 많은 계산 자원이 필요합니다(예: 커피 주문 시 맛 선택, 가격 비교, 미니 프로그램 조작 등). 텐센트는 1분기에만 AI 인프라에 370억을 투자했으며, 장기적인 운영 비용이 큰 문제입니다.
권한 경계: AI가 식당을 찾는 것은 문제없지만, 결제를 대신 할 수 있을까요? 그룹 채팅에서 확인 메시지를 보낼 수 있을까요? 이러한 권한 경계가 명확하지 않아 사용자들이 AI에게 작업을 맡기기 꺼립니다.
기술적 한계: 작업이 성공했는지 판단하는 능력이 부족합니다(예: “결제” 버튼을 클릭했지만 실제로 결제가 이루어졌는지 알 수 없음). 이는 작업 실패로 이어져 사용자 경험에 영향을 미칠 수 있습니다.

5. 수익 모델의 변화: “광고 보여주기”에서 “작업 대신 수수료 받기”로

전통적인 인터넷 비즈니스는 “관심 경제”에 기반을 두고 있습니다(사용자가 광고를 보면 광고주가 비용을 지불함). 하지만 AI 에이전트는 이 과정을 간소화할 수 있습니다:

예: “생일 케이크를 주문하고 싶다”고 말하면, AI가 바로 선택하고 주문해줍니다. 이 경우 브라우징이나 가격 비교 과정을 생략할 수 있어 광고주는 더 높은 수익을 얻을 수 있습니다.

위챗의 1분기 광고 수입은 20% 증가했으며, 이는 AI 추천이 더 정확해졌기 때문입니다. 향후 AI 에이전트는 “광고 추천”에서 “직접 거래 완료”로 전환하여 플랫폼이 수수료를 받을 수 있습니다.

하지만 이 경로에도 위험이 따릅니다. 가트너(Gartner)는 2027년까지 40%의 AI 에이전트 프로젝트가 중단될 것으로 예측하지만, 위챗은 이미 사용자, 미니 프로그램, 결제 시스템을 갖추고 있어 다른 기업들보다 유리한 위치에 있습니다.

결론

위챗 AI 에이전트와 두바오는 AI 발전의 두 가지 방향을 대표합니다: 하나는 AI를 독립적인 도구로 만드는 것이고, 다른 하나는 기존 생태계에 AI를 통합하는 것입니다. 위챗의 접근 방식은 사용자의 일상적인 사용 상황에 더 가깝지만, 비용, 권한, 기술 문제를 해결해야 실제로 구현될 수 있습니다. 앞으로 우리는 위챗을 열고 간단히 말만 하면 AI가 작업을 대신 처리해주는 시대를 목격할 것입니다. 이는 별도의 AI 앱을 사용하는 것보다 더 자연스럽고 상상력에 넘친 형태일 것입니다.