虎嗅

日本語の見出し: 「豆包は左に、微信は右に」 **解説:** この見出しは中国の金融・ビジネスニュースサイトでよく見られる表現です。「豆包(ドウバオ)」と「微信(ウェイシン)」はそれぞれ異なる方向に進んでいることを象徴しており、「豆包は左に、微信は右に」というフレーズは、市場や技術の発展が異なる方向に進んでいることを示唆しています。例えば、金融業界では伝統的なビジネスモデルが残りつつも、新しいテクノロジーが急速に普及している状況を表す場合に使われます。この表現は日本のニュースでも同様の意味で使われることがあります。

原文:豆包向左,微信向右

核心内容の要約

WeChatは内蔵型のAIエージェントをテストしており、このエージェントを使えばWeChat内のミニプログラムと連携してコーヒーの予約やレストランの検索などの日常的なタスクをユーザーに代わって行うことができます。豆包の「独立したAIエントリー」とは異なり、WeChatが採用しているのは「既存のエコシステムにAIを組み込む」というアプローチです。技術的にはGUI Agentと呼ばれる手法を使用しており(AIが人間のようにインターフェースを見たりボタンをクリックしたりする)、ミニプログラム開発者が対応する必要がなくなっています。WeChatは14億人のユーザーデータや数百万のミニプログラムの実行能力、WeChat Payの決済システムといった独自の強みを持っていますが、計算リソースのコストが高いこと、権限の境界が明確でないこと、操作結果の認識が難しいといった課題も抱えています。将来的にはWeChatのビジネスモデルを「注目度を売る広告」から「ユーザーのタスクを代行して収益を得る」という方向に変える可能性があり、豆包とは異なるAIの発展路線を歩むことになるでしょう。

詳細な解説

1. WeChat AIエージェント vs 豆包:全く異なるAIのアプローチ

豆包は「独立したエントリー」であり、例えばコンビニに行って何かを買う際には豆包アプリを意図的に開いてAIに助けを求める必要があります(宿題の手伝いや写真の加工など)。一方、WeChat AIエージェントは「エコシステムに組み込まれた形」であり、WeChatでチャットしている最中に「週末に集まろう」と言うだけで、自動的にレストランを検索したり席を予約したりしてくれます。

豆包のアプローチは「ユーザーにAIの使用習慣を身につけさせる」ことですが、WeChat AIエージェントはユーザーが既にWeChatを使っているシーンの中で自然にタスクを代行してくれます。

2. GUI Agent:AIにミニプログラムを操作させる

通常のAIがミニプログラムを操作するには開発者が専用のインターフェース(API)を作成する必要がありますが、WeChatには数百万ものミニプログラムがあるため全てのアプリでインターフェースを変更するのは現実的ではありません。WeChatのGUI Agentはこの問題を回避しており、AIが人間のようにミニプログラムのインターフェースを見てボタンをクリックできるようにしています。具体的な手順は以下の通りです:

  • インターフェースの理解:ミニプログラムのスクリーンショットをAIに渡すと、AIは「注文」ボタンの位置を正確に見つけ出します(WeChatチームはこの分野で世界最高の成果を上げています)。
  • 結果の予測:ボタンをクリックする前に、どこに移動するかをAIが予測する必要があります(WeChatはシミュレーションデータを使ってAIを訓練しており、見知らぬミニプログラムでも操作できるようにしています)。
  • 操作結果の判断:ボタンをクリックした後、操作が成功したかどうかをAIが判断する必要があります(例えばボタンがグレーになったり「支払い完了」と表示されたりしますが、この部分はまだ課題です。特にインターフェースの微妙な変化(色の濃淡など)をAIが認識するのは難しい)。

3. WeChatがAIエージェントを実現できる「固有の強み」

WeChatがこのようなことができるのは、他の企業にはない3つの要素を持っているからです:

  • ユーザーデータ:グループチャットで「ミルクティーが飲みたい」と言ったり、友達リストで新しいカフェを「いいね」したりするなど、これらは実際のニーズであり、AIが直接捉えることができます。
  • 実行能力:数百万のミニプログラムがほぼすべての生活シーンをカバーしており(出前の注文や映画チケットの購入、タクシーの呼び出しなど)、AIが直接これらを利用できます。
  • 決済システム:レストランの検索から注文、支払いまで全てWeChat内で完了し、他のアプリに移動する必要がなく、誰が取引を行ったかを正確に追跡できます(ChatGPTのように外部の決済ツールに依存する必要がありません)。

4. デモンストレーションから実用製品へ:WeChat AIエージェントが乗り越えなければならない3つの障害

デモンストレーションは魅力的ですが、実際に使える製品にするためには以下の3つの問題を解決する必要があります:

  • コストの高さ:AIがタスクを1つ処理するごとに大量の計算リソースを消費します(例えばコーヒーの予約では味や価格を比較したりミニプログラムを操作したりする必要があります)。テンセントは第1四半期だけでAIインフラに370億円を投じました。長期的な運用コストは大きな課題です。
  • 権限の問題:AIがレストランを検索するのは問題ありませんが、代わりに支払いを行うことはできるのか?グループチャットで確認メッセージを送ることはできるのか?これらの境界が明確でなければ、ユーザーはAIに操作を任せることをためらいます。
  • 技術的な課題:操作が成功したかどうかを判断する能力がまだ十分ではありません(例えば「支払い」ボタンをクリックしても実際に支払われたかどうかが分からない場合、タスクが失敗しユーザー体験に影響を与えます)。

5. 収益モデルの変化:「広告を見せる」から「タスクを代行して料金を取る」へ

従来のインターネットビジネスは「注目度経済」に基づいており、ユーザーに広告を表示させて広告主が料金を支払います。しかしAIエージェントはこのプロセスを効率化することができます:

  • 例えば「誕生日ケーキを予約したい」と言うと、AIが直接選択して注文を行い、ブラウジングや価格比較の手間を省くことができるため、広告主はこのような「直接の取引」に対してより多くの料金を支払う傾向があります。
  • WeChatの第1四半期の広告収入は20%増加しましたが、これはAIによる推薦がより正確だったからです。将来的にはAIエージェントがこのプロセスをさらに効率化し、「広告の推薦」から「直接取引の完了」へと変わるでしょう。プラットフォームは取引から手数料やサービス料を得ることができます。

しかし、この道にはリスクもあります。Gartnerは2027年までに40%のAIエージェントプロジェクトが中止されると予測していますが、WeChatはユーザー、ミニプログラム、決済システムという基盤を既に持っているため、ゼロから始める必要はありません。

まとめ

WeChat AIエージェントと豆包はAIの発展の2つの方向性を示しています:1つはAIを独立したツールとして、もう1つは既存のエコシステムに組み込むことです。WeChatのアプローチの方がユーザーの日常的な使用シーンに近いですが、コストや権限、技術的な問題を解決する必要があります。将来的には、WeChatを開いて何かを言うだけでAIが自動的にタスクを代行してくれるようになるかもしれません。これは単独でAIアプリを開くよりも自然で、さらに想像力に富んだ未来です。