虎嗅

**Doubao hacia la izquierda, WeChat hacia la derecha**

原文:豆包向左,微信向右

Resumen del contenido principal

WeChat está probando un agente AI integrado que puede conectarse con las aplicaciones mini de WeChat para ayudar a los usuarios a realizar tareas diarias como reservar café o encontrar restaurantes. A diferencia de la ruta seguida por DouBao, que ofrece una entrada independiente al AI, WeChat sigue el enfoque de "incorporar el AI en su ecosistema existente". Técnicamente, utiliza un método llamado GUI Agent (que permite que el AI interactúe con las interfaces y haga clics como una persona), lo cual evita los problemas asociados a la adaptación por parte de los desarrolladores de aplicaciones mini. WeChat cuenta con ventajas únicas, como datos sobre las intenciones de 1.400 millones de usuarios, la capacidad de ejecución de millones de aplicaciones mini y un ciclo completo de transacciones a través de WeChat Pay. No obstante, también enfrenta desafíos como los altos costos de computación, la dificultad para definir los límites de permisos y la baja capacidad de reconocimiento de las respuestas de usuario. En el futuro, su modelo de negocio podría cambiar de "vender anuncios basados en la atención de los usuarios" a "ayudarlos a realizar tareas y generar ingresos", lo que representaría dos direcciones diferentes en el desarrollo del AI.

Interpretación detallada

1. WeChat AI Agent vs DouBao: Dos enfoques completamente opuestos al AI

DouBao ofrece una entrada independiente al AI, similar a cuando vas a una tienda y tienes que abrir la app de DouBao para solicitar ayuda (por ejemplo, para hacer tareas escolares o editar fotos). Por otro lado, WeChat AI Agent se integra en el ecosistema existente de WeChat: cuando charlas en WeChat y dices algo como "reunámonos el fin de semana", el agente te ayuda automáticamente a encontrar un restaurante y reservar una mesa sin que tengas que abrir otra app.

El enfoque de DouBao es "entrenar a los usuarios a usar el AI", mientras que el de WeChat es "entrenar al AI a utilizar WeChat". DouBao requiere que los usuarios desarrollen la costumbre de buscar ayuda en esta app, mientras que WeChat AI Agent actúa de manera discreta dentro de las escenas de uso habituales de WeChat, lo que resulta más natural.

2. GUI Agent: Permite al AI interactuar con aplicaciones mini como una persona

Para que el AI pueda utilizar aplicaciones mini, los desarrolladores necesitan crear interfaces especiales (APIs), pero con millones de aplicaciones mini, es inviable pedir a todos que las modifiquen. WeChat utiliza el GUI Agent para evitar este problema: permite al AI interactuar directamente con las interfaces de las aplicaciones mini, como si fuera una persona que hace clics y navega por ellas.

El proceso se divide en tres pasos:

  • Comprensión de la interfaz: Se proporciona una captura de pantalla de la app mini al AI, y este puede identificar con precisión dónde está el botón de pedido (el equipo de WeChat es uno de los mejores a nivel mundial en este aspecto).
  • Predicción del resultado: Antes de hacer clic, el AI necesita saber a dónde irá a parar (WeChat entrena al AI con datos simulados para que pueda operar incluso con aplicaciones desconocidas).
  • Reconocimiento de las respuestas: Después de hacer clic, el AI debe determinar si la acción fue exitosa (por ejemplo, si el botón se vuelve gris o aparece un mensaje de "pago realizado"), aunque este paso aún es una debilidad, ya que el AI tiene dificultades para reconocer cambios sutiles en la interfaz (como cambios en los colores).

3. Ventajas inherentes de WeChat para desarrollar el AI Agent

WeChat cuenta con tres elementos clave que otros no tienen:

  • Datos sobre las intenciones: Los usuarios expresan sus necesidades en grupos de chat o en sus perfiles (por ejemplo, "quiero un té con leche") y el AI puede capturarlas directamente.
  • Capacidad de ejecución: Millones de aplicaciones mini cubren casi todas las situaciones cotidianas (pedir comida a domicilio, comprar boletos de cine, tomar taxis), lo que permite al AI realizar acciones de manera directa.
  • Ciclo completo de transacciones: Todo el proceso (búsqueda de restaurantes, reserva y pago) se lleva a cabo dentro de WeChat, sin necesidad de abrir otras apps, lo que también facilita el seguimiento de quién ha realizado la transacción (a diferencia de ChatGPT, que depende de herramientas de pago externas).

4. Del prototipo al producto: Tres desafíos que debe superar WeChat AI Agent

Aunque la demostración suena prometedora, hay tres problemas que deben resolverse para convertirlo en un producto usable:

  • Costos elevados: Cada acción realizada por el AI consume mucha energía de cómputo. En el primer trimestre de 2024, Tencent gastó 37 mil millones en infraestructura AI, y los costos operativos a largo plazo son un gran desafío.
  • Límites de permisos: No está claro si el AI puede realizar pagos o enviar mensajes en grupos por cuenta del usuario; estos límites aún no están definidos, lo que hace que los usuarios duden en permitir que el AI actúe en su nombre.
  • Deficiencias técnicas: El AI todavía no es capaz de determinar con certeza si una acción fue exitosa (por ejemplo, después de hacer clic en "pago"), lo que puede llevar a errores y afectar la experiencia del usuario.

5. Cambio en los métodos de generación de ingresos

El modelo tradicional de internet se basa en la "economía de la atención": los anunciantes pagan por mostrar sus publicidades, pero el AI Agent podría cambiar esta dinámica:

  • Por ejemplo, si dices "quiero reservar un pastel de cumpleaños", el AI puede elegir y realizar el pedido directamente, eliminando los pasos de navegación y comparación de precios. Los anunciantes estarían más dispuestos a pagar por este tipo de transacciones directas.

Los ingresos publicitarios de WeChat aumentaron un 20% en el primer trimestre de 2024 gracias a las recomendaciones del AI; en el futuro, el AI Agent podría hacer que esto sea aún más eficiente, permitiendo que la plataforma cobre comisiones o servicios por cada transacción.

Sin embargo, este camino también conlleva riesgos: Gartner predice que el 40% de los proyectos relacionados con AI Agent serán cancelados antes de 2027. Pero WeChat cuenta con una ventaja importante, ya que tiene usuarios, aplicaciones mini y un sistema de pago establecido, lo que le permite partir desde una posición favorable.

Conclusión

WeChat AI Agent y DouBao representan dos direcciones diferentes en el desarrollo del AI: uno enfoca en hacer del AI una herramienta independiente, mientras que el otro intenta integrarlo en los sistemas existentes. El enfoque de WeChat es más acorde con las necesidades diarias de los usuarios, pero aún debe superar desafíos técnicos y de permisos para ser verdaderamente viable. En el futuro, podría ser posible abrir WeChat y que el AI resuelva tus necesidades de manera automática, lo cual resultaría más natural y prometedor que usar una app de AI independiente.