虎嗅

**Titulo en español:** La estrategia de AI de WeChat es bastante interesante.

原文:微信AI这招挺有意思的

Resumen del contenido principal

WeChat ha abierto el acceso a los miniaplicaciones a un “modo automático” de IA. Después de que los desarrolladores autorizan el código fuente, la IA de WeChat puede convertir automáticamente las miniaplicaciones en “habilidades” que pueden ser comprendidas y controladas por la IA. Esto se basa en tres tecnologías clave: la localización precisa de interfaces, la predicción de resultados de operaciones y la verificación de la corrección de estas acciones. Aunque los desarrolladores parecen tener la opción de unirse voluntariamente, no hacerlo podría significar perder el aumento de tráfico que la IA puede traer en el futuro. Al mismo tiempo, WeChat utiliza términos conocidos en la industria como “Skill/MCP” para encapsular las interfaces de su ecosistema cerrado, fortaleciendo así la dependencia de los desarrolladores de este mismo ecosistema.

¿Qué es exactamente el “modo automático”? — Los desarrolladores se relajan mientras sus miniaplicaciones se convierten en “herramientas” para la IA

En términos simples, el modo automático significa que usted (el desarrollador) proporciona el código fuente de su aplicación a WeChat, y la IA de WeChat lo convierte automáticamente en un “paquete de habilidades” que puede comprender y utilizar. No tiene que hacer nada más, pero el precio es que su aplicación pasa de ser un producto que los usuarios abren y utilizan activamente a una función que la IA de WeChat llama en su lugar.

Por ejemplo: antes, para pedir un café, el usuario tenía que abrir la aplicación correspondiente, buscar el menú, elegir las opciones y realizar el pedido. En el futuro, podría simplemente decirle a la IA de WeChat “Pideme un latte”, y la IA llamaría automáticamente a la aplicación de café para completar la operación, siempre y cuando haya autorizado el modo automático, lo que le permitiría a la IA “comprender” y “controlar” su aplicación.

¿Cómo logra la IA de WeChat controlar cualquier aplicación? — Tres tecnologías como “impulso oculto”

La IA de WeChat puede manejar millones de aplicaciones con interfaces diferentes gracias a una combinación de tecnologías basadas en tres artículos científicos:

1. El “ojito agudo” de la IA: POINTS-GUI-G

Es como los ojos de la IA; con una captura de pantalla de la aplicación y instrucciones (como “encuentra el botón de pedido”), puede indicar con precisión en qué posición se encuentra el botón. Esta tecnología obtuvo el primer lugar en pruebas globales de localización de interfaces, resolviendo el problema de que las IA no podían encontrar los botones.

2. El “cerebro predictivo” de la IA: UI-Oceanus

Mientras que las personas saben qué ocurrirá al pulsar un botón, las IA no tienen esta intuición. Esta tecnología simula 5 millones de ejemplos de operaciones en aplicaciones, permitiendo a la IA predecir los resultados (por ejemplo, si aparecerá una página de pago después de realizar un pedido). Incluso con aplicaciones completamente desconocidas, la IA puede completar la tarea sin necesidad de aprender previamente, aumentando el éxito de la navegación en un 21.9%.

3. El “verificador” de la IA: DiffSpot

Después de realizar una operación, la IA debe verificar si todo ha ido correctamente (por ejemplo, si la cantidad en el carrito de compras ha cambiado). Sin embargo, esta tecnología aún es bastante deficiente; los modelos de IA más comunes tienen dificultades para reconocer cambios sutiles en las interfaces.

¿Realmente tienen los desarrolladores una elección? — El “precio oculto” detrás de la aparente voluntariedad

WeChat afirma que “la decisión de unirse es independiente y no afecta los servicios actuales”, pero esto solo protege a sus “usuarios existentes” (aquellos que ya usan su aplicación). No menciona a los “usuarios potenciales”: una vez que la IA de WeChat esté disponible oficialmente, con 1.400 millones de usuarios acostumbrados a utilizar servicios mediante IA, las aplicaciones que no se hayan integrado simplemente no serán tenidas en cuenta. Por ejemplo, si un competidor se integra y el usuario pide un boleto de avión, la IA lo hará directamente; si usted no se integra, el usuario tendrá que buscar y realizar el pedido por su cuenta, lo que significa que podría perder tráfico en el futuro.

Es como si todos los demás estuvieran utilizando la autopista (llamadas mediante IA), mientras usted sigue por un camino rural (operaciones manuales). Aunque el camino todavía es usable, nadie quiere dar un largo giro.

El “cambio de significado” de Skill/MCP — Usar términos abiertos para encapsular un ecosistema cerrado

En la industria, Skill y MCP son estándares abiertos:

  • MCP: Es un protocolo open source desarrollado por Anthropic que permite a cualquier IA conectarse con cualquier herramienta (por ejemplo, la IA de Baidu puede usarlo para acceder a Taobao).
  • Skill: Son “paquetes de habilidades” creados por los desarrolladores que pueden ser utilizados en múltiples plataformas (por ejemplo, en Claude y Cursor).

Pero WeChat ha cambiado el significado de estos términos:

  • El MCP de WeChat solo permite que la IA de WeChat se conecte con herramientas dentro de su propio ecosistema.
  • Los Skills creados por WeChat utilizan su código fuente y solo funcionan dentro del ecosistema de WeChat.

Lo más sutil es que muchos desarrolladores chinos toman conocimiento de estos términos por primera vez a través de los documentos de WeChat, lo que les hace pensar gradualmente que “Skill” se refiere a las interfaces que la IA de WeChat utiliza. Al usar términos familiares, WeChat disipa sus sospechas y convierte los estándares abiertos en interfaces cerradas, llevándolos a un entorno donde solo hay una salida: WeChat.

¿A quién afecta esto en última instancia? — Los desarrolladores se vuelven más dependientes, y los usuarios se vuelven más “perezosos”

Para los desarrolladores: ahorran el costo de adaptar sus aplicaciones a la IA, pero su dependencia del ecosistema de WeChat aumenta; desde el tráfico hasta la tecnología y el control de las llamadas de IA, todo está en manos de WeChat.

Para los usuarios: en el futuro, usar aplicaciones podría ser más conveniente (pueden hacerlo con una sola solicitud), pero las opciones podrían reducirse; solo las aplicaciones que se hayan integrado a la IA de WeChat recibirán recomendaciones prioritarias, y los servicios disponibles estarán limitados a aquellos que la IA de WeChat permita.

En resumen, esta acción de WeChat parece ayudar a los desarrolladores a ahorrar esfuerzo, pero en realidad refuerza sus propios muros dentro de la era de la IA. ¿Deben los desarrolladores unirse? Tienen que pensar cuidadosamente: ¿quieren comodidad a corto plazo o control independiente a largo plazo?

(Nota: Los años mencionados en los artículos científicos son ficticios y solo sirven para ilustrar el camino tecnológico.)