Résumé des points clés
WeChat a ouvert la possibilité pour les mini-programs d’accéder à un « mode automatique » permettant à l’IA de les transformer en « compétences » compréhensibles et manipulables par l’IA. Ce processus repose sur trois technologies majeures : une localisation précise des interfaces, une prédiction des résultats des actions et une vérification de la justesse des opérations. Bien que les développeurs aient l’air de pouvoir choisir librement d’y participer, leur refus pourrait les priver de l’accroissement de trafic généré par l’IA à l’avenir. De plus, WeChat utilise le jargon industriel « Skill/MCP » pour masquer ses interfaces évoluées, renforçant ainsi la dépendance des développeurs à son écosystème.
I. Qu’est-ce que ce « mode automatique » exactement ? – Les développeurs se détendent, les mini-programs deviennent des « outils » pour l’IA
En simplifiant, le mode automatique consiste à fournir le code source de son mini-programme à WeChat, qui transformera ensuite celui-ci en une « compétence » compréhensible et utilisable par l’IA. Le développeur n’a rien à faire de plus, mais cela signifie que son mini-programme passe d’un produit activement utilisé par les utilisateurs à une fonction appelée par WeChat AI.
Par exemple, auparavant, pour commander un café, l’utilisateur devait ouvrir le mini-programme correspondant, trouver le menu, sélectionner les options et passer la commande. À l’avenir, il pourrait simplement demander à WeChat AI : « Commande-moi un cappuccino », et l’IA effectuera l’opération en utilisant le mini-programme concerné – à condition que le développeur ait autorisé ce mode automatique.
II. Comment WeChat AI parvient-il à manipuler n’importe quel mini-programme ? – Trois technologies au cœur du système
WeChat AI est capable de gérer des millions de mini-programs aux interfaces variées grâce à une combinaison de technologies issues de trois articles scientifiques :
1. La « vision perçante » de l’IA : POINTS-GUI-G
Celle-ci permet à l’IA, à partir d’une capture d’écran et d’instructions (par exemple : « Trouver le bouton de commande »), de localiser avec précision l’élément souhaité, même au niveau des pixels. Cette technologie a remporté la première place dans les tests mondiaux de localisation graphique, résolvant le problème des IA qui ne parvenaient pas à trouver les boutons.
2. Le « cerveau prédictif » de l’IA : UI-Oceanus
Alors que les humains savent ce qui se passera après avoir cliqué sur un bouton, les IA n’ont pas cette intuition. Cette technologie a simulé des millions d’opérations sur différents mini-programs, permettant à l’IA de prédire les conséquences des actions (par exemple : une page de paiement apparaîtra-t-elle après la commande ?). Même pour des mini-programs inconnus, l’IA peut accomplir la tâche sans préparation préalable, augmentant ainsi le taux de réussite de la navigation de 21,9 %.
3. L’« inspecteur » de l’IA : DiffSpot
Après une action, l’IA doit vérifier si elle a été effectuée correctement (par exemple : le nombre d’articles dans le panier a-t-il changé ?). Cependant, cette technologie est encore limitée, les modèles IA courants ont du mal à reconnaître de légères modifications dans les interfaces.
III. Les développeurs ont-ils vraiment le choix ? – Le « coût caché » derrière la liberté apparente
WeChat affirme que leur décision n’affecte pas les services existants, mais cela ne concerne que leurs utilisateurs actuels. Pour les nouveaux utilisateurs, si WeChat AI est largement adopté (par exemple par 1,4 milliard de personnes), les mini-programs qui n’y sont pas intégrés seront ignorés par l’IA. Si des concurrents le font, les utilisateurs pourront commander directement via ces services, tandis que ceux qui ne sont pas connectés devront effectuer eux-mêmes les recherches et les commandes. Cela signifie qu’ils risquent de perdre du trafic.
C’est comme si tout le monde utilisait l’autoroute (l’appel par IA), tandis que vous restez sur une petite route de campagne (opérations manuelles) : bien que la route soit encore praticable, personne n’aime faire un détour.
IV. Le détournement du jargon « Skill/MCP » pour masquer un écosystème fermé
Dans l’industrie, les termes « Skill » et « MCP » sont des standards ouverts :
- MCP : un protocole open-source développé par Anthropic qui permet à toute IA de se connecter à n’importe quel outil (par exemple, Baidu AI peut ainsi utiliser Alibaba).
- Skill : une compétence créée par un développeur et utilisable sur différentes plateformes (comme Claude ou Cursor).
WeChat a cependant détourné le sens de ces termes :
- Le MCP de WeChat ne permet que aux IA de se connecter aux outils intégrés à WeChat.
- Les « Skills » créées par WeChat utilisent leur code source et ne fonctionnent que dans son écosystème.
Plus subtil encore, de nombreux développeurs français découvrent ces termes dans les documents officiels de WeChat, ce qui peut les amener à penser que « Skill » désigne simplement l’interface permettant à l’IA d’appeler un mini-programme. WeChat utilise ainsi des mots familiers pour dissiper leurs méfiances et transformer les standards ouverts en interfaces fermées.
V. Qui est vraiment affecté par cette mesure ? – Les développeurs devenant plus dépendants, les utilisateurs devenant plus « paresseux »
Pour les développeurs : cela leur évite les coûts d’adaptation à l’IA, mais ils deviennent encore plus dépendants de l’écosystème WeChat (trafic, technologies, pouvoir d’appel par IA).
Pour les utilisateurs : l’utilisation des mini-programs pourrait devenir plus simple, mais le choix des services sera limité aux seuls intégrés à WeChat AI. Les services disponibles seront ceux autorisés par WeChat.
En conclusion, cette initiative de WeChat semble aider les développeurs, mais elle renforce en réalité ses propres barrières écosystémiques à l’ère de l’IA. Les développeurs doivent réfléchir : privilégient-ils le confort à court terme ou le contrôle indépendant à long terme ?
*(Note : Les années mentionnées dans les articles scientifiques sont fictives et servent uniquement à illustrer la ligne technologique.*