Zusammenfassung der Kerninhalte
WeChat hat den „Automatikmodus“ für die Integration von Mini-Apps mit KI freigegeben. Nachdem Entwickler ihre Quellcodes autorisiert haben, kann WeChat’s KI diese Mini-Apps automatisch in „Fähigkeiten“ umwandeln, die von der KI verstanden und gesteuert werden können. Hinter dieser Funktion stecken drei Schlüsseltechnologien: die präzise Lokalisierung von Benutzeroberflächen, die Vorhersage von Operationsergebnissen sowie die Überprüfung der Richtigkeit von Aktionen. Obwohl Entwickler dies freiwillig tun können, könnte das Fehlen dieser Integration zu einem Verlust zukünftiger Nutzerströme durch KI führen. Zudem verpackt WeChat seine geschlossene Ökosystem-Schnittstellen mit den in der Branche bekannten Begriffen „Skill“ und „MCP“, um die Abhängigkeit der Entwickler von seinem Ökosystem still und heimlich zu verstärken.
Was ist eigentlich der „Automatikmodus“? – Entwickler überlassen die Arbeit WeChat’s KI, Mini-Apps werden zu „Werkzeugen“ für KI
Einfach ausgedrückt: Im Automatikmodus geben Sie WeChat den Quellcode Ihrer Mini-App, und WeChat’s KI wandelt diese automatisch in eine „Fähigkeitsdatei“ um, die von der KI verstanden und genutzt werden kann. Sie müssen nichts tun – allerdings wird Ihre App dadurch von einem Produkt, das die Nutzer aktiv öffnen und nutzen, zu einer Funktion, die von WeChat’s KI aufgerufen wird.
Beispiel: Früher mussten Nutzer selbst ein Café-Mini-App öffnen, das Menü durchsuchen, die gewünschten Optionen auswählen und den Auftrag geben. In Zukunft könnten sie einfach zu WeChat’s KI sagen: „Bestelle mir einen Latte“, und die KI würde das Mini-App automatisch aufrufen, um den Auftrag auszuführen – vorausgesetzt, Sie haben dem Automatikmodus zugestimmt und WeChat’s KI damit die Erlaubnis gegeben, Ihre App zu verstehen und zu steuern.
Wie schafft es WeChat’s KI, beliebige Mini-Apps zu steuern? – Drei Technologien als „Hintergrundtreiber“
WeChat’s KI kann Millionen von Mini-Apps mit unterschiedlichen Benutzeroberflächen verarbeiten, und das dank einer Kombination aus drei Technologien:
1. Die „scharfen Augen der KI“: POINTS-GUI-G
Diese Technologie funktioniert wie die Augen der KI: Mit einem Screenshot der Mini-App und Anweisungen (z. B. „Suche nach dem Bestellbutton“) kann sie genau bis auf Pixeln genau zeigen, wo sich der Button befindet. Sie erzielte weltweit die beste Leistung bei GUI-Lokalisierungstests und löste das Problem, dass KI-Botscheine nicht finden konnten.
2. Die „Vorhersagefähigkeit der KI“: UI-Oceanus
Menschen wissen vor dem Buttonklick, auf welche Seite sie gelangen werden – KI hingegen verfügt nicht über solche Intuitionen. Diese Technologie hat basierend auf 5 Millionen Beispielen von Mini-App-Benutzungen vorhergesagt, was passieren wird, wenn man einen Button klickt (z. B., ob nach dem Bestellen eine Zahlungsseite erscheint). Selbst bei völlig unbekannten Mini-Apps kann die KI die Aufgabe ohne Vorablernen erfolgreich erledigen; die Navigationserfolgsrate stieg um 21,9 %.
3. Die „Überprüfungsfunktion der KI“: DiffSpot
Nach einer Aktion muss die KI überprüfen, ob alles korrekt ist (z. B., ob sich die Anzahl der Artikel im Warenkorb geändert hat). Allerdings ist diese Technologie noch nicht ausgereift – die meisten aktuellen KI-Modelle haben Schwierigkeiten, feine Veränderungen in Benutzeroberflächen zu erkennen.
Haben Entwickler wirklich eine Wahl? – Die „versteckten Kosten“ hinter der Freiwilligkeit
WeChat behauptet, dass die Entscheidung, ob sie den Automatikmodus nutzen wollen oder nicht, ihre aktuellen Dienstleistungen nicht beeinträchtigt. Doch dies schützt nur Ihre bestehenden Nutzer; neue Nutzer werden möglicherweise benachteiligt sein: Wenn WeChat’s KI offiziell verfügbar ist und 1,4 Milliarden Nutzer daran gewöhnt sind, Dienste über die KI zu nutzen, werden Mini-Apps, die nicht integriert sind, einfach ignoriert. Wenn Konkurrenten den Automatikmodus nutzen, können Nutzer beispielsweise direkt bei ihnen einen Flug buchen – Sie hingegen müssen selbst suchen und bestellen. Das könnte zu einem Verlust von Nutzerströmen führen.
Die „Veränderung der Begriffe Skill/MCP“ – Offene Standards werden zu geschlossenen Ökosystemen
In der Branche sind „Skill“ und „MCP“ eigentlich offene Standards:
- MCP ist ein Open-Source-Protokoll von Anthropic, das es jeder KI ermöglicht, mit beliebigen Tools zu interagieren (z. B. kann Baidu’s KI damit auch mit Taobao kommunizieren).
- Skill sind „Fähigkeitspakete“, die von Entwicklern erstellt werden und auf verschiedenen Plattformen genutzt werden können.
WeChat hat jedoch diese Begriffe manipuliert:
- WeChats MCP ermöglicht es nur, dass WeChat’s KI mit eigenen Tools interagiert.
- WeChats Skills werden mithilfe Ihrer Quellcodes erstellt und funktionieren ausschließlich innerhalb des WeChat-Ökosystems.
Noch versteckter ist, dass viele chinesische Entwickler diese Begriffe erstmals in den WeChat-Dokumenten kennengelernt haben und allmählich anfangen zu glauben, dass „Skill“ einfach die Schnittstellen sind, über die WeChat’s KI auf ihre Mini-Apps zugreifen kann. Dadurch wird der Eindruck erweckt, als wären offene Standards tatsächlich geschlossene Systeme – WeChat verwandelt somit offene Standards in eigene Barrieren.
Wer wird letztendlich davon betroffen sein?
Für Entwickler: Sie sparen die Kosten für die Anpassung ihrer Mini-Apps an KI-Anforderungen, müssen sich aber stärker auf das WeChat-Ökosystem verlassen – von den Nutzerströmen über die verwendeten Technologien bis hin zur Kontrolle über die Nutzung durch KI.
Für Nutzer: Die Nutzung von Mini-Apps wird möglicher werden, doch die Auswahl wird eingeschränkt: Nur solche Apps, die mit WeChat’s KI integriert sind, werden bevorzugt empfohlen. Die Dienste, die Sie nutzen können, sind davon abhängig, ob WeChat’s KI dies erlaubt.
Zusammenfassung: Mit diesem Schritt hilft WeChat Entwicklern zwar, Kosten zu sparen, stärkt aber gleichzeitig die Barrieren seines eigenen Ökosystems in der Ära der KI. Sollten Entwickler den Automatikmodus nutzen oder nicht? Sie müssen entscheiden: Ist es kurzfristige Bequemlichkeit oder langfristige Autonomie?
*(Hinweis: Die genannten Technologie-Papers sind fiktive Jahreszahlen und dienen nur zur Veranschaulichung der technologischen Entwicklung.)