虎嗅

العنوان العربي: خطوة ويتشات AI مثيرة للاهتمام حقًا

原文:微信AI这招挺有意思的

ملخص المحتوى الرئيسي

قامت ويتشات بفتح "الوضع التلقائي" للسماح للتطبيقات الصغيرة (الميني-بروجرامز) بالوصول إلى تقنيات الذكاء الاصطناعي، حيث يمكن لذكاء ويتشات الاصطناعي أن يحول التطبيقات الصغيرة تلقائيًا إلى "مهارات" يمكن للذكاء الاصطناعي فهمها والتحكم فيها بعد أن يوافق المطورون على الكود المصدري. يعتمد ذلك على ثلاث تقنيات رئيسية: التحديد الدقيق للواجهات، والتنبؤ بنتائج العمليات، والتحقق من صحة العمليات. قد يبدو أن المطورين يختارون الانضمام طواعية، لكن عدم الانضمام قد يؤدي إلى فقدان حركة المرور الإضافية التي يمكن أن يجلبها الذكاء الاصطناعي في المستقبل. كما تستخدم ويتشات مصطلحات مألوفة في الصناعة مثل "Skill/MCP" لتغليف واجهات النظام المغلقة، مما يزيد تدريجيًا من اعتماد المطورين على نظامها الخاص.

أولاً، ما هو "الوضع التلقائي" بالضبط؟ - المطورون يسترخون، والتطبيقات الصغيرة تتحول إلى "أدوات" للذكاء الاصطناعي

ببساطة، "الوضع التلقائي" يعني أنك (المطور) تسلم كود المصدري لتطبيقك الصغير إلى ويتشات، وذكاء ويتشات الاصطناعي سيقوم تلقائيًا بتحويله إلى "حزمة مهارات" يمكن للذكاء الاصطناعي فهمها واستخدامها. لا تحتاج إلى فعل أي شيء، لكن الثمن هو أن تطبيقك الصغير يتحول من منتج يفتحه المستخدمون بشكل استباقي إلى ميزة يستدعيها ذكاء ويتشات الاصطناعي نيابة عنهم.

على سبيل المثال: في السابق، كان على المستخدمين فتح تطبيق القهوة بأنفسهم، والبحث عن القائمة، واختيار المواصفات، ثم الطلب؛ لكن في المستقبل، قد يقول المستخدمون مباشرة لذكاء ويتشات الاصطناعي "ساطلب لي كوبًا من القهوة اللاتيه"، وسيقوم ذكاء ويتشات الاصطناعي تلقائيًا بتنفيذ الطلب - وذلك بشرط أنك وافقت على "الوضع التلقائي"، مما يسمح لذكاء ويتشات الاصطناعي بـ"فهم" و"التحكم" في تطبيقك الصغير.

ثانيًا، كيف يمكن لذكاء ويتشات الاصطناعي التحكم في أي تطبيق صغير؟ - ثلاث تقنيات تدعم ذلك

يمكن لذكاء ويتشات الاصطناعي التعامل مع ملايين التطبيقات الصغيرة ذات الواجهات المختلفة بفضل مزيج من التقنيات المستمدة من ثلاث أوراق بحثية:

1. "عين الذكاء الاصطناعي الحادة": POINTS-GUI-G

تشبه عيون الذكاء الاصطناعي؛ إذا أعطيته لقطة شاشة لتطبيق صغير وتعليمات (مثل "البحث عن زر الطلب")، يمكنه تحديد موقع الزر بدقة على مستوى البكسل. حصلت هذه التقنية على المرتبة الأولى في اختبارات تحديد المواقع GUI عالميًا، وحلت مشكلة عدم قدرة الذكاء الاصطناعي على العثور على الأزرار.

2. "الدماغ التنبؤي للذكاء الاصطناعي": UI-Oceanus

البشر يعرفون ما سيحدث عند الضغط على زر، لكن الذكاء الاصطناعي لا يملك هذه القدرة. تقوم هذه التقنية بمحاكاة 5 ملايين مثال على عمليات التطبيقات الصغيرة، مما يسمح للذكاء الاصطناعي بالتنبؤ بما سيحدث عند الضغط على زر معين (مثل ظهور صفحة الدفع بعد الطلب). حتى مع التطبيقات الصغيرة غير المألوفة، يمكن للذكاء الاصطناعي إكمال المهمة دون الحاجة إلى التعلم المسبق، مما يزيد من نسبة النجاح في التنقل بنسبة 21.9٪.

3. "مفتش الذكاء الاصطناعي": DiffSpot

بعد إتمام العملية، يجب على الذكاء الاصطناعي التحقق من صحتها (مثل ما إذا تغير عدد عربات التسوق). لكن هذه التقنية لا تزال غير كافية بعد، حيث يجد النماذج الرئيسية للذكاء الاصطناعي صعوبة في التعرف على التغييرات الدقيقة في الواجهات.

ثالثًا، هل لدى المطورين حق الاختيار حقًا؟ - "الثمن الخفي" وراء الانضمام الطوعي

تقول ويتشات إن "قرار الانضمام يعتمد على المطورين ولا يؤثر على الخدمات الحالية"، لكن هذا يحمي فقط "المستخدمين الحاليين" (أولئك الذين يستخدمون تطبيقك الصغير حاليًا) ولا يتحدث عن "المستخدمين الجدد":

  • بعد إطلاق ذكاء ويتشات الاصطناعي رسميًا، عندما يعتاد 1.4 مليار مستخدم على استدعاء الخدمات باستخدام الذكاء الاصطناعي، فإن التطبيقات الصغيرة التي لم تنضم لن يتم الاعتراف بها من قبل الذكاء الاصطناعي. على سبيل المثال، إذا انضمت منافسو ويتشات، يمكن للمستخدمين طلب تذاكر الطيران مباشرة من خلال الذكاء الاصطناعي دون الحاجة إلى استخدام تطبيقك الصغير؛ وإذا لم تنضم، سيضطرون إلى البحث والطلب بأنفسهم، مما يعني أنك قد تفقد حركة المرور.

هذا يشبه الوضع التالي: الجميع يستخدمون الطريق السريع (الذكاء الاصطناعي)، بينما أنت لا تزال على طريق ريفي (التحكم اليدوي من قبل المستخدمين)؛ الطريق ما زال صالحًا، لكن لا أحد يرغب في اتخاذ طريق أطول.

رابعًا، "تغيير" مصطلحات Skill/MCP - استخدام المصطلحات المفتوحة لتغليف النظام المغلق

مصطلحات Skill وMCP كانت في الأصل معايير مفتوحة في الصناعة:

  • MCP: هو بروتوكول مفتوح المصدر طورته شركة Anthropic، يسمح لأي نظام ذكاء اصطناعي بالاتصال بأي أداة (مثل استخدام الذكاء الاصطناعي من Baidu مع تطبيق Taobao).
  • Skill: هي "حزمة المهارات" التي يكتبها المطورون ويمكن استخدامها على منصات مختلفة (مثل Claude وCursor).

لكن ويتشات قامت بتغيير معاني هذه المصطلحات لتغليف نظامها الخاص.

خامسًا، استنتاج

تقدم تقنيات الذكاء الاصطناعي إمكانيات جديدة لتحسين تجربة المستخدمين، لكنها أيضًا قد تغير طريقة عمل الأنظمة التقليدية. يجب على المطورين والشركات مراقبة هذه التطورات وتحديد كيفية استخدامها لصالح منتجاتهم وخدماتهم.