دراسة: وكلاء الذكاء الاصطناعي أغبياء..ويخطئون بنسبة 70%

وكلاء الذكاء الاصطناعي
الذكاء الاصطناعي الفائق

تتوقع شركة “جارتنر” الاستشارية لتكنولوجيا المعلومات إلغاء أكثر من 40 بالمائة من وكلاء الذكاء الاصطناعي بحلول نهاية عام 2027. وذلك بسبب ارتفاع التكاليف، أو عدم وضوح قيمة الأعمال، أو عدم كفاية ضوابط المخاطر.

هل وكلاء الذكاء الاصطناعي أذكياء؟

فيما قالت الشركة أن ما يقرب من 60% من مشاريع وكلاء الذكاء الاصطناعي سوف يتم الاحتفاظ بها، وهو أمر رائع بالفعل.

نظراً لأن معدل إكمال المهام بنجاح لوكلاء الذكاء الاصطناعي،كما كشف الباحثون في جامعة كارنيجي ميلون وفي Salesforce، لا يتجاوز حوالي 30 إلى 35% للمهام متعددة الخطوات.

الذكاء الاصطناعي
وكلاء الذكاء الاصطناعي

وعلى هذا تزعم “جارتنر” أن معظم بائعي وكلاء الذكاء الاصطناعي يقدمون منتجات أو خدمات لا ترقى في الواقع إلى مستوى الذكاء الاصطناعي.

حيث يستخدم وكلاء الذكاء الاصطناعي نموذج تعلم آليًا متصلًا بخدمات وتطبيقات متنوعة لأداؤ المهام أو العمليات التجارية.

ومن أجل التحقق من الواقع، قام باحثو جامعة كارنيجي ميلون بتطوير معيار لتقييم كيفية أداء وكلاء الذكاء الاصطناعي عند إعطائهم مهام عمل مشتركة مثل:

  • تصفح الويب.
  • كتابة التعليمات البرمجية.
  • تشغيل التطبيقات.
  • التواصل مع زملاء العمل.

وأطلقوا عليها اسم “TheAgentCompany”، وهي بيئة مصممة لمحاكاة شركة برمجيات صغيرة وعملياتها التجارية.

وقد فعلوا ذلك لتوضيح الجدل بين مؤيدي الذكاء الاصطناعي الذين يزعمون إمكانية أدائه لغالبية العمل البشري، والمشككين فيه الذين يرون في هذه الادعاءات جزءًا من عملية احتيال ضخمة في مجال الذكاء الاصطناعي.

Gemini 2.5 Pro

فيما كشفت ورقة بحثية كشفت أن الفجوة بين هذين الموقفين ترجع إلى عدم وجود طريقة لاختبار كيفية تعامل الوكلاء مع أنشطة مكان العمل الشائعة.

من هنا تأتي الحاجة إلى معيار مرجعي، مما يشير إلى أن وكلاء الذكاء الاصطناعي أمامهم طريق طويل قبل أن يصبحوا مفيدين حقًا.

باستخدام إطاري عمل للوكلاء   OpenHands CodeAct و OWL-Roleplay – اختبر علماء جامعة كارنيجي ميلون النماذج  وقيموها بناءً على معدلات نجاح المهام. وكانت النتائج مخيبة للآمال.

Gemini 2.5 Pro

وجدوا الباحصثون  أن النموذج الأفضل أداءً، Gemini 2.5 Pro، كان قادرًا على أداء 30.3% من الاختبارات المقدمة بشكل مستقل. بالإضافة إلى أنه حقق درجة 39.3%

علاوة على أن الباحثين لاحظوا العديد من الإخفاقات تحدث أثناء عملية الاختبار. شملت هذه الإخفاقات:

  • إهمال الموظفين في مراسلة زميلهم حسب التوجيهات.
  • عدم قدرتهم على التعامل مع بعض عناصر واجهة المستخدم، مثل النوافذ المنبثقة أثناء التصفح، وحالات الخداع.
جيميني
Gemini

في إحدى الحالات، عندما لم يتمكن موظف من العثور على الشخص المناسب لاستشارته عبر RocketChat . وهو بديل مفتوح المصدر لـ Slack للتواصل الداخلي.  قرر  إنشاء حل مختصر عن طريق إعادة تسمية مستخدم آخر باسم المستخدم المقصود.

ChatGPT

وفي هذا السياق، قال جراهام نيوبيج، الأستاذ المشارك في معهد تقنيات اللغة في جامعة كارنيجي ميلون وأحد المؤلفين المشاركين في البحث، إن  منهجيتهم الأساسية كانت سؤال ChatGPT عن إمكانية أتمتة المهمة.

ثم سألوا المشاركين عن إمكانية أتمتة المهمة، فأجابوا ChatGPT، ووافق المشاركون في بعض الأحيان.

تطبيق TheAgentCompany

قال نيوبيغ. الذي يعمل أيضًا في شركة ناشئة تعنى بتطوير وكلاء البرمجة. إنه كان متشككًا، لذا أراد إنشاء معيار لاختبار مدى كفاءة نماذج الذكاء الاصطناعي في التعامل مع مهام العمل المعرفي. بعد حوالي ثمانية أشهر من العمل، أصدروا تطبيق TheAgentCompany.

في البداية، كان وكيل البرنامج قادرًا على إنهاء حوالي 24 بالمائة من المهام التي تتضمن تصفح الويب والترميز والمهام ذات الصلة.

مضيفًا أنهم جربوا مؤخرًا إصدارًا أحدث من أحد الوكلاء، وحصل على نسبة 34%. أي أنه ارتفع من الربع إلى الثلث. وذلك بعد حوالي ستة أشهر.

مشيرًا إلى أن هذا المعيار لم يعتمد من قِبل مختبرات الأبحاث الرائدة الكبرى. ربما يكون صعبًا للغاية، ويظهرهم بمظهر سيء.

مشيرًا إلى إنه بالنسبة للوكلاء الذين يتعاملون مع مهام مكتبية عامة، يختلف الوضع. قال: “من السهل جدًا وضع الكود في بيئة عمل افتراضية دون أن يؤثر على أي شيء خارجها.

CRMArena-Pro

أما إذا كان الوكيل يعالج رسائل البريد الإلكتروني على خادم البريد الإلكتروني لشركة ما فقد يرسل البريد الإلكتروني إلى الأشخاص الخطأ”.

يتألف المعيار المرجعي، المسمى CRMArena-Pro ، من تسعة عشر مهمة تم التحقق من صحتها من قبل خبراء عبر عمليات المبيعات، والخدمة  والتسعير، والعروض بين الشركات، والعملاء

وفي هذا الإطاؤ كشف نتائج الدراسة أن حتى وكلاء LLM الرائدين يحققون معدلات نجاح إجمالية متواضعة على CRMArena-Pro، عادةً حوالي 58 بالمائة في سيناريوهات الدورة الواحدة. مع انخفاض الأداء بشكل كبير إلى حوالي 35 بالمائة في إعدادات الدورات المتعددة، كما ذكر علماء الكمبيوتر في Salesforce.

الذكاء الاصطناعي
الذكاء الاصطناعي

وفي الوقت نفسه فإن نتائج الدراسة تقول إن وكلاء LLM ليسوا مجهزين بشكل جيد بالعديد من المهارات الأساسية لمهام العمل المعقدة.

ومع ذلك، يبرز تنفيذ سير العمل كاستثناء ملحوظ، حيث يحقق الوكلاء الأقوياء مثل gemini-2.5-pro معدلات نجاح أعلى من 83 بالمائة.”

ويضيفون أن جميع النماذج التي تم تقييمها تظهر وعيًا شبه معدوم بالسرية. وهذا سيجعل من الصعب تسويق وكلاء الذكاء الاصطناعي في بيئات تكنولوجيا المعلومات الخاصة بالشركات.

إن النتائج التي توصلت إليها CMU وSalesforce تتوافق إلى حد كبير مع تقييم Gartner للحالة الحالية للذكاء الاصطناعي الوكيل.

مع ذلك، لا تزال جارتنر تتوقع أنه بحلول عام ٢٠٢٨، سيتخذ وكلاء الذكاء الاصطناعي حوالي ١٥٪ من قرارات العمل اليومية بشكل مستقل، مقابل ٠٪ العام الماضي.

كما تتوقع الشركة أن ٣٣٪ من تطبيقات برامج المؤسسات ستتضمن الذكاء الاصطناعي الوكيل بحلول ذلك الوقت.

المصدر: theregister

الرابط المختصر :