معيار جديد من «جوجل» يكشف عن فجوة الموثوقية بنماذج الذكاء الاصطناعي

المحتوي

“جيميني 3 برو” يتصدر.. والموثوقية لا تزال متأرجحة

في خطوة مهمة نحو معالجة التحدي الأبرز الذي يواجه تطبيقات الذكاء الاصطناعي الواسعة وهو تحدي الموثوقية الواقعية كشفت شركة جوجل ديب مايند. الذراع البحثية التابعة لعملاق التكنولوجيا “جوجل”، مؤخرًا عن مجموعة معايير تقييم جديدة أطلقت عليها اسم “FACTS Benchmark Suite“.

في حين تعد مجموعة المعايير هذه بمثابة اختبار شامل يهدف إلى قياس مدى دقة. وموثوقية نماذج الذكاء الاصطناعي في تقديم إجابات مرتكزة على الحقائق.

اختبارات صارمة لأربعة مجالات حيوية

لا تكتفي معايير “FACTS” باختبار القدرات السطحية للنماذج، بل تتعمق في أربعة محاور أساسية وحاسمة:

المعرفة الداخلية: قياس قدرة النموذج على الإجابة عن أسئلة معلوماتية بالاعتماد على بياناته الداخلية.
استخدام البحث الفعّال: تقييم مدى كفاءة النموذج في استخدام البحث عبر الإنترنت لتعزيز دقة إجاباته.
توثيق الإجابات: اختبار قدرة النماذج على إثبات دقة إجاباتها بالرجوع إلى وثائق طويلة وتقديم الدعم الدقيق بالمصادر.
تفسير الصور: قياس مدى دقة النموذج في تحليل وتفسير البيانات المرئية. وفقًا لـ”تك كرانش”.

Artificial intelligence to help provide health care and agriculture in a sustainable way (Reuters)

“جيميني 3 برو” يتصدر.. والموثوقية لا تزال متأرجحة

وفقًا لتقرير صادر عن موقع “بيزنس إنسايدر” أظهرت نتائج الاختبارات أن أفضل النماذج أداءً هو “جيميني 3 برو” من ” جوجل”. والذي حقق معدل دقة بلغ 69%. وفي المقابل سجلت النماذج الرائدة الأخرى أداءً أقل بكثير.

في حين أن هذا الرقم 69% هو ما يجب أن يقف عنده أصحاب الأعمال والشركات التي تراهن على دمج الذكاء الاصطناعي في عملياتها.

وبينما تظهر النماذج تفوقًا ملحوظًا في السرعة والطلاقة اللغوية، تكشف هذه النتائج عن أن موثوقيتها في تقديم معلومات واقعية دقيقة لا تزال تقل عن التوقعات البشرية بكثير.

العلاج النفسي بالذكاء الاصطناعي

أهمية قصوى للقطاعات الحساسة

لا يمكن التسامح مع الأخطاء الصغيرة في الحقائق عندما يتعلق الأمر بقطاعات حيوية. مثل: المالية، والرعاية الصحية، والقانون. وفي ظل تزايد تأثير الذكاء الاصطناعي في حياة الأفراد تتضاعف أهمية الموثوقية.

وهنا يبرز المثال التحذيري المعروف عندما فصلت إحدى الشركات محاميًا بعد أن قدم مستندًا مليئًا بقضايا وهمية وغير موجودة. كانت اختلقتها أداة “شات جي بي تي” عندما استخدمها لصياغة ملف الدعوى. هذا الحادث يسلط الضوء على العواقب الوخيمة للاعتماد الأعمى على النماذج غير الموثوقة.

الرابط المختصر :