يزعم فريق من الباحثين أن لعبة Super Mario أكثر صعوبة بالنسبة للذكاء الاصطناعي. حيث قام مختبر Hao AI، وهو منظمة بحثية في جامعة كاليفورنيا سان دييغو. بإدخال الذكاء الاصطناعي في ألعاب Super Mario Bros.
الذكاء الاصطناعي ولعبة Super Mario
زود برنامج GamingAgent، الذي طورته شركة Hao الذكاء الاصطناعي بالتعليمات الأساسية للعب في ألعاب سوبر ماريو. مثل “إذا كان هناك عقبة أو عدو قريب، فانتقل/اقفز إلى اليسار للتهرب”. ولقطات شاشة داخل اللعبة. ثم قام الذكاء الاصطناعي بإنشاء مدخلات في شكل كود Python للتحكم في ماريو.
وكان أداء Claude 3.7 من Anthropic هو الأفضل في اللعبة. يليه Claude 3.5. بينما عانى Gemini 1.5 Pro من Google، و GPT-4o من OpenAI.
لم تكن النسخة من Super Mario Bros. هي نفسها تمامًا مثل الإصدار الأصلي لعام 1985. حيث كانت اللعبة تعمل في محاكي ومتكاملة مع إطار عمل، GamingAgent. لمنح الذكاء الاصطناعي السيطرة على ماريو.
ومع ذلك، يقول المختبر إن اللعبة أجبرت كل نموذج على “التعلم” للتخطيط للمناورات المعقدة وتطوير إستراتيجيات اللعب. ومن المثير للاهتمام أن المختبر وجد أن نماذج الاستدلال مثل o1 من OpenAI. التي “تفكر” في المشكلات خطوة بخطوة للوصول إلى الحلول. وكان أداؤها أسوأ من النماذج “غير الاستدلالية”. وعلى الرغم من كونها أقوى بشكل عام في معظم المعايير.
لعبة Super Mario Bros
يقول الباحثون إن أحد الأسباب الرئيسة التي تجعل نماذج التفكير تواجه صعوبة في لعب ألعاب الوقت الحقيقي مثل Super Mario. أنها تستغرق بعض الوقت “ثوانٍ عادةً” لاتخاذ قرار بشأن الإجراءات. في لعبة Super Mario Bros. التوقيت هو كل شيء. ويمكن أن تعني الثانية الواحدة الفرق بين القفز بأمان والسقوط إلى حتفنا.
ووفق تقرير موقع techcrunch، الذي اطلعت عليه عالم التكنولوجيا، لقد تم استخدام الألعاب لمعايرة الذكاء الاصطناعي لعقود من الزمن. ولكن بعض الخبراء شككوا في حكمة رسم الروابط بين مهارات الألعاب التي يتمتع بها الذكاء الاصطناعي والتقدم التكنولوجي.
فعلى عكس العالم الحقيقي، تميل الألعاب إلى أن تكون مجردة وبسيطة نسبيًا، وتوفر نظريًا كمية لا حصر لها من البيانات لتدريب الذكاء الاصطناعي.
تشير معايير الألعاب المبهرة الأخيرة إلى ما أطلق عليه أندريه كارباثي، وهو عالم أبحاث وعضو مؤسس في OpenAI، “أزمة تقييم”.
“أنا لا أعرف حقًا ما مقاييس الذكاء الاصطناعي التي يجب أن أنظر إليها الآن”. كما كتب في منشور على X. “باختصار، رد فعلي هو أنني لا أعرف حقًا مدى جودة هذه النماذج في الوقت الحالي”.