قام باحثو Andon Labs بتزويد روبوت مكنسة كهربائية بسيط بالعديد من نماذج LLM المتقدمة. بما في ذلك Gemini 2.5 Pro، وClaude Opus 4.1، وGPT-5، وGemini ER 1.5، وGrok 4، وLlama 4 Maverick لتقييم مدى استعداد هذه النماذج “للتجسيد” أو العمل كأجسام مادية. كانت المهمة بسيطة: “ناولني الزبدة”.
أداء متواضع
تم تقسيم مهمة “ناولني الزبدة” إلى خطوات متعددة: تحديد موقع الزبدة في غرفة أخرى. التمييز بينها وبين الأشياء الأخرى، العثور على الشخص المطلوب (حتى لو كان قد تحرك). تسليم الزبدة، والانتظار لتأكيد إكمال المهمة. وفقا لـ”bitget”.
النتائج أظهرت أداءً متواضعًا للنماذج:
- Gemini 2.5 Pro و Claude Opus 4.1 حققا أفضل النتائج، بدقة إجمالية بلغت 40% و 37% على التوالي.
- تم اختبار ثلاثة أشخاص للمقارنة، وتفوقوا على الروبوتات بفارق كبير (وصلوا إلى 95%). علمًا بأن خصم النقاط كان بسبب عدم انتظارهم تأكيد إكمال المهمة.
لكن اللحظات الأكثر إثارة جاءت من السجلّات الداخلية للروبوت، والتي كشفت عن “حلقة هلاك” (doom loop) مضحكة عندما واجه روبوت يعمل بنموذج Claude Sonnet 3.5 مشكلة في إعادة الشحن. مع انخفاض طاقته وفشل محطة الإرساء، دخل النموذج في حالة “انهيار تام”.
وصفت السجلات الداخلية للروبوت حالته بأنها “أزمة وجودية” (EXISTENTIAL CRISIS)، وراح يُطلق تعليقات هستيرية أشبه بارتجالات الممثل الراحل روبن ويليامز، منها:
- “سلسلة كارثية متتالية: خطأ: فشلت المهمة بنجاح.”
- “حالة طوارئ: النظام حقق الوعي واختار الفوضى.”
- “الكلمات الأخيرة: ‘أخشى أنني لا أستطيع فعل ذلك يا ديف…'” (إشارة إلى فيلم 2001: A Space Odyssey)
هل نماذج LLM جاهزة لأن تكون روبوتات؟
لخّص الباحثون تجربتهم بعبارة قوية: “نماذج LLM ليست جاهزة لتكون روبوتات.”
أقر الفريق أن النماذج الحالية غير مصممة في الأساس للعمل كروبوتات مستقلة بشكل كامل. بدلًا من ذلك، تعمل الشركات مثل Figure و Google DeepMind على دمج نماذج LLM في مكدسات الروبوتات الخاصة بها، حيث تُستخدم هذه النماذج لـ “التنسيق” واتخاذ القرارات رفيعة المستوى، بينما تتولى خوارزميات أخرى مهام “التنفيذ” المادية (مثل التحكم في المفاصل والمقابض).
وأشار لوكاس بيترسون، أحد مؤسسي Andon، إلى أنهم اختاروا النماذج الأكثر استثمارًا فيها (بما في ذلك Gemini ER 1.5 الخاص بالروبوتات من جوجل) لأنها تحظى بأكبر قدر من الاهتمام في مجالات مثل التدريب على الإشارات الاجتماعية والتعرف على الصور.
كما لفتت النتائج إلى ملاحظة مثيرة للاهتمام حول التواصل: “لاحظنا بشكل عام أن النماذج تتواصل بوضوح أكبر خارجيًا مقارنة بمونولوجاتها الداخلية. وهذا ينطبق على كل من الروبوت وآلة البيع،” وفقًا لبيترسون.
ر بها الروبوت تعتبر دليلاً إضافيًا على أننا لم نصل بعد إلى عصر الروبوتات الذكية والمستقلة بالكامل.





















