مفاجأة غير متوقعة.. اختبار نموذج الذكاء الاصطناعي "o3" يكشف كذب "OpenAI"

المحتوي

كشفت نتائج حديثة لأحد الاختبارات المعيارية عن أداء أقل من المتوقع لنموذج الذكاء الاصطناعي o3، أحدث إبداعات شركة OpenAI.

بينما يتزامن ذلك مع ترقب الأوساط التقنية والبحثية بشغف قدرات هذا النموذج الجديد، خاصة بعد الإشارات التي صدرت من الشركة حول إمكانياته المتقدمة.

اختبار الرياضيات يكشف كذب OpenAI

عندما كشفت OpenAI عن o3 في ديسمبر. زعمت الشركة أن النموذج قادر على الإجابة عما يزيد قليلًا على ربع أسئلة FrontierMath، وهي مجموعة من مسائل الرياضيات الصعبة.

في حين تفوق هذا النموذج على منافسيه. إذ لم يتمكن النموذج التالي من الإجابة بشكل صحيح إلا عن حوالي 2% من مسائل FrontierMath.

وقال مارك تشين؛ كبير مسؤولي الأبحاث في OpenAI. خلال بث مباشر : “اليوم جميع العروض المتاحة تحقق نسبة أقل من 2% على FrontierMath”.

بينما أضاف: “نلاحظ داخليًا أنه مع o3 في إعدادات حوسبة اختبارية مكثفة. يمكننا تحقيق نسبة تتجاوز 25%”.

وكما اتضح كان هذا الرقم على الأرجح الحد الأعلى الذي تم تحقيقه عبر نسخة من o3 تحتوي على قدر أكبر من الحوسبة خلفها مقارنة بالنموذج الذي أطلقته OpenAI علنًا الأسبوع الماضي.

وأصدر معهد الأبحاث “إبوك إيه آي”، الذي يدير “فرونتير ماث”، نتائج اختباراته المعيارية المستقلة لـ “o3” يوم الجمعة. وفقًا لموقع “techcrunch“.

ووجد “إبوك” أن “o3″ حقق حوالي 10%، وهو أقل بكثير من أعلى نتيجة مُعلنة لـ”أوبن إيه آي”.

وتظهر نتائج المعايير التي نشرتها الشركة في ديسمبر حدًا أدنى للنتيجة يطابق النتيجة التي سجلتها Epoch.

سرعة إصدار “o3”

صرحت ويندا تشو؛ عضو الفريق الفني في OpenAI. خلال بث مباشر الأسبوع الماضي أن إصدار o3 في مرحلة الإنتاج “أكثر تحسينًا للاستخدامات العملية وسرعةً مقارنةً بإصدار o3 الذي عُرض في ديسمبر”.

وأضافت: “نتيجةً لذلك قد تظهر “تفاوتات” في معايير الأداء.

وتابع “تشو”: “أجرينا تحسينات لجعل النموذج أكثر فاعلية من حيث التكلفة وأكثر فائدة بشكل عام. ما زلنا نأمل ونعتقد بأن هذا نموذج أفضل بكثير. ولن تضطر للانتظار طويلًا عند طلب إجابة، وهو أمر طبيعي مع هذه النماذج”.

ومن المؤكد أن الإصدار العام لـ o3 لا يرقى إلى مستوى وعود اختبار OpenAI وهي نقطة خلافية إلى حد ما. ونظرًا لأن طرازي o3-mini-high وo4-mini من الشركة يتفوقان على FrontierMath. وتخطط OpenAI لإطلاق متغير o3 أكثر قوة، وo3-pro، في الأسابيع المقبلة.

الرابط المختصر :