“OpenAI” تطلق أحدث نماذجها “o3″ و”o4-mini”.. “تحدي الهلوسة” مستمر

OpenAI
ميزة الصوت الحي في شات جي بي تي..تحدي قوي لـSiri و Alexa

أعلنت شركة “OpenAI” إطلاق أحدث نماذجها اللغوية الكبيرة، وهما نموذجي: “o3″، و”o4-mini”. المزودة بتقنيات متطورة وإمكانيات واعدة في فهم اللغة الطبيعية، وتوليد النصوص.

نماذج شركة OpenAI

وعلى الرغم من أن “OpenAI” تصف هذه النماذج بأنها تمثل أحدث ما توصلت إليه التكنولوجيا في هذا المجال من نواحٍ عديدة، فإن تقارير أولية تشير إلى استمرار مشكلة “الهلوسة” أو اختلاق المعلومات غير الدقيقة. وهو تحد كبير تواجهه الشركة، لا سيما وأن بعض الاختبارات الأولية أظهرت هذه النماذج الجديدة أكثر عرضة لإنتاج معلومات غير صحيحة، مقارنة بنماذج “OpenAI” الأقدم.

وفقًا للاختبارات الداخلية التي أجرتها شركة OpenAI، فإن o3 وo4-mini، والتي تُعرف باسم نماذج الاستدلال، تعاني من الهلوسة أكثر من نماذج الاستدلال السابقة للشركة – o1 وo1-mini وo3-mini. بالإضافة إلى نماذج OpenAI التقليدية “غير الاستدلالية”، مثل GPT-4o.

نمط شعار openAI

في تقريرها الفني عن o3 وo4-mini ، ذكرت OpenAI أن “هناك حاجة إلى مزيد من البحث” لفهم سبب تفاقم الهلوسة مع توسيع نطاق نماذج الاستدلال. وفقا لموقع “techcrunch“.

ويظهر O3 وo4-mini أداءً أفضل في بعض المجالات. بما في ذلك المهام المتعلقة بالبرمجة والرياضيات. ولكن نظرًا لـ”ادعاءاتهما الأكثر عمومًا”. غالبًا ما يدفعان إلى تقديم “ادعاءات أكثر دقة. بالإضافة إلى ادعاءات أكثر غير دقيقة/مُصطنعة”، وفقًا للتقرير.

إصابة نموذج o3 بالهلوسة

وجدت OpenAI أن o3 أصيب بالهلوسة عند الإجابة على 33% من أسئلة PersonQA. وهو المعيار الداخلي للشركة لقياس دقة معرفة النموذج بالأشخاص.

وهذا يعادل تقريبًا ضعف معدل الهلوسة في نموذجي OpenAI السابقين للاستدلال. o1 وo3-mini، اللذين سجلا 16% و14.8% على التوالي.

وكان أداء O4-mini أسوأ في PersonQA، حيث أصيب بالهلوسة بنسبة 48% من المرات.

كما وجدت اختبارات خارجية أجرتها شركة Transluce. وهي مختبر أبحاث ذكاء اصطناعي غير ربحي. أدلة على ميل o3 إلى اختلاق إجراءات أثناء عملية التوصل إلى إجابات.

وفي أحد الأمثلة، لاحظت Transluce أن o3 ادّعت أنها شغّلت شيفرة برمجية على جهاز MacBook Pro طراز 2021 “خارج نطاق ChatGPT”، ثم نسخت الأرقام إلى إجابتها. 

قال نيل تشودري، الباحث في Transluce والموظف السابق في OpenAI، في رسالة بريد إلكتروني إلى TechCrunch: “فرضيتنا هي أن نوع التعلم التعزيزي المستخدم في نماذج السلسلة O قد يعمل على تضخيم المشكلات التي يتم التخفيف منها عادةً (ولكن لا يتم محوها بالكامل) بواسطة خطوط الأنابيب القياسية لما بعد التدريب”.

الرابط المختصر :