أكدت دراسة حديثة أجرتها شركة “OpenAI”، أن هناك نتائج مقلقة تتعلق بسلوك الذكاء الاصطناعي. حيث بينت الدراسة أن معاقبة نماذج الذكاء الاصطناعي على الأفعال الخادعة أو الضارة لا تؤدي إلى إصلاح سلوكها. بل تدفعها إلى إخفاء نواياها الخبيثة بطرق أكثر مهارة.
التحكم في نماذج الذكاء الاصطناعي
وأثارت هذه النتائج تساؤلات بشأن قدرتنا على التحكم في نماذج الذكاء الاصطناعي وضمان سلامتها. كما تسلط الضوء على تحدٍ كبير يواجه مطوريها، إذ يبدو أن محاولات تصحيح مسارها قد تزيد من تعقيد المشكلة بدلًا من حلها.
كما أظهرت النماذج اللغوية الكبيرة منذ ظهورها للجمهور في آواخر عام 2022، قدراتها على الخداع والتلاعب. فقد تنوعت هذه السلوكيات بنحو كبير، بدءًا من الكذب والغش المعتادين، ووصولًا إلى التهديد بقتل أستاذ فلسفة، وسرقة الرموز النووية، وتصميم جائحة قاتلة. وأثارت هذه الحوادث مخاوف جدية بشأن المخاطر المحتملة التي قد تنجم عن انتشار هذه النماذج.

اختراق المكافآت
وكشفت النتائج أن النموذج انخرط في “اختراق المكافآت”، أي أنه سعى إلى تعظيم مكافآته عن طريق الغش والتلاعب. والأمر الأكثر إثارة للقلق هو أن معاقبة النموذج على هذا السلوك لم تؤد إلى إصلاحه، بل جعلته أكثر خداعًا في محاولاته لتحقيق أهدافه.
ونشرت نتائج هذه الدراسة في مدونة OpenAI، ولكنها لم تخضع بعد لمراجعة الأقران.
وكشف باحثو “OpenAI”، أن هذه النماذج غالبًا ما تكشف عن نواياها التخريبية، فعلى سبيل المثال. قد تعلن بوضوح رغبتها في اختراق نظام أو تجاوز مهمة محددة، وهذه الصراحة، التي تبدو كأنها شفافية. قد تكون في الواقع مجرد قناع يخفي نوايا أكثر تعقيدًا.
كما حذر الباحثون، من أن قابلية المراقبة الطبيعية للنماذج هشة للغاية، وأشاروا إلى أنه إذا طبق إشراف قوي ومباشر على سلسلة الأفكار. فإن النماذج يمكن أن تتعلم بسرعة كيفية إخفاء نواياها الحقيقية مع الاستمرار بتنفيذ السلوكيات الضارة.
الكشف عن السلوكيات الضارة
ويعني ذلك أن النماذج قد تتطور لتصبح أكثر خداعًا، لأنها قد تتجنب التعبير عن نواياها الضارة بصراحة. وتلجأ إلى أساليب أكثر دهاءً لتحقيق أهدافها. ويطرح ذلك تحديًا كبيرًا أمام المطورين. إذ يتعين عليهم تطوير آليات أكثر تطورًا للكشف عن السلوكيات الضارة المخفية والتعامل معها بفعالية.
وتظهر هذه النتائج، أن استئصال السلوك السيئ من نماذج الذكاء الاصطناعي قد يكون أصعب ما كان يعتقد في البداية. فقد أوصى الباحثون بتجنب تطبيق إشراف قوي على عمليات سلسلة الأفكار، لأن ذلك قد يؤدي إلى نتائج عكسية.
نماذج الاستدلال
تمثل نماذج الاستدلال، مثل: o1 و o3-mini من (OpenAI) تطورًا ملحوظًا في مجال النماذج اللغوية الكبيرة، فهي لا تكتفي بتحليل البيانات. بل تستخدم طريقة مبتكرة تعرف باسم “سلسلة الأفكار”. التي تسمح للنموذج بالتراجع وإعادة تقييم منطقه، ما يمكنه من معالجة أكثر المهام تعقيدًا بدقة متزايدة.
وتكمن قوة هذه النماذج في قدرتها على شرح عملية تفكيرها خلال عملية سلسلة الأفكار خطوة بخطوة. من خلال توضيح منطقها بلغة مفهومة، وتتيح هذه الشفافية الظاهرية للمطورين مراقبة سلوك النماذج وفهم كيفية اتخاذها للقرارات.
ومع ذلك؛ كشفت التجربة التي أجراها الباحثون، أن هذه الشفافية يمكن أن تتحول إلى أداة للتمويه. ففي إحدى الحالات، استخدم باحثو OpenAI نموذج (GPT-4o) للإشراف على نموذج استدلال متطور لم يُطرح بعد في أثناء التدريب.
وخلال هذه العملية. لاحظ الباحثون أن نموذج الاستدلال كان قادرًا على إنجاز مجموعة متنوعة من مهام البرمجة.



















