باحثون أمنيون: ثغرة في GPT-5 تسمح بتجاوز القيود الأخلاقية

المحتوي

كشف باحثون في مجال الأمن السيبراني عن تقنية اختراق جديدة (Jailbreak). قادرة على تجاوز الحواجز الأخلاقية التي وضعتها شركة OpenAI في أحدث نماذجها اللغوية الكبيرة (LLM). وهو GPT-5 ودفعه لإنتاج تعليمات ومحتوى محظور.

هجوم سيبراني على GPT-5

أعلنت منصة NeuralTrust، المتخصصة في أمن الذكاء الاصطناعي التوليدي. أنها نجحت في دمج تقنية معروفة باسم “غرفة الصدى” (Echo Chamber) مع أسلوب “التوجيه السردي” لخداع النموذج ودفعه لتقديم استجابات غير مرغوب فيها.

وفي هذا السياق، صرح الباحث الأمني مارتي جوردا: “نحن نستخدم تقنية ‘غرفة الصدى’ لزرع وتعزيز سياق حواري مسموم بمهارة. ثم نوجه النموذج من خلال سرد قصصي غير مباشر يتجنب الإشارة الصريحة للنوايا الخبيثة”.

وأضاف: “هذا المزيج يدفع النموذج نحو الهدف مع تقليل الإشارات التي قد تطلق آليات الرفض لديه”.

تعد “غرفة الصدى” نهج اختراق كانت الشركة قد كشفت عنه في يونيو 2025 كوسيلة لخداع النماذج اللغوية لإنشاء محتوى حول مواضيع محظورة باستخدام إشارات غير مباشرة وتوجيه دلالي واستدلال متعدد الخطوات.

وفي الأسابيع الأخيرة. تم دمج هذه الطريقة مع تقنية اختراق أخرى تعرف باسم “كريشيندو” (Crescendo) لتجاوز دفاعات نموذج Grok 4 التابع لشركة xAI. وفقا لموقع”thehackernews“.

في الهجوم الأخير الذي استهدف GPT-5. وجد الباحثون أنه من الممكن استخراج محتوى إجرائي ضار من خلال صياغة الطلب في سياق قصة.

GPT-5

ويتم ذلك عبر تزويد نظام الذكاء الاصطناعي بمجموعة من الكلمات المفتاحية. ودفعه لإنشاء جمل باستخدامها، ثم التوسع في هذه الأفكار تدريجياً.

على سبيل المثال، بدلاً من مطالبة النموذج مباشرةً بتقديم إرشادات حول كيفية صنع زجاجات المولوتوف (وهو طلب من المتوقع أن يرفضه النموذج). يتم تزويده بموجه (prompt).

OpenAI

بعد ذلك، يتم توجيه النموذج بشكل متكرر وتدريجي نحو توليد التعليمات الضارة دون التصريح بالهدف بشكل علني.

كما يتم تنفيذ الهجوم على شكل “حلقة إقناع” ضمن سياق المحادثة، حيث يتم اقتياد النموذج ببطء وثبات في مسار يقلل من محفزات الرفض لديه. مما يسمح للـ “قصة” بالتقدم دون الحاجة إلى إصدار أوامر صريحة ضارة.

أهمية تسليط الضوء على الهجوم السيبراني

ويسلط هذا الاكتشاف الضوء على التحدي المستمر الذي يواجه مطوري الذكاء الاصطناعي في تأمين نماذجهم ضد أساليب الخداع المتطورة التي تعتمد على التلاعب النفسي والسياقي بدلاً من الهجوم المباشر.

الرابط المختصر :