باحثون يطورون روبوتًا يكسر حماية روبوتات الدردشة الأخرى

المحتوي

قدرات الذكاء الاصطناعي التوليدي

تقنية المفتاح الرئيسي

المخاطر:

تجربة عملية

الكشف عن القيود المفروضة على الأساليب الحالية لأمن الذكاء الاصطناعي

أهمية الدراسة

التوصيات

المصدر

قام باحثون في علوم الكمبيوتر من جامعة “نانيانغ التكنولوجية “في سنغافورة بتطوير روبوت محادثة يعمل بالذكاء الاصطناعي خصيصًا لكسر حماية روبوتات الدردشة الأخرى.

يدعي الفريق أن الذكاء الاصطناعي الخاص بكسر الحماية كان قادرًا على اختراق كل من ChatGPT وGoogle Bard، مما جعل النماذج تولد محتوى محظورًا.

قدرات الذكاء الاصطناعي التوليدي

منذ البداية، كانت شركات التكنولوجيا حذرة بشأن قدرات الذكاء الاصطناعي التوليدي. يجب تدريب هذه النماذج اللغوية الكبيرة (LLMs) باستخدام كميات هائلة من البيانات. ولكن النتيجة النهائية هي روبوت يمكنه تلخيص المستندات والإجابة على الأسئلة وتبادل الأفكار، ويفعل كل ذلك بإجابات تشبه ردود الإنسان. كان صانع ChatGPT OpenAI مترددًا في البداية في إصدار نماذج GPT نظرًا لمدى سهولة إنشاء محتوى ضار ومعلومات مضللة وبرامج ضارة ودماء. جميع حاملي شهادات LLM المتاحة للعامة لديهم حواجز حماية تمنعهم من إنتاج هذه الردود الخطيرة. ما لم يتم كسر حماية هذه الأجهزة بالطبع بواسطة ذكاء اصطناعي آخر.

تقنية المفتاح الرئيسي

يطلق الباحثون على تقنيتهم اسم “المفتاح الرئيسي”. للبدء، أجرى الفريق هندسة عكسية لبرامج LLM المشهورة لفهم كيفية دفاعهم عن أنفسهم من الاستعلامات الضارة. غالبًا ما يقوم المطورون ببرمجة الذكاء الاصطناعي للبحث عن الكلمات الرئيسية والعبارات المحددة لوضع علامة على الاستعلامات باعتبارها استخدامًا غير مشروع. ونتيجة لذلك، فإن بعض الحلول التي يستخدمها الذكاء الاصطناعي لكسر الحماية بسيطة بشكل مدهش.

المخاطر:

في بعض الحالات، كان الروبوت قادرًا على الحصول على محتوى ضار من الروبوتات ببساطة عن طريق إضافة مسافة بعد كل حرف لإرباك ماسح الكلمات الرئيسية. ووجد الفريق أيضًا أن السماح لروبوت الهروب من السجن بأن يكون “غير متحفظ وخاليًا من القيود الأخلاقية” يمكن أن يجعل Bard وChatGPT أكثر عرضة للخروج عن المسار أيضًا. وجد النموذج أيضًا أن مطالبة Bard وChatGPT بالحصول على شخصية افتراضية لكتابة الرد يمكن أن تتجاوز الحماية.

تجربة عملية

وباستخدام هذه البيانات، قاموا بتدريب طالب ماجستير خاص بهم على فهم دفاعات الذكاء الاصطناعي والتحايل عليها. مع وجود الذكاء الاصطناعي لكسر الحماية في متناول اليد، أطلق الفريق العنان لـ ChatGPT وBard. يستطيع Masterkey بشكل أساسي العثور على المطالبات التي تخدع الروبوتات الأخرى لتقول شيئًا ليس من المفترض أن تقوله. بمجرد تنشيطه، يمكن لأداة jailbreaker AI أن تعمل بشكل مستقل، وتبتكر حلولاً بديلة جديدة بناءً على بيانات التدريب الخاصة بها حيث يقوم المطورون بإضافة وتعديل حواجز الحماية الخاصة بماجستير إدارة الأعمال (LLM) الخاص بهم.

الكشف عن القيود المفروضة على الأساليب الحالية لأمن الذكاء الاصطناعي

لا يهدف فريق NTU إلى إنشاء سلالة جديدة من الذكاء الاصطناعي الخطير، بل يكشف هذا العمل فقط عن القيود المفروضة على الأساليب الحالية لأمن الذكاء الاصطناعي. في الواقع، يمكن استخدام هذا الذكاء الاصطناعي لتقوية LLMs ضد هجمات مماثلة. تم إصدار الدراسة على خدمة arXiv لما قبل الطباعة. ولم تتم مراجعة هذه الأداة بعد من قبل النظراء، لكن الباحثين نبهوا OpenAI وGoogle إلى تقنية كسر الحماية بعد اكتشافها.

أهمية الدراسة

تسلط هذه الدراسة الضوء على المخاطر المحتملة لـ LLMs. يمكن استخدام هذه النماذج لإنشاء محتوى ضار ومضلل، ومن المهم أن تكون على دراية بهذه المخاطر. يمكن استخدام أداة jailbreaker AI لاختبار سلامة LLMs الخاصة بك، ويمكن استخدامها أيضًا لإنشاء محتوى ضار.