تحذير من الهجمات بعد استنساخ الصوت بالذكاء الاصطناعي

استنساخ الصوت
استنساخ الصوت

كشف باحثو الأمن السيبراني عن كيفية استخدام الذكاء الاصطناعي لـ استنساخ صوت الشخص في الوقت الحقيقي لشن هجمات تصيد صوتي على المنظمات غير المطلعة.

 هجمات التصيد تتحدث بصوت حقيقي.. استنساخ الصوت في الوقت الحقيقي يغير اللعبة

وأشار باحثون من مجموعة NCC في مدونة الشركة إلى أنهم شنوا هجمات باستخدام استنساخ الصوت في الوقت الفعلي ضد منظمات حقيقية واستعادوا بنجاح معلومات حساسة وسرية.

“ولكن ليس هذا فحسب، بل أظهرنا أيضًا كيف يمكن لهذه التقنيات إقناع الأشخاص في مناصب المسؤولية التشغيلية الرئيسية بتنفيذ إجراءات نيابة عن المهاجم”،وذلك كما كتب الباحثون “بابلو ألوبيرا”، و”بابلو لوبيز”، و”فيكتور لاسا”.

وأضافوا:

“في تقييمات الأمان التي تحاكي ظروف الهجوم في العالم الحقيقي، تمكنا من تنفيذ إجراءات مثل تغيير عناوين البريد الإلكتروني وإعادة تعيين كلمات المرور وما إلى ذلك”.

 لماذا تعثر هجمات الـ”vishing ” رغم تطور استنساخ الصوت؟

مع انطلاق المشروع، واجه الباحثون سلسلة عقبات أمام تنفيذ هجمات التصيد الصوتي “vishing” بأصوات مستنسخة.

وأحد أهم هذه العوائق كان الجانب التكنولوجي تبين أن معظم تقنيات التزييف العميق المتطورة تعتمد على استدلالات تعمل في وضع عدم الاتصال بالإنترنت.

“كانت هذه البرامج قادرة على تحقيق نتائج جيدة عند استنساخ مقتطف مسجل مسبقًا لشخص يتحدث.

لكنها لم تتمكن من تغيير صوت المستخدم في الوقت الفعلي  وهو متطلب أساسي لهجمات التصيد الصوتي”، كما كتبوا.

وأضافوا:

“بالإضافة إلى ذلك، كان العديد منهم يعتمدون بشكل كبير على نماذج تحويل النص إلى كلام”.

كيف يعمل الاستنساخ في الوقت الحقيقي

أشاروا إلى أنه باستخدام هذه التقنية، أصبح لدى المهاجمين خياران:

  • إما استخدام مجموعة من الجمل المسجلة مسبقًا، مما قد يسبب مشاكل واضحة عند محاولة إجراء محادثة فورية
  • إدخال جمل في نموذج تحويل النص إلى كلام (TTS) تلقائيًا، مما قد يسبب تأخيرات غير طبيعية في الاستجابات المستنسخة.

تمكن الباحثون من توجيه الإشارة من ميكروفون المهاجم إلى مُعدّل صوت آني يستخدم نموذج تعلّم آلي لصوت الشخص.

وبينما كان المهاجم يتحدث، كان ما يسمعه الهدف هو الصوت المُستنسخ من نموذج التعلم الآلي.

وأشار الباحثون أيضًا إلى أنه يمكن توجيه الإشارة الصوتية مباشرة إلى تطبيقات مثل Microsoft Teams أو Google Meet.

مايكروسوفت

مما يسمح باستخدام الأصوات المقلدة بواسطة الذكاء الاصطناعي في تطبيقات المراسلة الشائعة أثناء مكالمة صوتية في الوقت الفعلي.

في هذا الدليل العملي، أضافوا:

“تم انتحال رقم هاتف الشخص المنتحل بموافقته. وكما هو الحال في التصيد الصوتي التقليدي.

يستخدم انتحال الرقم لاستغلال ثقة الضحية عند عرض معرف متصل مألوف على جهازه”.

رغم أن التكنولوجيا لم تكن ناضجة بما يكفي لدعم استنساخ الصوت في الوقت الفعلي حتى وقت قريب، إلا أن الأمر لم يعد كذلك.

وكتب الباحثون:

“الواقع اليوم هو أن الأدوات والبنية التحتية اللازمة لاستنساخ الصوت في الوقت الفعلي متاحة حتى لمن لديهم إمكانيات تقنية ومالية محدودة”.

تجدر الإشارة إلى أن كل هذا كان ممكنًا باستخدام أجهزة ومصادر صوتية وبرامج معالجة صوتية، جميعها كانت جيدة بما يكفي، وليست استثنائية، كما أشاروا.

“أي أن التكلفة المالية لتحقيق نتائجنا كانت بالتأكيد في متناول العديد من الأفراد، وبالتأكيد في متناول مؤسسة صغيرة.”

الاستنساخ الفوري يقوي هجمات الاحتيال الهاتفي

قال “ماثيو هاريس”، المدير الأول لمنتجات مكافحة الاحتيال في شركة “Crain Authentication”، لموقع “تك نيوز وورلد“.

إن الاستنساخ الفوري صار أمرًا حاسمًا لمجرمي الـvishing: «الضحايا يثقون في رقم المتصل وصوته ورسالة المكالمة  وكلها قابلة للتزوير.

الاستنساخ الفوري يزيد من مصداقية الاحتيال وفرص نجاحه».

وأضاف أن الأصوات والوجوه الاصطناعية أصبحت أكثر واقعية بعد أن ساهمت الأدوات والنماذج مفتوحة المصدر في تصحيح عيوب الماضي، مما صعب التمييز بينها وبين الأصوات الحقيقية.

وأوضح “براندون كوفاكس”، مستشار الأمن الكبير في شركة بيشوب فوكس ، وهي شركة للأمن السيبراني متخصصة في اختبار واستشارات الأمن الهجومي، في فينيكس.

 أن استنساخ الصوت في الوقت الفعلي هو الفرق بين قراءة نص مكتوب والارتجال بمساعدة إنسان.

يمكن الاستنساخ الفوري للصوت المهاجمين من الرد على الأسئلة وتعديل المطالبات وتصعيد الصلاحيات أثناء المكالمة، ويزداد تأثيره خطورة عندما يقترن بفيديو مزيف متزامن على منصات مثل Zoom أو  Teams.

وقال “تي. فرانك داونز”، المدير الأول للخدمات الاستباقية في شركة “BlueVoyant، إن الاستنساخ الفوري يعمل كمضاعف قوة.

فهو يمكن المهاجم من تكييف نبرة الصوت وإيقاعه وسياقه في الوقت الحقيقي، ما يحافظ على وهم الأصالة ويجعل الكشف أثناء التفاعل شبه مستحيلًا.

“روجر غرايمز” يشير إلى أن جودة استنساخ الأصوات تختلف بين النماذج  بعضها سهل الاستخدام وبعضها يتطلب إتقانًا  لكن تطور الأدوات وتقنيات مطابقة الأنماط الاحتمالية يخفضان حاجز الدخول تدريجيًا.

 مع وجود قيود على بعض الأصوات واللغات (مثل بعض اللغات الأفريقية) لقلة بيانات التدريب.

ويتوقع الخبراء أن الاستنساخ الفوري سيصبح العمود الفقري لمعظم هجمات الهندسة الاجتماعية الصوتية بحلول نهاية 2026. مما سيُحوّل أساليب الاختراق الاجتماعي جذريًا.

تزايد تهديدات التصيد الصوتي العميق

حتى بدون الذكاء الاصطناعي، من السهل نسبيًا إنشاء رسائل صوتية تنتحل شخصيات الرؤساء التنفيذيين. أوضح “أليكس كويليسي”، الرئيس التنفيذي لشركة YouMail .

وهي شركة خدمات إدارة مكالمات في إيرفين، كاليفورنيا، قائلاً:

“يكفي تسجيلها باستخدام أداة مثل ElevenLabs لإنشاء رسالة مزيفة مقنعة”.

  من الرسائل النصية إلى الفيديو المزيف.. كيف تتطور هجمات انتحال الهوية بالذكاء الاصطناعي؟

يرى الخبراء أن هجمات التزييف العميق الصوتية والبصرية لم تنتشر بعد على نطاق واسع، رغم تزايد القصص عنها. ويتوقعون أن تصبح الموجة الكبرى التالية من الهجمات الإلكترونية.

في الوقت الحالي، تنتشر بشكل أكبر رسائل نصية تنتحل صفة المديرين التنفيذيين لخداع الموظفين. لسهولة تنفيذها وفعاليتها.

يحذر مارك مايفريت من تزايد هجمات انتحال الهوية المعتمدة على الذكاء الاصطناعي. داعيًا المؤسسات إلى تعزيز حماية الهوية، وتطبيق مبدأ الحد الأدنى من الامتيازات، وتأمين الحسابات الحساسة.

ويؤكد أن الهوية أصبحت “المحيط الأمني الجديد”.
وفي الوقت نفسه، يعمل باحثو المركز الوطني للتنسيق (NCC) على دراسة مقاطع الفيديو المزيفة بعمق. مشيرين إلى أن التحدي الأكبر حاليًا هو مزامنة الصوت مع الصورة. لكنهم يتوقعون أن الوصول إلى تزييف واقعي تمامًا مسألة وقت فقط.

 

الرابط المختصر :