تخيل أنك في مطعم مع مجموعة من جنسيات متعددة لتناول العشاء يتحدثون لغات مختلفة، وأنت غير قادر على فهم ما يقولون. المترجم الفوري الذي يعمل بالذكاء الاصطناعي سينقذك.
المترجم الفوري.. هل يصبح بالذكاء الاصطناعي؟
هذا السيناريو هو مصدر إلهام لنظام سماعات رأس جديد بتقنية الذكاء الاصطناعي، يترجم كلامك مع عدة أفراد في آنٍ واحد.
ويقوم النظام، الذي يسمى “ترجمة الكلام المكانية”، بتتبع اتجاه وخصائص صوت كل متحدث. مما يساعد الشخص الذي يرتدي تلك السماعات على تحديد المتحدث في المجموعة.
يقول Shyam Gollakota؛ الأستاذ بجامعة واشنطن، والذي عمل على المشروع: “هناك الكثير من الأشخاص الأذكياء حول العالم، ويمنعهم حاجز اللغة من اكتساب الثقة اللازمة للتواصل. على سبيل المثال: لدى والدتي أفكار رائعة عندما تتحدث بلغة Telugu. ولكن يصعب عليها التواصل مع الناس في الولايات المتحدة عندما تزورني من الهند. أعتقد أن هذا النوع من الأنظمة الذكية قد يُحدث نقلة نوعية في حياة أشخاص مثلها”.
أنظمة ذكية للترجمة الفورية
يوجد على الساحة العديد من أنظمة الترجمة الفورية المدعومة بالذكاء الاصطناعي. فنظارات راي بان الذكية من شركة “ميتا” على سبيل المثال، يمكنها ترجمة المحادثات فوريًا، إلا أنها تركز على متحدث واحد. بينما لا يمكنها الترجمة اللحظية لأكثر من شخص في آن واحد. وفي نفس الوقت تقدم ترجمات آلية تبدو كأنها روبوتية.
صُمم النظام الجديد للعمل مع سماعات الرأس الجاهزة المزودة بخاصية إلغاء الضوضاء والموجودة بالفعل في الأسواق. حيث تكون مزودة بميكروفونات، ومتصلة بجهاز كمبيوتر محمول يعمل بشريحة السيليكون M2 من آبل، والتي تدعم الشبكات العصبية. كما أن الشريحة نفسها موجودة في سماعة الرأس Apple Vision Pro.
وعرض فريق عمل نظام السماعات الجديدة نتائج تجاربهم في مؤتمر ACM CHI والمهتم ببحوث العوامل البشرية في أنظمة الحوسبة في يوكوهاما، اليابان، هذا الشهر.
تحسينات لغوية لنماذج اللغة الكبيرة
على مدار السنوات القليلة الماضية، أدت نماذج اللغات الكبيرة إلى تحسينات كبيرة في ترجمة الكلام الفوري.
ونتيجةً لذلك، أصبحت الترجمة بين اللغات التي تتوفر لها بيانات تدريب كثيرة شبه مثالية على تطبيقات، مثل Google Translate أو ChatGPT.
وتمثل تلك اللغات التي لها بيانات تدريب لغات رئيسة، مثل: الإنجليزية والألمانية والفرنسية والصينية.
بينما لا تزال أنظمة الذكاء الاصطناعي لا يمكنها الترجمة بصورة سلسة وفورية عبر العديد من اللغات.
وحسب تصريح لـ Alina Karakanta؛ الأستاذة المساعدة في جامعة لايدن بهولندا. والمتخصصة في دراسة اللغويات الحاسوبية، فإن الكثير من الشركات تسعى إلى تحسين تلك الترجمات.
وتضيف: “أشعر أن هذا تطبيق مفيد. حيث يمكنه مساعدة الناس”.

إمكانيات واعدة بعيدًا عن الترجمة
يمكن لهذا النظام الذكي مساعدة مرتدي السماعات التركيز على أصوات محددة في البيئات الصاخبة، مثل صديق وسط حشد من الناس أو مرشد سياحي وسط صخب المدينة.
تتكون تقنية الترجمة المكانية للكلام من نموذجين للذكاء الاصطناعي، الأول يقسم المساحة المحيطة بالشخص الذي يرتدي سماعات الرأس إلى مناطق صغيرة ويستخدم شبكة عصبية للبحث عن المتحدثين المحتملين وتحديد اتجاههم.
ثم يترجم النموذج الثاني كلمات المتحدثين من الفرنسية أو الألمانية أو الإسبانية إلى نص إنجليزي باستخدام مجموعات بيانات متاحة للعامة.
يستخلص النموذج نفسه الخصائص الفريدة والنبرة العاطفية لكل صوت متحدث، مثل درجة وسعة الصوت، ويطبق هذه الخصائص على النص؛ ما يؤدي في الأساس إلى إنشاء صوت “مستنسخ”.
هذا يعني أنه عند نقل النسخة المترجمة من كلمات المتحدث إلى مرتدي سماعة الرأس بعد ثوانٍ قليلة، تبدو وكأنها صادرة من اتجاه المتحدث نفسه، ويبدو الصوت مشابهًا جدًا لصوته، وليس لصوت حاسوب آلي.

المترجم الفوري.. هل بحاجة إلى تحسين؟
يقول Samuele Cornell؛ باحث ما بعد الدكتوراه في معهد تكنولوجيا اللغة بجامعة Carnegie Mellon، والذي لم يعمل على المشروع:”بما أن فصل الأصوات البشرية صعب بما فيه الكفاية بالنسبة لأنظمة الذكاء الاصطناعي، فإن القدرة على دمج هذه المواصفات في نظام ترجمة بالوقت الفعلي، ورسم خريطة للمسافة بين مرتديها والمتحدث، وتحقيق زمن انتقال لائق على جهاز حقيقي أمر مثير للإعجاب”.
ويضيف قائلًا: “ترجمة الحديث إلى حديث بلغة أخرى في الوقت الفعلي صعب للغاية. بينما كانت نتائج الفريق ممتازة في ظروف الاختبار المحدودة. لكن بالنسبة لمنتج الحقيقي، سيحتاج المرء إلى بيانات تدريب أكثر بكثير. ربما مع ضوضاء وتسجيلات واقعية من سماعة الرأس، بدلًا من الاعتماد كليًا على البيانات الاصطناعية”.
يركز فريق Gollakota الآن على تقليل الوقت اللازم لبدء ترجمة الذكاء الاصطناعي بعد أن يقول المتحدث شيئًا ما.
وذلك يسمح بإجراء محادثات أكثر طبيعية بين أشخاص يتحدثون لغات مختلفة. يقول Gollakota: “نريد حقًا تقليل هذا التأخير بشكل ملحوظ إلى أقل من ثانية، حتى تتمكن من الاستمتاع بأجواء المحادثة”.

طبيعة اللغات المستخدمة تحدد زمن الاستجابة
يقول Claudio Fantinuoli؛ الباحث في جامعة Johannes Gutenberg في Mainz بألمانيا، والذي لم يشارك في المشروع: “يظل تقليل زمن الاستجابة تحديًا كبيرًا، لأن سرعة ترجمة نظام الذكاء الاصطناعي من لغة إلى أخرى تعتمد على بنية اللغات.
من بين اللغات الثلاث التي دُرِّبت عليها ترجمة الكلام المكاني، كان النظام الأسرع في ترجمة الفرنسية إلى الإنجليزية. تليها الإسبانية، ثم الألمانية. مما يعكس أن الألمانية، على عكس اللغات الأخرى، تضع أفعال الجملة ومعظم معناها بالنهاية وليس في البداية”.
بينما يرجح الفريق بأن تقليل زمن الوصول قد يقلل من دقة الترجمات. فكلما طال انتظارك [قبل بدأ الترجمة]، ازداد تطابق سياق الترجمة، وكانت النتيجة الكلية أفضل.




















