في خطوة تعيد تعريف التفاعل بين الإنسان والآلة كشفت شركة OpenAI عن ترقية “كبيرة” لوضع الصوت المتقدم (Advanced Voice Mode). الخاص بها في “شات جي بي تي”. ما يجعله أقرب ما يكون إلى المحادثة البشرية الطبيعية.
بينما يؤكد هذا التطور ريادة OpenAI في مجال الذكاء الاصطناعي الصوتي. ويفتح آفاقًا جديدة لتطبيقاته المتعددة.
هل يصبح “شات جي بي تي” مثل البشر
كانت OpenAI أطلقت وضع الصوت المتقدم العام الماضي بالتزامن مع إطلاق نموذجها القوي GPT-4o. وتميز هذا الوضع بقدرته على استخدام نماذج متعددة الوسائط بشكل أصيل. مثل GPT-4o، والاستجابة للمدخلات الصوتية في أقل من 232 مللي ثانية، بمتوسط 320 مللي ثانية، وهو زمن استجابة مشابه لزمن استجابة الإنسان في المحادثة العادية.
كما لم يقتصر الأمر على السرعة فحسب، بل تمكنت هذه التقنية أيضًا من توليد صوت يبدو أكثر طبيعية. والتقاط الإشارات غير اللفظية. مثل: سرعة التحدث، والاستجابة بالعاطفة.

وفي وقت سابق من هذا العام أصدرت تحديثًا بسيطًا لوضع الصوت المتقدم. ركز على تقليل الانقطاعات وتحسين اللهجات. وفقًا لموقع neowin.
ومع ذلك فإن الترقية التي تم إطلاقها اليوم تمثل نقلة نوعية. فباتت الاستجابات الصوتية تتميز بنبرة صوت أكثر دقة، وإيقاع واقعي، بما في ذلك: الوقفات والتشديد على الكلمات. وتعبيرية أكثر دقة لبعض المشاعر مثل التعاطف والسخرية.
في حين يقول خبراء الذكاء الاصطناعي إن هذه التطورات تحمل في طياتها تأثيرات عميقة. فمع القدرة على محاكاة الفروق الدقيقة في المحادثة البشرية يمكن أن يصبح وضع الصوت المتقدم أداة لا تقدر بثمن في مجالات. مثل: خدمة العملاء، والتعليم، وحتى الرعاية الصحية. حيث يمكن للروبوتات والمساعدين الافتراضيين التفاعل بطريقة أكثر إنسانية ومراعية للمشاعر.
بينما من المتوقع أن تساهم هذه الترقية في تعزيز تجربة المستخدم بشكل كبير. حيث تصبح المحادثات مع الذكاء الاصطناعي أكثر سلاسة، وأقل جمودًا، وأكثر قدرة على فهم السياق العاطفي.
ومع استمرار OpenAI في دفع حدود الابتكار بمجال الذكاء الاصطناعي الصوتي. فإن مستقبل التفاعل بين البشر والآلات يبدو أكثر إنسانية وإثارة من أي وقت مضى.

وضع الصوت المتقدم للترجمة
يمكن لمستخدمي ChatGPT الآن استخدام وضع الصوت المتقدم للترجمة بين اللغات. ما عليك سوى طلب بدء الترجمة من ChatGPT. ويستمر في الترجمة طوال المحادثة حتى يُطلب منه التوقف. تُغني هذه الميزة فعليًا عن الحاجة إلى تطبيقات الترجمة الصوتية المخصّصة.
وحاليًا يتوفر وضع الصوت المتقدم المحدث فقط لمستخدمي ChatGPT المدفوعين. كما أشارت OpenAI إلى وجود بعض القيود المعروفة في هذا التحديث الأخير.
علاوة على ذلك قد يسبب هذا التحديث أحيانًا انخفاضًا طفيفًا في جودة الصوت. مثل اختلافات غير متوقعة في النغمة والطبقة الصوتية. وهو أمر ملحوظ بشكل خاص في بعض خيارات الصوت. وتتوقع OpenAI تحسين اتساق الصوت مع مرور الوقت.
ولا تزال الهلوسة النادرة في وضع الصوت مستمرة، وتنتج في بعض الأحيان أصواتًا غير مقصودة تشبه الإعلانات أو الهراء أو الموسيقى في الخلفية.



















