كشفت شركة “إنفيديا” نموذجها “Fugatto” الجديد للذكاء الاصطناعي لعشاق الموسيقى، والأفلام ، وألعاب الفيديو. الذي يمكنه إنشاء مجموعات من الموسيقى والأصوات.
كيف يعمل “Fugatto” من “إنفيديا”؟
باستخدام النص والصوت كمدخلات، يمكن لنموذج الذكاء الاصطناعي التوليدي الجديد من “NVIDIA” إنشاء أي مجموعة من الموسيقى والأصوات.
بينما أنشأ فريق من الباحثين في مجال الذكاء الاصطناعي “Fugatto”. الذي يسمح للمستخدمين بالتحكم في إخراج الصوت ببساطة باستخدام النص.
على الرغم من أن بعض نماذج الذكاء الاصطناعي قادرة على تأليف أغنية أو تعديل صوت، فإن أيًّا منها لا يتمتع ببراعة النموذج الجديد من “إنفيديا”. حيث ينشئ أو يحول أي مزيج من الموسيقى والأصوات والأصوات الموصوفة باستخدام أي مجموعة من النصوص وملفات الصوت. على سبيل المثال، يمكنه:
- إنشاء مقتطف موسيقي استنادًا إلي نص.
- إزالة أو إضافة آلات من الأغنية.
- تغيير اللهجة أو العاطفة في الصوت.
- حتى السماح للأشخاص بإنتاج أصوات لم يسمعوا بها من قبل.
ووفق مدونة “nvidia“، قال إيدو زميسلاني؛ المنتج ومؤلف الأغاني الحائز على العديد من الجوائز البلاتينية والمؤسس المشارك لشركة “One Take Audio”. وهي عضو في برنامج “NVIDIA Inception” للشركات الناشئة المتطورة. “إن الروبوت الجديد جامح”. حتى أنه يستطيع إنشاء أصوات جديدة تمامًا في أثناء التنقل بالأستوديو. قائلًا: “إنه أمر لا يصدق”.
كما قال مدير أبحاث الصوت التطبيقي في “NVIDIA”. وهو أحد أعضاء فريق الباحثين الذين أنشأوا “Fugatto”. بالإضافة إلى كونه قائد فرقة أوركسترا وملحنًا: “أردنا إنشاء نموذج يفهم ويولد الصوت مثلما يفعل البشر”.
ويدعم “Fugatto” العديد من مهام توليد الصوت وتحويله. وهو أول نموذج ذكاء اصطناعي توليدي أساسي يتميز بقدرته على تعديل الأصوات. فعن طريق نغمات البيانو يستطيع تحويلها إلى غناء بصوت بشري. ويستطيع تغيير تسجيل لكلمة بلهجة مستخدمة، وتغيير طريقة التعبير.
ويعد “فوجاتو” الخطوة الأولى نحو المستقبل؛ حيث ينشأ التعلم متعدد المهام غير الخاضع للإشراف في توليف الصوت وتحويله من البيانات. فعلى سبيل المثال، يمكن:
- لمنتجي الموسيقى استخدام “Fugatto” لإنشاء نماذج أولية سريعة أو تحرير فكرة لأغنية.
- تجربة أنماط وأصوات وآلات موسيقية مختلفة.
- إضافة تأثيرات وتحسين جودة الصوت الإجمالية لمسار موجود.
الجيتار الكهربائي وموسيقى الروك أند رول
يعد تاريخ الموسيقى أيضًا تاريخًا للتكنولوجيا. حيث قدم الجيتار الكهربائي للعالم موسيقى الروك أند رول. وعندما ظهرت أجهزة أخذ العينات، وُلدت موسيقى الهيب هوب. ومع الذكاء الاصطناعي، نكتب الفصل التالي من الموسيقى. لدينا آلة جديدة، وأداة جديدة لصنع الموسيقي. وهذا أمر مثير للغاية.
ويمكن لمطوري ألعاب الفيديو استخدام النموذج لتعديل الأصول المسجلة سابقًا في عناوينهم لتتناسب مع الأحداث المتغيرة في أثناء لعب المستخدمين للعبة. أو يمكنهم إنشاء أصول جديدة في أثناء اللعب من خلال تعليمات نصية ومدخلات صوتية اختيارية.
وعلى سبيل المثال، يمكن لـ “Fugatto” إصدار صوت نباح البوق أو مواء الساكسفون. أيًا ما يمكن للمستخدمين وصفه، يمكن للنموذج إنشاؤه.
وباستخدام الضبط الدقيق وكميات صغيرة من بيانات الغناء، وجد الباحثون أنه يمكنه التعامل مع المهام التي لم يتدرب عليها سابقًا، مثل: توليد صوت غناء عالي الجودة من نص موجه.
التداخل الزمني
كما يولد النموذج أصوات تتغير بمرور الوقت، وهي الميزة التي يطلق عليها “التداخل الزمني”. على سبيل المثال:
- يمكنه إنشاء أصوات عاصفة مطيرة تتحرك عبر منطقة مع تصاعد الرعد الذي يتلاشى ببطء في المسافة.
- يمنح المستخدمين تحكمًا دقيقًا في كيفية تطور المشهد الصوتي.
وعلى عكس معظم النماذج، التي لا تستطيع سوى إعادة إنشاء بيانات التدريب التي تعرضت لها. يسمح “فوجاتو” للمستخدمين بإنشاء مناظر صوتية لم يسبق لها مثيل من قبل، مثل: عاصفة رعدية تتحول إلى فجر مع صوت زقزقة الطيور.