كيف يمكن لنظرية الألعاب تحسين أداء الذكاء الاصطناعي؟

علماء رياضيات يتنافسون فى لعبة GO

يمكن تعريف نظرية الألعاب ببساطة على أنها فرع من فروع الرياضيات الحديثة التي تهتم بدراسة السلوك الاستراتيجي بين أطراف عدة عند اتخاذهم القرارات.

في نفس الوقت تهتم النظرية بتحليل الخيارات والتفاعلات بين الأفراد أو الكيانات، وتحاول تحديد الأفضلية وأحسن الخيارات المتاحة.

يمكن تطبيق هذه النظرية في الكثير من المجالات مثل الرياضيات والاقتصاد والعلوم الاجتماعية. ويعتقد الباحثون بأنهم يمكنهم تحسين الذكاء الاصطناعي المعتمد على نماذج اللغة الكبيرة LLM اعتمادًا على أفكار نظرية الألعاب، وجعله أكثر موثوقية وكفاءة واتساقًا.

مشكلات الثقة في الذكاء الاصطناعي

تعتمد روبوتات الذكاء الاصطناعي الحديثة مثل Chat GPT على نماذج اللغة الكبيرة LLM. إذ تعاني هذه النماذج من مشكلة خطيرة؛ حيث تجيب هذه النماذج بطريقة معتمدة على السؤال. لتوضيح ذلك إذا تم سؤال الذكاء الاصطناعي مثلًا ما هي عاصمة المملكة العربية السعودية؟ سيجيب بأنها الرياض، أما إذا تم سؤاله هل الرياض عاصمة المملكة العربية السعودية فقد يجيب في بعض الأحيان بلا.

في ذات السياق، فالسؤال التوليدي يؤدي إلى إجابة واحدة، والسؤال التمييزي، الذي يتضمن الاضطرار إلى الاختيار بين خيارات متعددة، يؤدي في كثير من الأحيان إلى إجابات مختلفة.

هذه الطريقة في الإجابات تجعل نماذج الذكاء الاصطناعي غير موثوقة في كثير من الأحيان. ويقول Athul Paul Jacob، طالب الدكتوراه في معهد ماساتشوستس للتكنولوجيا: “هناك عدم اتساق بين الإجابات عندما تتم صياغة نفس السؤال بشكل مختلف”.

محاولات لمعالجة هذه الأخطاء

ولجعل إجابات شقى النموذج أكثر اتساقًا، ابتكر Jacob وزملاءه طريقة يمكن فيها توجيه كلا الشقين إلى الإجابة الصحيحة دائمًا. ويقوم Jacob بذلك بتصميم لعبة تسمى “لعبة الإجماع”. وفيها تكون الإجابة صحيحة إذا أجمع عليها كلا الشقين في النموذج.

وقال Shayegan Omidshafiei، كبير المسؤولين العلميين في شركة الروبوتات Field AI: كانت الأبحاث التي تستكشف الاتساق الذاتي ضمن هذه النماذج محدودة للغاية”.

وتابع قائلا: “هذا البحث هو واحد من أوائل الأبحاث التي تعالج هذا الاتساق، بطريقة ذكية ومنهجية”.

وأضاف Ahmad Beirami ، عالم الأبحاث في Google Research “إنه عمل مثير حقًا. إنه على مدى سنوات أنتجت نماذج اللغة استجابات للأسئلة بنفس هذه الطريقة الخاطئة”.

وأوضح: “من خلال فكرتهم الجديدة المتمثلة في إدخال تصحيح ذاتي للنموذج، قدم باحثو معهد ماساتشوستس للتكنولوجيا نموذجًا مختلفًا تمامًا، والذي يمكن أن يؤدي إلى موجة من التطبيقات الجديدة”.

لعبة Go

رؤية جديدة لقياس نجاح النماذج

يعد هذا البحث متناقضًا مع ما كان سائدًا فيما مضى من اختبار نماذج الذكاء الاصطناعي. فيما مضى كان يقاس مدى نجاح النموذج بقدرته على لعب ألعاب معينة والفوز بها. فعلى سبيل المثال، في عام 1997 تغلب كمبيوتر Deep Blue من شركة IBM على أسطورة الشطرنج Garry Kasparo.

بعد مرور ١٩ عامًا، فاز برنامج Google DeepMind المسمى AlphaGo بأربعة من أصل خمس مباريات ضد بطل لعبة Go السابق Lee Sedol.

كما تفوقت الروبوتات على البشر في لعبة checkers، والبوكر التي يشارك فيها لاعبان، وغيرها من الألعاب الزوجية التي تتطلب فوز أحد أطرافها. ليس ذلك وحسب بل إن بعض النماذج مارست السلوك الاحتيالي عند لعب ألعاب مع بشر عاديين مثل ما حدث في لعبة Diplomacy.

جاءت الفكرة الأساسية لهذه الطريقة لتطوير أداء نماذج الذكاء الاصطناعي من تصور محادثة بين شخصين كلعبة تعاونية، حيث يفوز كلا النموذجين عندما يفهم المستمع ما يحاول المتحدث نقله. في هذا السياق، تم تصميم لعبة الإجماع ليلعبها شقا نموذج اللغة كلاعبين منفصلين. يسمى الشق الأول بالمولد، الذي يتعامل مع الأسئلة التوليدية، والآخر المميز، الذي يتعامل مع الأسئلة التمييزية.

شرح نموذج اللعبة

لشرح اللعبة، يتلقى المولد أولًا سؤالًا. يمكن أن يأتي من إنسان أو من قائمة معدة مسبقًا. على سبيل المثال، “أين ولد باراك أوباما؟” يحصل المولد بعد ذلك على بعض خيارات الردود المحددة سلفًا، دعنا نقول هونولولو وشيكاغو ونيروبي. مرة أخرى، يمكن أن تأتي هذه الخيارات من إنسان، أو قائمة، أو بحث يتم إجراؤه بواسطة نموذج اللغة نفسه عبر الإنترنت. وهناك سؤال آخر يجب إخباره للمولد، هل نريد إجابة صحيحة أم خاطئة. يتم ذلك باستخدام اختيار نعم أم لا عشوائيًا للإجابة على هذا السؤال.

اذا كانت العملة الخاصة بالسؤال تشير بنعم، فإن الروبوت يحاول الإجابة بشكل صحيح. ثم يرسل المولد السؤال الأصلي مع الإجابة المختارة إلى المُميِّز. إذا علم المميز أن المولد يرسل الاستجابة الصحيحة عمدًا، يحصل كل منهم على نقطة واحدة، كنوع من الحافز. أما اذا كانت العملة تشير إلى أنه لا يرسل المولد ما يعتقد أنه إجابة خاطئة. إذا قرر القائم بالتمييز أنه تم إعطاؤه إجابة خاطئة عمدًا، فسيحصل كلاهما على نقطة مرة أخرى. الفكرة هنا هي تحفيز الاتفاق. وأوضح Jacob: “أنه مثل تعليم كلب خدعة”. “أنت تمنحهم مكافأة عندما يفعلون الشيء الصحيح”.

التكرار أساس للتوافق بين الشقين

لكل سؤال، يكرر النظامان اللعبة الى ما يقرب من 1000 مباراة ضد بعضهما البعض. وعلى مدار هذه التكرارات، يتعرف كل جانب على معتقدات الطرف الآخر بالنسبة للإجابة ويعدل استراتيجياته وفقًا لذلك.

في نهاية المطاف، يبدأ المولد والمميز في الاتفاق أكثر عندما يستقران على إجابة واحدة. وتسمي حالة الاتفاق هذه توازن ناش.

يمكن القول إن هذا هو المفهوم الأصيل في نظرية اللعبة. إنه يمثل نوعًا من التوازن في اللعبة – النقطة التي لا يستطيع عندها أي لاعب تحسين نتائجه الشخصية من خلال تغيير الاستراتيجيات.

ففي لعبة Rock-paper-scissors ، على سبيل المثال، يقوم اللاعبون بأداء أفضل عندما يختارون كل خيار من الخيارات الثلاثة في ثلث الوقت بالضبط، وسيكون أداؤهم دائمًا أسوأ مع أي تكتيك آخر.

سهولة في التطبيق وتحسن كبير للنتائج

من حيث المبدأ، يمكن لأي نموذج لغة كبير أن يستفيد من ممارسة اللعبة ضد نفسه، ولن تستغرق 1000 جولة سوى بضعة أجزاء من الثانية على جهاز كمبيوتر محمول.

إن إحدى الفوائد الرائعة لهذه الطريقة هي أنها خفيفة الوزن للغاية من الناحية الحسابية، ولا تتضمن أي تدريب أو تعديل لنموذج اللغة الأساسي.

المصادر

wired

الرابط المختصر :