مجلة عالم التكنولوجيا
مجلة تكنولوجية شاملة

نموذج لغة GPT-3.. خطوة على طريق تطور الذكاء الاصطناعي

0 44

هل سمعت من قبل عن نموذج لغة GPT-3 من قبل؟ ابتكرت شركة ” OpenAI” هذا النموذج؛ للاستفادة من القدرة الحسابية الهائلة جنبًا إلى جنب مع التعلم المعزز، فهي خطوة ضرورية على طريق الذكاء الاصطناعي الذي يمكنه تعلم أي مهمة يؤديها الإنسان. وهناك أيضًا تقدم يُحسب لنموذج اللغة GPT-3، وهو القدرة على “الرؤية”.

إنها ليست المرة الأولى التي يسعى فيها الناس إلى الجمع بين نماذج اللغة والرؤية الحاسوبية. هذا في الواقع مجال سريع النمو لأبحاث الذكاء الاصطناعي، والفكرة هي أن كلا النوعين من الذكاء الاصطناعي له نقاط قوة مختلفة.

يتم تدريب نماذج اللغة مثل GPT-3 من خلال التعلم غير الخاضع للإشراف، والذي لا يتطلب وسم البيانات يدويًا؛ ما يسهل قياسها. على النقيض من ذلك، تتعلم نماذج الصور، مثل أنظمة التعرف على الأشياء بشكل مباشر من الواقع. بعبارة أخرى، لا يعتمد فهم تلك النماذج على نوع تجريد العالم الذي يوفره النص.

ولنماذج الذكاء الاصطناعي، التي يمكنها تحليل اللغة والمدخلات المرئية لها، استخدامات عملية للغاية. فإذا أردنا بناء مساعدين روبوتيين، على سبيل المثال، فهم بحاجة إلى رؤية حاسوبية للتنقل في العالم واللغة للتواصل حولها مع البشر.

ويتطلب تدريب نموذج جديد من البداية استخدام مجموعة بيانات تتضمن نصوصًا وصورًا، والمعروفة باسم “مجموعة بيانات اللغة المرئية”، وتتمثل الطريقة الأكثر شيوعًا لتنظيم البيانات هذه في تكوين مجموعة من الصور ذات التعليقات الوصفية. وبالتالي، يمكن لمجموعة بيانات اللغة المرئية تعليم نموذج الذكاء الاصطناعي، ليس فقط كيفية التعرف على الأشياء، ولكن كيفية ارتباطها ببعضها البعض والتعامل معها، باستخدام الأفعال وحروف الجر.

GPT-3
GPT-3

ولكن يمكنك معرفة سبب استغراق عملية تنظيم البيانات فترة طويلة جدًا _هذا هو السبب في أن مجموعات بيانات اللغة المرئية الموجودة ضئيلة للغاية_ وهو أن مجموعة بيانات شائعة للنصوص فقط، مثل ويكيبيديا الإنجليزية، قد تضم ما يقرب من 3 مليارات كلمة. بينما تحتوي مجموعة بيانات اللغة المرئية، مثل Microsoft Common Objects in Context أو MS COCO، على 7 ملايين فقط. إنها ببساطة ليست بيانات كافية لتدريب نموذج الذكاء الاصطناعي على أي شيء مفيد.

ويتغلب برنامج “Vokenization” على هذه المشكلة؛ باستخدام طرق التعلم غير الخاضعة للإشراف لتوسيع نطاق كمية البيانات الضئيلة في MS COCO إلى حجم ويكيبيديا الإنجليزية. ويتفوق نموذج اللغة المرئية الناتج على أحدث النماذج في بعض أصعب الاختبارات المستخدمة لتقييم فهم لغة الذكاء الاصطناعي اليوم.

وفي نطق الذكاء الاصطناعي، تُعرف الكلمات المستخدمة في تدريب نماذج اللغة باسم الرموز المميزة؛ لذلك قرر باحثو UNC تسمية الصورة المرتبطة بكل رمز مميز في نموذج اللغة المرئية الخاص بهم بـ “voken”.

والهدف من هذا ليس فقط إظهار مدى حب الباحثين في مجال الذكاء الاصطناعي لابتكار الكلمات فحسب، بل يساعد أيضًا في تفكيك الفكرة الأساسية وراء التكلم. وبدلًا من البدء بمجموعة بيانات الصورة وكتابة الجمل يدويًا لتكون بمثابة تعليقات -وهي عملية بطيئة للغاية- بدأ باحثو UNC بمجموعة بيانات لغة واستخدموا التعلم غير الخاضع للإشراف؛ لمطابقة كل كلمة مع صورة ذات صلة، وهذه عملية قابلة للتطوير بدرجة كبيرة.

واستخدم الباحثون الحقل المرئي والكلامي الذي أنشأوه باستخدام MS COCO لتدريب خوارزمية Vokenizer الخاصة بهم. وبمجرد تدريبه، تمكن برنامج “Vokenizer” من العثور على vokens للرموز في ويكيبيديا الإنجليزية. ووجدت الخوارزمية ما يقرب من 40٪ من الرموز المميزة. ولكنها لا تزال نسبة ضئيلة من مجموعة البيانات التي تحتوي على ما يقرب من 3 مليارات كلمة.

ومع مجموعة البيانات الجديدة هذه، أعاد الباحثون تدريب نموذج لغة يُعرف باسم (BERT)، وهو محول مفتوح المصدر طورته شركة “جوجل “. ثم قاموا باختبار (BERT) الجديد والمحسّن في ستة اختبارات مختلفة لفهم اللغة، وكان أداء (BERT) المحسّن أفضل بالنسبة لجميع الباحثين.

 

المصدر:

Technologyreview: This could lead to the next big breakthrough in common sense AI

اقرأ أيضًا:

 

كيف تنشئ تطبيق ذكاء اصطناعي؟

الرابط المختصر :

اترك رد

لن يتم نشر عنوان بريدك الإلكتروني.