دراسة: الذكاء الاصطناعي يتعلم من عيون وآذان الأطفال

الذكاء الاصطناعي يتعلم من «عيون وآذان طفل»
الذكاء الاصطناعي يتعلم من «عيون وآذان طفل»

يمكن الآن لأنظمة الذكاء الاصطناعي، مثل ChatGPT-4، أن تتعلم وتستخدم اللغة البشرية، لكنها تتعلم من كميات هائلة من مدخلات اللغة – أكثر بكثير مما يتلقاه الأطفال عندما يتعلمون كيفية فهم اللغة والتحدث بها.

تتدرب أفضل أنظمة الذكاء الاصطناعي على النصوص التي يصل عدد كلماتها إلى التريليونات. في حين يتلقى الأطفال الملايين فقط سنويًا.

وبسبب هذه الفجوة الهائلة في البيانات. كان الباحثون متشككين في أن التطورات الأخيرة في الذكاء الاصطناعي يمكن أن تخبرنا الكثير عن التعلم البشري والتنمية.

قد يتضمن الاختبار المثالي لإثبات الاتصال تدريب نموذج الذكاء الاصطناعي. ليس على البيانات الضخمة من الويب. ولكن على المدخلات التي يتلقاها طفل واحد فقط. ما الذي يمكن للنموذج أن يتعلمه بعد ذلك؟

عيون طفل واحد

أجرى فريق من الباحثين في جامعة نيويورك هذه التجربة بالضبط. وقاموا بتدريب نظام ذكاء اصطناعي متعدد الوسائط من خلال عيون وآذان طفل واحد، باستخدام تسجيلات فيديو بكاميرا الرأس منذ أن كان الطفل ستة أشهر وحتى عيد ميلاده الثاني. لقد فحصوا ما إذا كان نموذج الذكاء الاصطناعي يمكنه تعلم الكلمات والمفاهيم الموجودة في تجربة الطفل اليومية.

وأظهرت النتائج التي توصلوا إليها. والتي نُشرت في  مجلة Science ، أن النموذج، أو الشبكة العصبية، يمكنه تعلم عدد كبير من الكلمات والمفاهيم باستخدام شرائح محدودة مما اختبره الطفل. أي أن الفيديو لم يسجل سوى حوالي 1% من ساعات استيقاظ الطفل. لكن ذلك كان كافيًا لتعلم اللغة بشكل حقيقي.

يقول واي كين فونج، عالم الأبحاث في مركز علوم البيانات بجامعة نيويورك المؤلف الأول  للتجربة:  لقد أظهرنا، لأول مرة، أن الشبكة العصبية المدربة على هذه المدخلات الواقعية من الناحية التنموية من طفل واحد يمكنها أن تتعلم ربط الكلمات بنظيراتها البصرية

وأضاف: تُظهر نتائجنا كيف أن التطورات الخوارزمية الحديثة المقترنة بالتجربة الطبيعية لطفل واحد لديها القدرة على إعادة تشكيل فهمنا لاكتساب اللغة والمفاهيم المبكرة.

باستخدام نماذج الذكاء الاصطناعي لدراسة مشكلة تعلم اللغة الحقيقية التي يواجهها الأطفال، يمكننا معالجة المناقشات الكلاسيكية حول المكونات التي يحتاجها الأطفال لتعلم الكلمات – سواء كانوا بحاجة إلى تحيزات خاصة باللغة. أو معرفة فطرية، أو مجرد التعلم الترابطي للمضي قدمًا.

يضيف بريندن ليك، الأستاذ المساعد في مركز علوم البيانات وقسم علم النفس بجامعة نيويورك: يبدو أنه يمكننا الحصول على المزيد من خلال التعلم فقط مما يعتقد عادة.”

اقرأ أيضًا:

دراسة: ذكاء اصطناعى يكشف عن التوحد بدقة 100% بفحص العين

ربع مليون كلمة

قام فونج وليك وزملاؤهما في جامعة نيويورك، وينتاو وانج وإمين أورهان، بتحليل عملية تعلم الطفل التي تم التقاطها بفيديو من منظور الشخص الأول – عبر كاميرا خفيفة مثبتة على الرأس – على أساس أسبوعي يبدأ من عمر ستة أشهر وحتى 25 شهرًا. باستخدام أكثر من 60 ساعة من اللقطات.

تحتوي اللقطات على ما يقرب من ربع مليون كلمة (أي عدد الكلمات التي تم توصيلها، والعديد منها متكرر) والتي ترتبط بإطارات فيديو لما شاهده الطفل عندما تم نطق تلك الكلمات وتضمنت مجموعة واسعة من الأنشطة المختلفة عبر التنمية، بما في ذلك أوقات الوجبات، وقراءة الكتب، ولعب الطفل.

بعد ذلك، قام باحثو جامعة نيويورك بتدريب شبكة عصبية متعددة الوسائط بوحدتين منفصلتين: واحدة تأخذ إطارات فيديو واحدة (مشفر الرؤية) والأخرى تأخذ الكلام المكتوب الموجه للطفل (مشفر اللغة).

تم دمج هذين المشفرين وتدريبهما باستخدام خوارزمية تسمى التعلم المتباين، والتي تهدف إلى تعلم ميزات الإدخال المفيدة وارتباطاتها عبر الوسائط.

على سبيل المثال.. عندما يقول أحد الوالدين شيئًا ما أمام الطفل، فمن المحتمل أن بعض الكلمات المستخدمة تشير على الأرجح إلى شيء يمكن للطفل رؤيته. مما يعني أن الفهم يتم غرسه من خلال ربط الإشارات البصرية واللغوية.

يوضح فونج: “يوفر هذا للنموذج فكرة عن الكلمات التي يجب أن ترتبط بالأشياء”. “إن الجمع بين هذه الإشارات هو ما يمكّن التعلم المتباين من تحديد الكلمات التي تنتمي إلى أي صور بشكل تدريجي والتقاط تعلم الكلمات الأولى للطفل.”

تعلم الكلمات عند الرضع

بعد تدريب النموذج، اختبره الباحثون باستخدام نفس أنواع التقييمات المستخدمة لقياس تعلم الكلمات عند الرضع. حيث قدموا للنموذج الكلمة المستهدفة ومجموعة من أربعة خيارات مختلفة للصور وطلبوا منه تحديد الصورة التي تطابق الكلمة المستهدفة . وأظهرت نتائجهم أن النموذج كان قادرا على تعلم عدد كبير من الكلمات والمفاهيم الموجودة في تجربة الطفل اليومية.

علاوة على ذلك.. بالنسبة لبعض الكلمات التي تعلمها النموذج، يمكنه تعميمها على أمثلة بصرية مختلفة تمامًا عن تلك التي شوهدت في التدريب، مما يعكس جانبًا من التعميم الذي يظهر أيضًا لدى الأطفال عندما يتم اختبارهم في المختبر.

يقول ليك: “تشير هذه النتائج إلى أن هذا الجانب من تعلم الكلمات ممكن من خلال نوع البيانات الطبيعية التي يتلقاها الأطفال أثناء استخدام آليات التعلم العامة نسبيًا مثل تلك الموجودة في الشبكات العصبية”.

المصدر: مجلة Science

 

اقرأ أيضًا:

لماذا تحتاج الروبوتات إلى تعلم اللغة؟

الرابط المختصر :