ابتكار نظام آلي يمكنه إعادة كتابة الجمل القديمة بمقالات “ويكيبيديا”

نظام آلي يمكنه إعادة كتابة الجمل القديمة في مقالات "ويكيبيديا"
نظام آلي يمكنه إعادة كتابة الجمل القديمة في مقالات "ويكيبيديا"

ابتكر باحثو “معهد ماساتشوستس للتكنولوجيا” جهازًا لتحديث التناقضات الواقعية في مقالات موسوعة “ويكيبيديا”؛ ما يقلل الوقت والجهد المبذولين من قِبل المحررين البشريين الذين يؤدون المهمة يدويًا.

وتضم موسوعة “ويكيبيديا” ملايين المقالات التي تحتاج إلى تعديلات مستمرة لتعكس معلومات جديدة. ويمكن أن يشمل ذلك توسعات المقالة أو إعادة كتابة رئيسية أو المزيد من التعديلات الروتينية، مثل تحديث الأرقام والتواريخ والأسماء والمواقع. وحاليًا، يتطوع البشر في جميع أنحاء العالم بوقتهم لإجراء هذه التعديلات.

ولكن في ورقة بحثية تم تقديمها في مؤتمر”AAAI”حول الذكاء الاصطناعي، وصف الباحثون نظامًا لتوليد النصوص يحدد ويحل محل معلومات محددة في جمل “ويكيبيديا” ذات الصلة، مع الحفاظ على لغة مشابهة لكيفية الكتابة والتحرير للبشر.

الفكرة هي أن البشر سوف يكتبون في واجهة جملة غير منظمة تحتوي على معلومات محدثة، دون الحاجة إلى القلق بشأن الأسلوب أو القواعد. وسيتولى النظام بعد ذلك البحث في “ويكيبيديا”، وتحديد موقع الصفحة المناسبة والجُمل التي عفا عليها الزمن، وإعادة كتابتها بطريقة إنسانية.

ويقول الباحثون إنه في المستقبل هناك إمكانية لبناء نظام مؤتمت بالكامل يحدد ويستخدم أحدث المعلومات من جميع أنحاء الويب؛ لإنتاج جمل مُعاد كتابتها في مقالات “ويكيبيديا” المقابلة التي تعكس المعلومات المحدثة.

ويوضح “دارش شاه”؛ طالب دكتوراه في مختبر علوم الحاسوب والذكاء الاصطناعي (CSAIL) وأحد المؤلفين الرئيسيين للورقة البحثية: “هناك الكثير من التحديثات المطلوبة باستمرار لمقالات “ويكيبيديا”، وسيكون من المفيد تعديل أجزاء محددة من المقالات تلقائيًا، دون أي تدخل بشري يذكر. وبدلًا من مئات الأشخاص الذين يعملون على تعديل كل مقالة في “ويكيبيديا”، فلن تحتاج إلا إلى عدد قليل؛ لأن النموذج يساعده أو يفعله تلقائيًا كما يوفر تحسينات هائلة في الكفاءة”.

ويضيف “شاه”:” هناك برامج الروبوت التي يمكن أن تؤدي نفس المهام، ولكن نموذج الباحثين يحل مشكلة الذكاء الاصطناعي الأكثر صعوبة، فبالنظر إلى جزء جديد من المعلومات غير المهيكلة، يعدل النموذج الجملة تلقائيًا بطريقة إنسانية، بينما تستند برامج الروبوت إلى قواعد أكثر، في حين أن هذه المهمة تتطلب التفكير في أجزاء متناقضة في جملتين وتوليد جزء متماسك من النص”.

وتفيد الورقة البحثية بأنه يمكن استخدام النظام لتطبيقات أخرى لتوليد النصوص. ويقول “شوستر”: “بهذه الطريقة يتحسن الأداء لنماذج التحقق من الوقائع التلقائية التي تتدرب على مجموعة البيانات، على سبيل المثال لاكتشاف الأخبار المزيفة”.

وعمل “شاه” و”شوستر” في البحث مع المستشار الأكاديمي “ريجينا برزيلاي”؛ وأستاذ الدلتا للإلكترونيات في الهندسة الكهربائية وعلوم الكمبيوتر وأستاذة في CSAIL.

لنفترض أن هناك تحديثًا مطلوبًا لهذه الجملة (بالخط العريض): “يُعتبر الصندوق A 28 من أصل 42 من حصص الأقلية في الشركات النشطة تشغيليًا ذا أهمية خاصة للمجموعة. ويمكن أن تكون عبارة المطالبة بمعلومات محدّثة كما يلي: سيحدد النظام نص ويكيبيديا ذي الصلة بـ “الصندوق أ”، بناءً على المطالبة. ثم تقوم تلقائيًا بتصفية الأرقام القديمة (28 و42) واستبدالها بالأرقام الجديدة (23 و43)، مع الحفاظ على الجملة كما هي تمامًا وصحيحة نحويًا. ( أدار الباحثون النظام على مجموعة من جمل ويكيبيديا المحددة، وليس على جميع صفحات ويكيبيديا.)

تم تدريب النظام على مجموعة بيانات شائعة تحتوي على أزواج من الجمل؛ حيث جملة واحدة هي مطالبة والآخر عبارة ويكيبيديا ذات الصلة. يتم تصنيف كل زوج بإحدى الطرق الثلاث: “أوافق”: بمعنى أن الجمل تحتوي على معلومات واقعية مطابقة، “لا أوافق”: بمعنى أنها تحتوي على معلومات متناقضة، أو “محايد”: حيث لا توجد معلومات كافية لأي من الملصقات، ويجب على النظام أن يوافق جميع أزواج الاختلاف، عن طريق تعديل الجملة القديمة لمطابقة المطالبة. ويتطلب استخدام نموذجين منفصلين لإنتاج الإخراج المطلوب.

النموذج الأول عبارة عن مصنف للتحقق من الحقائق، وهو يُركز على أن يُصنّف كل زوج من الجمل على أنه “موافق” أو “غير موافق” أو “محايد” ويركز على اختلاف الأزواج. وتعمل بالاقتران مع المصنف وحدة نمطية مخصصة لـ “قناع الحياد” تحدد الكلمات الموجودة في الجملة القديمة التي تتعارض مع الادعاء.

تزيل الوحدة أقل عدد ممكن من الكلمات المطلوبة “لزيادة الحيادية”، ما يعني أن الزوج يمكن أن يكون محايدًا. هذه هي نقطة البداية: على الرغم من أن الجمل لا توافق، فإنها لم تعد تحتوي على معلومات متناقضة بوضوح. وتصنع الوحدة النمطية “قناعًا” ثنائيًا على الجملة القديمة؛ حيث يتم وضع 0 على الكلمات التي من المرجح أن تتطلب الحذف، في حين أن الرقم “1” يتخطى الحراس.

بعد ذلك، يتم استخدام إطار عمل جديد لجهاز فك تشفير ثنائي التشفير لإنشاء جملة الإخراج النهائية. يدمج جهازي فك التشفير بين الكلمات المتشابهة من المطالبة، عن طريق تحريكها في البقع التي تركتها شاغرة بالكلمات المحذوفة (الكلمات المغطاة بالأرقام 0) في الجملة القديمة.

في أحد الاختبارات، سجل النموذج أعلى من جميع الطرق التقليدية، باستخدام تقنية تسمى “SARI” تقيس مدى قيام الآلات بحذف الكلمات وإضافتها والاحتفاظ بها مقارنة بالطريقة التي يعدل بها البشر الجمل.واستخدموا مجموعة بيانات بها جمل “ويكيبيديا” تم تعديلها يدويًا، والتي لم يشاهدها النموذج من قبل، مقارنة بالعديد من الطرق التقليدية لتوليد النصوص، وكان النموذج الجديد أكثر دقة في إجراء تحديثات واقعية ومخرجاته أقرب إلى الكتابة البشرية.

وفي اختبار آخر، سجل البشر الذين تم تعهيدهم جماعيًا النموذج (على مقياس من 1 إلى 5) استنادًا إلى مدى احتواء جمل الإخراج على تحديثات واقعية وقواعد بشرية مطابقة. وحقق النموذج متوسط ​​درجات 4 في التحديثات الواقعية و3.85 في مطابقة القواعد.

وأظهرت الدراسة أيضًا أنه يمكن استخدام النظام لزيادة مجموعات البيانات للقضاء على التحيز عند تدريب أجهزة الكشف عن “الأخبار المزيفة”، وهو شكل من أشكال الدعاية التي تحتوي على معلومات مضللة تم إنشاؤها لتضليل القراء؛ من أجل توليد مشاهدات على الويب أو توجيه الرأي العام. ويتدرب بعض هؤلاء الكاشفين على مجموعات بيانات لأزواج الجمل غير المتفق عليها من أجل “التعلم”؛ من خلال مطابقتها مع الأدلة المقدمة.

ولسوء الحظ، فإن مثل هذه المجموعات من البيانات تأتي حاليًا مع تحيزات غير مقصودة، ويقول شاه: “أثناء التدريب، تستخدم النماذج بعضًا من ادعاءات الإنسان المكتوبة كعبارات “للتخلي عنها” لتمييزها بأنها خاطئة، دون الاعتماد كثيرًا على جملة الأدلة المقابلة. وهذا يقلل من دقة النموذج عند تقييم الأمثلة في العالم الحقيقي؛ لأنه لا يؤدي للتأكد من الحقائق”.

واستخدم الباحثون نفس تقنيات الحذف والاندماج من مشروع “ويكيبيديا”، لموازنة أزواج الاختلاف في مجموعة البيانات والمساعدة في تخفيف التحيز. وبالنسبة لبعض أزواج “عدم الموافقة”، استخدموا المعلومات الخاطئة الواردة في الجملة المعدلة لتجديد “أدلة” مزيفة تدعم الجملة، ثم توجد بعض عبارات التخلي في جملتي “موافق” و”غير موافق”؛ ما يفرض نماذج لتحليل المزيد من الميزات، ومن خلال استخدام مجموعة بياناتهم المعززة، خفّض الباحثون معدل الخطأ للكشف عن الأخبار المزيفة بنسبة 13%.


المصدر: MIT News:Automated system can rewrite outdated sentences in Wikipedia articles


بعد قراءة الموضوع يمكنك معرفة المزيد عن الكلمات الآتية:


5G Apple ChatGPT Google iPhone أبل أمازون أمن المعلومات أندرويد إيلون ماسك الأمن السيبراني الإنترنت البيانات التخصصات المطلوبة التكنولوجيا الذكاء الاصطناعي الزراعة السيارات الكهربائية الصين الطاقة الفضاء المدن الذكية المملكة العربية السعودية الهواتف الذكية تويتر جوجل حساب المواطن رابط التقديم رابط التقديم للوظيفة سامسونج سدايا سيارة شركة أبل شركة جوجل عالم التكنولوجيا فيروس كورونا فيسبوك كورونا مايكروسوفت منصة أبشر ناسا هاتف هواوي واتساب وظائف شاغرة


الرابط المختصر :