اتهام "OpenAI" باستغلال محتوى محمي يثير جدلًا حول أخلاقيات الذكاء الاصطناعي

المحتوي

تواجه شركة “OpenAI”؛ الرائدة في مجال الذكاء الاصطناعي، اتهامات جديدة تتعلق باستغلال محتوى محمي بحقوق الطبع والنشر في تدريب نماذجها المتطورة. حيث هذه المرة، تشير ورقة بحثية حديثة إلى احتمال اعتماد الشركة على كتب مدفوعة من “O’Reilly Media” دون الحصول على ترخيص رسمي؛ ما يثير تساؤلات حول أخلاقيات ممارسات الشركات في هذا المجال.

اتهامات تواجه شركة OpenAI

واتهمت شركة OpenAI من قبل جهات عديدة بتدريب ذكائها الاصطناعي على محتوى محمي بحقوق الطبع والنشر دون إذن. والآن توجه ورقة بحثية جديدة صادرة عن منظمة مراقبة الذكاء الاصطناعي اتهامًا خطيرًا بأن الشركة اعتمدت بشكل متزايد على كتب غير عامة لم ترخصها لتدريب نماذج ذكاء اصطناعي أكثر تطورًا.

ونماذج الذكاء الاصطناعي هي في الأساس محركات تنبؤ معقدة. بتدريبها على كميات هائلة من البيانات الكتب والأفلام والبرامج التلفزيونية، وما إلى ذلك تتعلم أنماطًا وطرقًا مبتكرة لاستقراء النتائج من محفِز بسيط.

وعندما “يكتب” نموذج مقالًا عن مأساة يونانية أو “يرسم” صورًا على غرار جيبلي، فإنه ببساطة يستقي من معرفته الواسعة للتقريب. إنه لا يتوصل إلى أي شيء جديد.

الكود الثنائي وشعار OpenAI

بينما تبنى عدد من مختبرات الذكاء الاصطناعي، بما في ذلك OpenAI. البيانات المولدة من الذكاء الاصطناعي لتدريبها مع استنفادها للمصادر الواقعية (وخاصةً الإنترنت العام). إلا أن قلة منها قد تخلت تمامًا عن البيانات الواقعية.

ويرجع ذلك على الأرجح إلى أن التدريب على بيانات مصطنعة بحتة ينطوي على مخاطر، مثل تدهور أداء النموذج. وفقًا لموقع “techcrunch”.

مشروع إفصاحات الذكاء الاصطناعي

خلصت دراسة جديدة، صادرة عن مشروع إفصاحات الذكاء الاصطناعي. وهي منظمة غير ربحية شارك في تأسيسها قطب الإعلام تيم أوريلي والخبير الاقتصادي إيلان شتراوس عام2024. إلى أن OpenAI درب نموذج GPT-4o الخاص به على الأرجح على كتب مدفوعة من O’Reilly Media.

وفي ChatGPT، يعد GPT-4o النموذج الافتراضي. حيث تشير الورقة البحثية إلى أن O’Reilly ليس لديها اتفاقية ترخيص مع OpenAI.

وكتب المؤلفون المشاركون في البحث: “يظهر GPT-4o، وهو نموذج OpenAI الأحدث والأكثر كفاءة. قدرةً فائقةً على تمييز محتوى كتب O’Reilly المدفوعة. مقارنةً بنموذج OpenAI السابق GPT-3.5 Turbo”.

وفي المقابل، يظهر GPT-3.5 Turbo قدرةً أكبر نسبيًا على تمييز عينات كتب O’Reilly المتاحة للعامة”.

واستخدمت الورقة البحثية طريقة تسمى DE-COP، طُحت لأول مرة في دراسة أكاديمية عام 2024. وهي مصممة للكشف عن المحتوى المحمي بحقوق الطبع والنشر في بيانات تدريب نماذج اللغة.

وتعرف هذه الطريقة أيضًا باسم “هجوم استدلال العضوية”. وتختبر قدرة النموذج على التمييز بشكل موثوق بين النصوص التي ألفها البشر والنسخ المعاد صياغتها والمُولّدة بالذكاء الاصطناعي من النص نفسه.

يقول المؤلفون المشاركون في البحث أوريلي وشتراوس وباحث الذكاء الاصطناعي سرولي روزنبلات إنهم فحصوا معرفة نماذج GPT-4o و GPT-3.5 Turbo وغيرها من نماذج OpenAI بكتب O’Reilly Media المنشورة قبل وبعد تواريخ انتهاء التدريب.

الرابط المختصر :