DeepSeek.. روبوت صيني يتفوق على GPT-4o

DeepSeek
DeepSeek

نجحت شركة DeepSeek الصينية في إطلاق أحد أقوى نماذج الذكاء الاصطناعي المفتوحة حتى الآن لمنافسة شركة ميتا و OpenAI.

ما DeepSeek؟

تم تطوير روبوت DeepSeek V3، بواسطة شركة الذكاء الاصطناعي في شركة DeepSeek بموجب ترخيص يسمح للمطورين بتنزيله وتعديله لمعظم التطبيقات، بما في ذلك التطبيقات التجارية. علاوة على أنه يمكن لبرنامج DeepSeek V3 التعامل مع مجموعة واسعة من أحمال العمل والمهام النصية، مثل:

  • كتابة الاكواد.
  • الترجمة.
  • كتابة المقالات.
  • رسائل البريد الإلكتروني من موجه وصفي.

وفقًا للاختبارات الداخلية التي أجرتها الشركة تفوق DeepSeek V3 على كل من النماذج القابلة للتنزيل والمتاحة علنًا. ونماذج الذكاء الاصطناعي المدفوعة بما في ذلك:

  • Llama 3.1 405B  من Meta
  • GPT-4o  من OpenAI.
  • Qwen 2.5 72B من Alibaba.

ما التوكن؟

ودرب مطورو الشركة الصينية الروبوت على قاعدة بيانات مكونة من 12.8 تريليون توكن. ويعد “التوكن” وحدة تمثيل حجم البيانات في صورتها النصية. أي أن كل مليون توكن تساوي قرابة 750 ألف كلمة.

 

كما تفوق الروبوت الصيني الجديد. وسجل أرقامًا قياسية في اختبار Aider Polyglot. وهو اختبار يقيس عددًا من قدرات النماذج الذكية. منها قدرته على كتابة أكواد برمجية جديدة تتماشى مع الأكواد الحالية. التي لا يمكن الوصول إليها إلا من خلال واجهة برمجة التطبيقات.

وفي مجموعة فرعية من مسابقات البرمجة المستضافة على Codeforces، وهي منصة لمسابقات البرمجة، تفوق الروبوت الصيني على نماذج أخرى.

تزعم الشركة أن DeepSeek V3 تم تدريبه على مجموعة بيانات مكونة من 14.8 تريليون رمز مميز. في علم البيانات، تستخدم الرموز المميزة لتمثيل أجزاء من البيانات الخام – مليون رمز مميز يعادل حوالي 750 ألف كلمة.

GPT-4

لا يقتصر الأمر على مجموعة التدريب الضخمة. فحجم DeepSeek V3 هائل: 671 مليار معلمة، أو 685 مليارًا على منصة تطوير الذكاء الاصطناعي Hugging Face. والمعلمات هي المتغيرات الداخلية التي تستخدمها النماذج للتنبؤ أو اتخاذ القرارات. وهذا يزيد بنحو 1.6 مرة عن حجم Llama 3.1 405B، الذي يحتوي على 405 مليار معلمة.

اقرأ أيضا: الإمارات تطلق “شات جي بي تي” للمزارعين في “كوب”

ورغم أن DeepSeek V3 ليس النموذج الأكثر عملية، فإنه يمثل إنجازًا في بعض النواحي. فقد تمكنت الشركة الصينية من تدريب النموذج باستخدام مركز بيانات لوحدات معالجة الرسوميات Nvidia H800 في غضون شهرين فقط.

وهي وحدات معالجة الرسوميات التي حظرت وزارة التجارة الأمريكية على الشركات الصينية مؤخرًا شراءها. كما تزعم الشركة أنها أنفقت 5.5 مليون دولار فقط لتدريب DeepSeek V3، وهو جزء بسيط من تكلفة تطوير نماذج مثل GPT-4 من OpenAI.

الرابط المختصر :