DeepSeek.. روبوت صيني يتفوق على GPT-4o

المحتوي

نجحت شركة DeepSeek الصينية في إطلاق أحد أقوى نماذج الذكاء الاصطناعي المفتوحة حتى الآن لمنافسة شركة ميتا و OpenAI.

ما DeepSeek؟

تم تطوير روبوت DeepSeek V3، بواسطة شركة الذكاء الاصطناعي في شركة DeepSeek بموجب ترخيص يسمح للمطورين بتنزيله وتعديله لمعظم التطبيقات، بما في ذلك التطبيقات التجارية. علاوة على أنه يمكن لبرنامج DeepSeek V3 التعامل مع مجموعة واسعة من أحمال العمل والمهام النصية، مثل:

كتابة الاكواد.
الترجمة.
كتابة المقالات.
رسائل البريد الإلكتروني من موجه وصفي.

وفقًا للاختبارات الداخلية التي أجرتها الشركة تفوق DeepSeek V3 على كل من النماذج القابلة للتنزيل والمتاحة علنًا. ونماذج الذكاء الاصطناعي المدفوعة بما في ذلك:

Llama 3.1 405B من Meta
GPT-4o من OpenAI.
Qwen 2.5 72B من Alibaba.

ما التوكن؟

ودرب مطورو الشركة الصينية الروبوت على قاعدة بيانات مكونة من 12.8 تريليون توكن. ويعد “التوكن” وحدة تمثيل حجم البيانات في صورتها النصية. أي أن كل مليون توكن تساوي قرابة 750 ألف كلمة.

DeepSeek (Chinese AI co) making it look easy today with an open weights release of a frontier-grade LLM trained on a joke of a budget (2048 GPUs for 2 months, $6M).

For reference, this level of capability is supposed to require clusters of closer to 16K GPUs, the ones being… https://t.co/EW7q2pQ94B

— Andrej Karpathy (@karpathy) December 26, 2024

كما تفوق الروبوت الصيني الجديد. وسجل أرقامًا قياسية في اختبار Aider Polyglot. وهو اختبار يقيس عددًا من قدرات النماذج الذكية. منها قدرته على كتابة أكواد برمجية جديدة تتماشى مع الأكواد الحالية. التي لا يمكن الوصول إليها إلا من خلال واجهة برمجة التطبيقات.

وفي مجموعة فرعية من مسابقات البرمجة المستضافة على Codeforces، وهي منصة لمسابقات البرمجة، تفوق الروبوت الصيني على نماذج أخرى.

تزعم الشركة أن DeepSeek V3 تم تدريبه على مجموعة بيانات مكونة من 14.8 تريليون رمز مميز. في علم البيانات، تستخدم الرموز المميزة لتمثيل أجزاء من البيانات الخام – مليون رمز مميز يعادل حوالي 750 ألف كلمة.

GPT-4

لا يقتصر الأمر على مجموعة التدريب الضخمة. فحجم DeepSeek V3 هائل: 671 مليار معلمة، أو 685 مليارًا على منصة تطوير الذكاء الاصطناعي Hugging Face. والمعلمات هي المتغيرات الداخلية التي تستخدمها النماذج للتنبؤ أو اتخاذ القرارات. وهذا يزيد بنحو 1.6 مرة عن حجم Llama 3.1 405B، الذي يحتوي على 405 مليار معلمة.

ورغم أن DeepSeek V3 ليس النموذج الأكثر عملية، فإنه يمثل إنجازًا في بعض النواحي. فقد تمكنت الشركة الصينية من تدريب النموذج باستخدام مركز بيانات لوحدات معالجة الرسوميات Nvidia H800 في غضون شهرين فقط.

وهي وحدات معالجة الرسوميات التي حظرت وزارة التجارة الأمريكية على الشركات الصينية مؤخرًا شراءها. كما تزعم الشركة أنها أنفقت 5.5 مليون دولار فقط لتدريب DeepSeek V3، وهو جزء بسيط من تكلفة تطوير نماذج مثل GPT-4 من OpenAI.

الرابط المختصر :