قدمت شركة الذكاء الاصطناعي الصينية DeepSeek نموذج DeepSeek-R1، وهو نموذج استدلال مفتوح المصدر لا ينافس نموذج o1 من OpenAI في أداء معياري فحسب، بل يوفر أيضًا كفاءة من حيث التكلفة وهندسة متقدمة وقدرات واسعة النطاق، مما يجعله بديلاً مقنعًا في مجال الاستدلال بالذكاء الاصطناعي.
لكن بالطبع الذكاء الإصطناعي الصيني لديه عيب واضح هو الحدود والرقابة الصينية الإشتراكية التي تمنع تناول مواضيع حساسة للحكومة الصينية.
مقارنة على مستوى أداء المعيار بين DeepSeek R1 و OpenAI o1
أظهر DeepSeek-R1 أداءً استثنائيًا عبر مجموعة من المعايير الصعبة، وغالبًا ما كان يطابق أو يتفوق على أداء OpenAI’s o1.
وفي اختبار الرياضيات AIME 2024، حقق R1 درجة Pass@1 مثيرة للإعجاب بلغت 79.8%، متفوقًا قليلاً على أداء o1 الذي بلغ 79.2%.
ويتألق النموذج حقًا في معيار MATH-500، حيث سجل نسبة 97.3%، متفوقًا على أداء o1 الذي بلغ 96.4%.
وفي تحديات الترميز، أظهر R1 مهارات على مستوى الخبراء من خلال احتلاله المرتبة 96.3 من المشاركين من البشر في Codeforces.
بالنسبة لتقييمات المعرفة العامة، سجل DeepSeek-R1 نسبة 90.8% في MMLU و71.5% في GPQA Diamond، مقتربًا من أداء o1.
تسلط هذه النتائج الضوء على تنوع R1 وقدراته الاستدلالية القوية عبر مجالات متنوعة، مما يضعها كبديل مفتوح المصدر قوي للنماذج الملكية في مجال استدلال الذكاء الاصطناعي.
هندسة النموذج والقدرات بين DeepSeek R1 و OpenAI o1
يستخدم DeepSeek-R1 هندسة مزيج من الخبراء (MoE)، والتي تحتوي على 671 مليار معلمة إجمالية ولكنها تنشط 37 مليارًا فقط لكل تمريرة أمامية.
يسمح هذا النهج بالمعالجة الفعّالة مع الحفاظ على الأداء العالي، يدعم النموذج طول سياق مثير للإعجاب يصل إلى 128 ألف رمز، مما يمكنه من التعامل مع المدخلات المكثفة وتوليد استجابات مفصلة.
تتضمن عملية تدريب DeepSeek-R1 التعلم التعزيزي واسع النطاق، مع التركيز على تعزيز قدرات التفكير دون ضبط دقيق مُشرف عليه على نطاق واسع.
تتضمن الميزات الرئيسية لـ DeepSeek-R1 ما يلي:
- إمكانات استدلال متقدمة باستخدام أساليب Chain of Thought (CoT)
- القدرة على توليد ما يصل إلى 32 ألف رمز لمحتوى الاستدلال، متبوعًا بـ 8 آلاف رمز للإخراج النهائي.
- التوافر مفتوح المصدر بموجب ترخيصMIT، مما يسمح بالتعديلات والاستخدام التجاري.
- تم تدريبه على ما يقرب من 14.8 تريليون رمز، بتكلفة حسابية تبلغ 2.664 مليون ساعة GPU H8006
الذكاء الإصطناعي الصيني أرخص
تمتد ميزة التكلفة التي تتمتع بها DeepSeek-R1 مقارنة بـ o1 من OpenAI إلى ما هو أبعد من التسعير الخام، حيث تقدم وفورات كبيرة في الاستخدام العملي.
في حين أن أسعار R1 الأساسية أرخص بالفعل بمقدار 27.4 مرة لكل رمز مميز من o1 ، فإن فارق التكلفة الفعلي يكون أكثر وضوحًا عند النظر في عمليات التفكير في النماذج.
تولد R1 ما يقرب من 6.22 مرة من رموز التفكير في المتوسط أكثر من o1، مما يؤدي إلى أن تكون R1 أقل تكلفة بنحو 4.41 مرة فعليًا للإخراج المكافئ.
بالإضافة إلى ذلك، يوفر العرض الشفاف لجميع الرموز في R1 للمستخدمين رؤية كاملة لعملية التفكير، على عكس الحسابات المخفية في. o1
يتم تعزيز فعالية التكلفة في R1 بشكل أكبر من خلال آلية التخزين المؤقت الخاصة بها، والتي يمكن أن تقلل من النفقات على الاستعلامات المتكررة بنسبة تصل إلى 90٪.
بالنسبة للمدخلات المخزنة مؤقتًا، يتطلب نموذج DeepSeek R1 حوالي 0.14 دولارًا فقط لكل مليون رمز مميز، مقارنة بـ 7.53 دولارًا في o1.
هذا الفارق الكبير في السعر، إلى جانب طبيعة R1 المفتوحة المصدر وترخيص MIT، يجعله خيارًا سهل الوصول إليه واقتصاديًا للغاية للمطورين والشركات التي تسعى إلى قدرات التفكير المتقدمة في مجال الذكاء الاصطناعي.