ردا على الضجة التي أحدثها نموذج DeepSeek R1 الذي ابتكرته شركة ديب سيك الصينية، طرحت OpenAI نموذجها الجديد المجاني o3-mini.
إنه ليس مجرد تسمية جديدة في السوق فحسب من الشركة الأمريكية التي تتصدر السوق، بل إنه نموذج مذهل للغاية من حيث النتائج التي حصلنا عليها.
ما هو نموذج o3-mini؟
يعد o3-mini من OpenAI نموذجًا جديدًا ومحسنًا للاستدلال الكبير، على عكس نماذج اللغة الكبيرة التقليدية التي تستجيب على الفور، تم تصميم نماذج الاستدلال “للتفكير” في الإجابة قبل التوصل إلى حل.
ومع ذلك، قامت شركة OpenAI بعمل مذهل فهو أسرع من نظيره الصين، كما أنه أرخص من النموذج المجاني السابق من حيث التكلفة GPT-4o.
ولكنه سريع للغاية أيضًا، أسرع كثيرًا من أي نموذج استدلال استخدمته على الإطلاق، وعند طرح أسئلة معقدة عليه، فإنه يجيب عليها بشكل مثالي، بل وأفضل من o1 وR1 من DeepSeek وأي نموذج آخر استخدمته على الإطلاق.
يهدف نموذج o3-mini AI إلى حل مهام العلوم والرياضيات والترميز بمستوى فعال من حيث التكلفة، وقد حل محل o1-mini السابق وهو متاح الآن لعملاء ChatGPT Plus وTeam وPro.
وللمرة الأولى، يمكن للمستخدمين المجانيين اختبار OpenAI o3-mini بالنقر فوق “Reason” في Message Composer أو إعادة إنشاء استجابة.
تفوق o3-mini في البرمجة
إليكم الجزء المذهل: متوسط البرمجة لـ o3-mini-high على LiveBench هو 82.74 النماذج الأخرى لا تقترب حتى من هذا: o1 (69.69) claude 3.5 sonnet (67.13)، deepseek-r1 (66.74).
ما يجعل الأمور أفضل هو أنه حتى المستخدمين المجانيين يمكنهم تجربة o3-mini في ChatGPT (من خلال تحديد زر السبب).
يتمتع مستخدمو Plus وTeam بحد أقصى 150 رسالة في اليوم مع o3-mini، بينما يتمتع مستخدمو Pro بإمكانية الوصول غير المحدود إلى o3-mini وo3-mini-high.
بالنسبة للبرمجة، فقد أظهر LiveBech أن o3-mini أفضل من النماذج الأخرى (deepseek-r1، o1، claude-3.5-sonnet، إلخ) حتى في الاستدلال المتوسط، وفي الاستدلال العالي، يوسع o3-mini تقدمه، ويحقق أداءً أقوى بشكل ملحوظ عبر المقاييس الرئيسية.
في Competition Code، يحقق OpenAI o3-mini درجات Elo أعلى تدريجيًا مع زيادة جهد الاستدلال.
الميزات الرئيسية لـ o3-mini
- استدعاء الوظائف، والمخرجات المنظمة، ودعم رسائل المطور
- ثلاثة مستويات استدلال (منخفضة، ومتوسطة، وعالية)
- أوقات استجابة أسرع بنسبة 24% (7.7 ثانية مقابل 10.16 ثانية)
- الوصول الفوري لمستخدمي ChatGPT Plus وTeam وPro
- الوصول المؤسسي بعد أسبوع واحد
- التوفر لأول مرة للمستخدمين المجانيين
- زيادة حد المعدل: 150 رسالة بدلاً من 50 رسالة في اليوم
- أداء يعادل o1 عند مستوى استدلال متوسط
- أخطاء خطيرة أقل بنسبة 39%
- “المحاذاة المتعمدة” لاستجابات أكثر أمانًا
- يتفوق على GPT-4o في اختبارات الأمان وكسر الحماية
قامت شركة OpenAI بتخفيض الأسعار بشكل كبير مقارنة بنماذج الذكاء الاصطناعي الأقوى سابقًا، ما يعني أن النماذج تصبح أقل تكلفة مع مرور الوقت.
أفضل نموذج ذكاء اصطناعي للبرمجة
حقق أداء O3 في الترميز دقة ملحوظة بلغت 71.7% على معايير SuiteBench Verified، والتي تتكون من مهام برمجية في العالم الحقيقي، وهذا أعلى بنسبة 20% من سابقه، مما يدل على تقدم كبير في قدرات النموذج.
بالإضافة إلى ذلك، يتفوق O3 في بيئات الترميز التنافسية، حيث حقق درجة 2727على منصات مثل Codeforces وهذا يمثل قفزة كبيرة عن النماذج السابقة، مما يُظهر براعته ليس فقط في البرمجة ولكن أيضًا في الرياضيات.
الرياضيات هي مجال آخر تتألق فيه O3 فقد سجلت دقة مذهلة بلغت 96.7% في معايير الرياضيات التنافسية، متجاوزة بذلك دقة النماذج السابقة التي بلغت 83.3%.
وعلاوة على ذلك، حققت نتيجة 87.7% في معيار GP QA Diamond الصعب، الذي يختبر النماذج في أسئلة العلوم على مستوى الدكتوراه، وهذا الأداء جدير بالملاحظة بشكل خاص حيث يحصل خبراء الدكتوراه عادةً على حوالي 70% في مجالات تخصصهم.
مقارنة بين o3-mini و DeepSeek R1
وفق الجدول أعلاه يتمتع OpenAI o3-mini بمتوسط عالمي أعلى قليلاً، مما يشير إلى أداء إجمالي أفضل بشكل طفيف عبر مجموعة متنوعة من المهام حيث نقارن بين 73.94 و 71.38.
من جهة أخرى يتفوق OpenAI o3-mini بشكل كبير على DeepSeek deepseek-r1 في مهام التفكير، مما يشير إلى قدرة أقوى على فهم المعلومات وتحليلها واستخلاص النتائج منها، حيث النتائج تشير إلى 89.58 مقابل 83.17.
ويتمتع OpenAI o3-mini بتفوق كبير في مهام البرمجة، مما يشير إلى قدرة متفوقة في فهم مفاهيم البرمجة وحل مشكلات البرمجة، والنتائج هنا تشير إلى 82.74 و 66.74.
في المقابل، يظهر نموذج DeepSeek deepseek-r1 أداءً أفضل في مهام الرياضيات، حيث يظهر مهارات أقوى في التفكير العددي وحل المشكلات، وهنا نقارن بين 65.65 و 79.54 في اختبارات الأداء.
يتمتع OpenAI o3-mini بميزة طفيفة في مهام تحليل البيانات، مما يعكس قدرة أفضل قليلاً على تفسير مجموعات البيانات ومعالجتها: 70.64 في مقابل 69.78.
يتمتع OpenAI o3-mini بمتوسط درجة IF أعلى، مما يشير إلى ذكاء أو أداء عام أكثر فعالية عبر مجموعة واسعة من المهام.
إن النتيجة التي حققها طراز o3-mini البالغة 72.4 تضعه بين أفضل النماذج، مما يدل على أنه فعال للغاية في حل الألغاز المقدمة في هذا المعيار.
وبشكل عام، يتفوق O3-mini من OpenAI على DeepSeek-R1 في معظم الاختبارات، وخاصة في الاستدلال والترميز وأداء المهام العامة، ومع ذلك، لا يزال DeepSeek-R1 يتمتع بميزة في الرياضيات.