يعد نموذج الذكاء الإصطناعي OpenAI o1 أحدث ما تعمل عليه OpenAI وقد أعلن عنه في سبتمبر 2024، وهو نتيجة جهود مستمرة لتطوير الآلة الذكية.
ويحتوي النموذج الجديد على بعض الميزات الجديدة المثيرة التي تميزه عن النماذج السابقة مثل GPT-4o وGPT-4 وحتى نماذج مثل Claude وGemini وLLaMA.
لذا، دعنا نوضح ما يفعله o1 بشكل مختلف، وكيف يعمل، وما الذي يجعله قويًا وبطيئًا بعض الشيء.
ميزة التفكير قبل الإستجابة
نموذج o1 من OpenAI هو أحدث إصدار يركز على التفكير المتقدم ومعالجة سلسلة الأفكار، على عكس النماذج السابقة مثل GPT-4o أو GPT-4، تم تصميم o1 خصيصًا “للتفكير” قبل الاستجابة، مما يعني أنه لا ينشئ نصًا فحسب، بل يمر بخطوات متعددة من التفكير لحل المشكلات المعقدة قبل الاستجابة.
هذا النهج يجعله أفضل في المهام التي تتطلب تفكيرًا مفصلاً، مثل حل المشكلات الرياضية أو تحديات البرمجة، إنه يشبهنا تمامًا، حيث نفكر قبل أن نتحدث.
لسوء الحظ، كما هو الحال مع بعضنا، فإن عملية التفكير قبل الإجابة تجعل o1 أبطأ بكثير من النماذج السابقة، في بعض الأحيان حتى لا يتسبب في أي استجابات.
عندما تطرح سؤالاً، يستغرق الأمر وقتًا أطول لأنه ينفق المزيد من الوقت على الاستدلال، في الأساس، يستغرق وقتًا للتفكير وتحسين استجابته.
تمامًا كما نطلب “التفكير في الأمر خطوة بخطوة” باستخدام سلسلة الأفكار، لكنه يفعل ذلك في كل مرة بسبب الطريقة التي درّبوا بها النموذج بشكل أكبر باستخدام التعلم التعزيزي لإجباره على التفكير خطوة بخطوة في كل مرة والتفكير مرة أخرى قبل الإجابة.
لسوء الحظ، لا توجد تفاصيل حول مجموعة البيانات المستخدمة لذلك بخلاف أنها “في عملية تدريب عالية الكفاءة في استخدام البيانات”.
وبينما تبدو النتائج مبهرة، سيتعين علينا الانتظار لمعرفة ما إذا كان الناس يحبون حقيقة أن الأمر يستغرق وقتًا أطول للحصول على نتائج جيدة، ومع ذلك، هناك بعض الأشياء المثيرة للاهتمام للغاية التي يجب ذكرها.
الاختلافات الرئيسية بين o1 وGPT-4o
أولاً، ما يميز o1 حقًا عن النماذج مثل GPT-4o هو قدراته المنطقية المضمنة، في الاختبار، تفوق o1 على GPT-4o في المهام التي تعتمد على المنطق مثل البرمجة وحل المشكلات والمعايير الأكاديمية.
إحدى السمات البارزة لـ o1 هي قدرته على ربط الأفكار معًا، مما يعني أنه مجهز بشكل أفضل لمعالجة المشكلات متعددة الخطوات حيث قد تكون النماذج السابقة قد واجهت صعوبة في ذلك.
على سبيل المثال، في مهام مثل مسابقات الرياضيات وتحديات البرمجة، كان o1 قادرًا على حل مشكلات أكثر تعقيدًا بشكل ملحوظ.
في المتوسط، سجل o1 درجات أعلى بكثير في معايير مثل AIME (امتحان الرياضيات الأمريكي)، حيث حل 74٪ من المشكلات، مقارنة بـ 9٪ لـ GPT-4o.
كما أنه يقوم بعمل رائع في التعامل مع المهام متعددة اللغات، في الواقع، في الاختبارات التي تتضمن لغات مثل اليوروبا والسواحيلية، والتي تعد صعبة بشكل ملحوظ بالنسبة للنماذج السابقة، تمكن o1 من التفوق على GPT-4o في جميع المجالات.
الموازنة بين وقت الاستدلال والأداء
هنا تتحول نقاط قوة o1 إلى نقاط ضعف محتملة. ففي حين أن النموذج أفضل كثيرًا في الاستدلال، فإن ذلك يأتي على حساب وقت الاستدلال وعدد الرموز.
وتعني عملية الاستدلال المتسلسلة أن o1 أبطأ من GPT-4o لأنه يقضي وقتًا أطول في التفكير في المشكلات أثناء الاستدلال، لذا عندما يتحدث معك، بدلاً من التركيز على استخدام الحوسبة العالية بشكل صارم لتدريب النموذج.
ومن الرائع أن نرى استكشاف طريق آخر هنا، مما يحسن النتائج كثيرًا، وهو الآن قابل للتطبيق بفضل مكاسب الكفاءة في توليد الرموز من النماذج الحديثة التي تعمل باستمرار على تقليل أسعار التوليد وزمن الوصول، ومع ذلك، فإنه يزيد من كليهما بشكل كبير.
يُلاحظ هذا الاختلاف في زمن الوصول بشكل خاص في المهام التي من المتوقع أن يتعامل فيها النموذج مع التفكير المعقد متعدد الخطوات.
لذا، إذا كنت تستخدم o1 للمهام السريعة والمباشرة، فقد تشعر أنه بطيء بعض الشيء مقارنة بنماذج مثل GPT-4o-mini أو Claude إنه في الأساس المقايضة بين السرعة وعمق الفهم.
تقليل الهلوسة في الذكاء الإصطناعي
من المجالات الأخرى التي يتألق فيها o1 هو تقليل الهلوسة تلك اللحظات التي يخترع فيها النموذج أشياء أثناء الاختبار، هلوسة o1 أقل بكثير من GPT-4o، وخاصة في المهام حيث تكون الدقة في الحقائق بالغة الأهمية.
على سبيل المثال، في اختبار SimpleQA، كان معدل الهلوسة 0.44 في o1 فقط، مقارنة بمعدل GPT-4o البالغ 0.61 وهذا يجعل o1 أكثر موثوقية للمهام حيث يكون الحصول على الحقائق بشكل صحيح أمرًا ضروريًا.
التأمل الذاتي و”مشكلة الفراولة”
ربما سمعت أشخاصًا يشيرون إلى شيء يسمى “نموذج الفراولة”، وهو في الواقع اسم رمزي لـ o1 في بعض الدوائر.
والسبب وراء تسميته “الفراولة” هو مزحة داخلية إلى حد ما بسبب عدد “R” في كلمة “فراولة”، والتي ترتبط نوعًا ما بفكرة التفكير المعقد.
تمامًا كما يصعب حساب عدد “R” في “فراولة” لنموذج ما، فمن الصعب الحصول على خطوات التفكير الصحيحة في كل مرة، لكن o1 يجعل هذه العملية أكثر كفاءة.
إن التحسين الرئيسي الآخر في o1 هو كيفية تعامله مع العدالة والتحيز، في تقييمات العدالة مثل اختبار BBQ، كان o1 أفضل بكثير في تجنب الاستجابات النمطية مقارنةً بـ GPT-4o.
ومع ذلك فهو ليس مثاليًا فعند مواجهة أسئلة غامضة، يكافح o1 أحيانًا، وخاصةً عندما تكون الإجابة الصحيحة “غير معروف”، ولكن بشكل عام، فهو أكثر توافقًا مع القيم الإنسانية، وخاصةً عند مقارنته بـ GPT-4o.
لذا فإن نموذج Strawberry الجديد من OpenAI، أو نموذج o1، ليس قفزة كبيرة إلى الأمام، إنه في الأساس مجرد نموذج أفضل ينفذ سلسلة الأفكار التي يستخدمها معظمنا بالفعل، وقد تم ذلك من قبل.
المشكلة هي أنه استغرق وقتًا أطول لتوليده وتكلفته أعلى من خلال استخدام الرموز الأعلى، لذلك توقف الناس عن القيام بذلك.
يبدو أن OpenAI قررت خلاف ذلك وذهبت إلى هذا الأمر بالكامل، في الواقع، إنه أبطأ من النماذج مثل GPT-4o لأنه يستغرق وقتًا للتفكير في المشكلات، ولكن إذا كنت بحاجة إلى نموذج يتفوق في حل المهام المعقدة، فإن o1 هو خيارك المفضل.
إذا كنت تعمل على مشكلات معقدة أو تحتاج إلى نموذج موثوق به عبر لغات مختلفة، فإن o1 يستحق بالتأكيد وقت الانتظار الإضافي، ولكن إذا كانت السرعة هي أولويتك، فقد يظل GPT-4o-mini هو الخيار الأفضل.
إقرأ أيضا:
الروبوت هو المربي الناجح في تربية الأطفال
أسئلة وأجوبة حول محرك بحث الذكاء الإصطناعي SearchGPT
مميزات وإمكانيات Llama من فيسبوك ومقارنة مع GPT-4o
كيف تواجه آبل استراتيجية مايكروسوفت في الذكاء الإصطناعي؟
كل شيء عن نموذج Claude 3.5 Sonnet الأفضل من GPT-4o
مقارنة الذكاء الإصطناعي بين Galaxy AI و Apple Intelligence
لماذا تتسابق شركات الذكاء الإصطناعي مثل جوجل نحو ريديت؟