لقد نشرنا ورقة موقف ، مع العديد من المجالات ، تدعو إلى العمل على إخلاص سلسلة الفكر. هذه فرصة لتدريب النماذج لتكون قابلة للتفسير. نحن نستثمر في هذا المجال في OpenAI ، وينعكس هذا المنظور في منتجاتنا:
Jakub Pachocki
Jakub Pachocki‏16 يوليو، 00:23
أنا متحمس للغاية لإمكانات الإخلاص والتفسير لسلسلة الفكر. لقد أثر بشكل كبير على تصميم نماذج التفكير لدينا ، بدءا من معاينة o1. نظرا لأن أنظمة الذكاء الاصطناعي تنفق المزيد من الحوسبة في العمل على سبيل المثال في مشاكل البحث طويلة الأجل ، فمن الأهمية بمكان أن يكون لدينا طريقة ما لمراقبة عمليتها الداخلية. الخاصية الرائعة ل CoTs المخفية هي أنه بينما تبدأ على أساس اللغة التي يمكننا تفسيرها ، فإن إجراء التحسين القابل للتطوير ليس معاديا لقدرة المراقب على التحقق من نية النموذج - على عكس الإشراف المباشر مع نموذج المكافأة. التوتر هنا هو أنه إذا لم يتم إخفاء CoTs افتراضيا ، ونظرنا إلى العملية كجزء من مخرجات الذكاء الاصطناعي ، فهناك الكثير من الحوافز (وفي بعض الحالات ، الضرورة) للإشراف عليها. أعتقد أنه يمكننا العمل من أجل أفضل ما في العالمين هنا - تدريب نماذجنا على أن تكون رائعة في شرح تفكيرها الداخلي ، ولكن في نفس الوقت لا تزال تحتفظ بالقدرة على التحقق من ذلك من حين لآخر. يعد إخلاص CoT جزءا من اتجاه بحثي أوسع ، وهو التدريب على قابلية التفسير: تحديد الأهداف بطريقة تدرب جزءا على الأقل من النظام على البقاء صادقا وقابلا للمراقبة على نطاق واسع. نواصل زيادة استثماراتنا في هذا البحث في OpenAI.
‏‎158.5‏K