أنا متحمس للغاية لإمكانات الإخلاص والتفسير لسلسلة الفكر. لقد أثر بشكل كبير على تصميم نماذج التفكير لدينا ، بدءا من معاينة o1. نظرا لأن أنظمة الذكاء الاصطناعي تنفق المزيد من الحوسبة في العمل على سبيل المثال في مشاكل البحث طويلة الأجل ، فمن الأهمية بمكان أن يكون لدينا طريقة ما لمراقبة عمليتها الداخلية. الخاصية الرائعة ل CoTs المخفية هي أنه بينما تبدأ على أساس اللغة التي يمكننا تفسيرها ، فإن إجراء التحسين القابل للتطوير ليس معاديا لقدرة المراقب على التحقق من نية النموذج - على عكس الإشراف المباشر مع نموذج المكافأة. التوتر هنا هو أنه إذا لم يتم إخفاء CoTs افتراضيا ، ونظرنا إلى العملية كجزء من مخرجات الذكاء الاصطناعي ، فهناك الكثير من الحوافز (وفي بعض الحالات ، الضرورة) للإشراف عليها. أعتقد أنه يمكننا العمل من أجل أفضل ما في العالمين هنا - تدريب نماذجنا على أن تكون رائعة في شرح تفكيرها الداخلي ، ولكن في نفس الوقت لا تزال تحتفظ بالقدرة على التحقق من ذلك من حين لآخر. يعد إخلاص CoT جزءا من اتجاه بحثي أوسع ، وهو التدريب على قابلية التفسير: تحديد الأهداف بطريقة تدرب جزءا على الأقل من النظام على البقاء صادقا وقابلا للمراقبة على نطاق واسع. نواصل زيادة استثماراتنا في هذا البحث في OpenAI.
Bowen Baker
Bowen Baker‏16 يوليو، 00:09
تفكر نماذج التفكير الحديثة بلغة إنجليزية بسيطة. يمكن أن تكون مراقبة أفكارهم أداة قوية ولكنها هشة للإشراف على أنظمة الذكاء الاصطناعي المستقبلية. أعتقد أنا والباحثون في العديد من المنظمات أنه يجب علينا العمل على تقييم والحفاظ على وحتى تحسين قابلية مراقبة CoT.
‏‎264.14‏K