هل حقق OpenAI حلقة طويلة جدا RL مع هذا النموذج التجريبي؟ لقطة شاشة من مقال @natolambert حول "ما الذي يأتي بعد ذلك مع التعلم المعزز". يقول ناثان في هذه المقالة - حيث تولد الأساليب الحالية 10K-100K رمز لكل إجابة لمشاكل الرياضيات أو التعليمات البرمجية أثناء التدريب ، فإن نوع المشكلات التي يناقش الأشخاص تطبيق تدريب RL من الجيل التالي عليها ستكون 1M-100M من الرموز لكل إجابة. يتضمن ذلك التفاف استدعاءات الاستدلال المتعددة والمطالبات والتفاعلات مع بيئة داخل حلقة واحدة يتم تحديث النهج بشأنها. ربما يكون هذا الاختراق مزيجا من كليهما - RL طويل جدا وتوسيع نطاق TTC إلى 1M-100M رمز لكل إجابة!
Alexander Wei
Alexander Wei‏19 يوليو، 15:50
5 / N إلى جانب النتيجة نفسها ، أنا متحمس لنهجنا: نصل إلى مستوى القدرة هذا ليس من خلال منهجية ضيقة خاصة بالمهمة ، ولكن من خلال فتح آفاق جديدة في التعلم المعزز للأغراض العامة وتوسيع نطاق الحوسبة في وقت الاختبار.
‏‎8.87‏K