المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
هل حقق OpenAI حلقة طويلة جدا RL مع هذا النموذج التجريبي؟
لقطة شاشة من مقال @natolambert حول "ما الذي يأتي بعد ذلك مع التعلم المعزز".
يقول ناثان في هذه المقالة - حيث تولد الأساليب الحالية 10K-100K رمز لكل إجابة لمشاكل الرياضيات أو التعليمات البرمجية أثناء التدريب ، فإن نوع المشكلات التي يناقش الأشخاص تطبيق تدريب RL من الجيل التالي عليها ستكون 1M-100M من الرموز لكل إجابة. يتضمن ذلك التفاف استدعاءات الاستدلال المتعددة والمطالبات والتفاعلات مع بيئة داخل حلقة واحدة يتم تحديث النهج بشأنها.
ربما يكون هذا الاختراق مزيجا من كليهما - RL طويل جدا وتوسيع نطاق TTC إلى 1M-100M رمز لكل إجابة!


19 يوليو، 15:50
5 / N إلى جانب النتيجة نفسها ، أنا متحمس لنهجنا: نصل إلى مستوى القدرة هذا ليس من خلال منهجية ضيقة خاصة بالمهمة ، ولكن من خلال فتح آفاق جديدة في التعلم المعزز للأغراض العامة وتوسيع نطاق الحوسبة في وقت الاختبار.
8.87K
الأفضل
المُتصدِّرة
التطبيقات المفضلة