Apakah OpenAI mencapai RL episode yang sangat panjang dengan model eksperimental ini? Tangkapan layar dari artikel @natolambert tentang "Apa yang akan terjadi selanjutnya dengan pembelajaran penguatan". Nathan mengatakan dalam artikel ini - Di mana metode saat ini menghasilkan 10K-100K token per jawaban untuk masalah matematika atau kode selama pelatihan, jenis masalah yang didiskusikan orang untuk menerapkan pelatihan RL generasi berikutnya adalah 1M-100M token per jawaban. Ini melibatkan pembungkusan beberapa panggilan inferensi, perinta, dan interaksi dengan lingkungan dalam satu episode yang diperbarui kebijakan. Mungkin terobosan ini adalah kombinasi dari keduanya - RL episode yang sangat panjang & menskalakan TTC menjadi 1M-100 juta token per jawaban!
Alexander Wei
Alexander Wei19 Jul, 15.50
5/N Selain hasilnya sendiri, saya senang dengan pendekatan kami: Kami mencapai tingkat kemampuan ini bukan melalui metodologi khusus tugas yang sempit, tetapi dengan membuka jalan baru dalam pembelajaran penguatan tujuan umum dan penskalaan komputasi waktu pengujian.
8,5K