Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apakah OpenAI mencapai RL episode yang sangat panjang dengan model eksperimental ini?
Tangkapan layar dari artikel @natolambert tentang "Apa yang akan terjadi selanjutnya dengan pembelajaran penguatan".
Nathan mengatakan dalam artikel ini - Di mana metode saat ini menghasilkan 10K-100K token per jawaban untuk masalah matematika atau kode selama pelatihan, jenis masalah yang didiskusikan orang untuk menerapkan pelatihan RL generasi berikutnya adalah 1M-100M token per jawaban. Ini melibatkan pembungkusan beberapa panggilan inferensi, perinta, dan interaksi dengan lingkungan dalam satu episode yang diperbarui kebijakan.
Mungkin terobosan ini adalah kombinasi dari keduanya - RL episode yang sangat panjang & menskalakan TTC menjadi 1M-100 juta token per jawaban!


19 Jul, 15.50
5/N Selain hasilnya sendiri, saya senang dengan pendekatan kami: Kami mencapai tingkat kemampuan ini bukan melalui metodologi khusus tugas yang sempit, tetapi dengan membuka jalan baru dalam pembelajaran penguatan tujuan umum dan penskalaan komputasi waktu pengujian.
8,5K
Teratas
Peringkat
Favorit