DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Apakah OpenAI mencapai RL episode yang sangat panjang dengan model eksperimental ini? Tangkapan layar dari artikel @natolambert tentang "Apa yang akan terjadi selanjutnya dengan pembelajaran penguatan". Nathan mengatakan dalam artikel ini - Di mana metode saat ini menghasilkan 10K-100K token per jawaban untuk masalah matematika atau kode selama pelatihan, jenis masalah yang didiskusikan orang untuk menerapkan pelatihan RL generasi berikutnya adalah 1M-100M token per jawaban. Ini melibatkan pembungkusan beberapa panggilan inferensi, perinta, dan interaksi dengan lingkungan dalam satu episode yang diperbarui kebijakan. Mungkin terobosan ini adalah kombinasi dari keduanya - RL episode yang sangat panjang & menskalakan TTC menjadi 1M-100 juta token per jawaban!

8,5K

Teratas

Peringkat

Favorit

Trending onchain

Trending di X

Pendanaan teratas terbaru

Paling terkenal