AutoML GRPO mengkomodifikasi pelatihan RL hipster menjadi panggilan fungsi
Wandering Weights
Wandering Weights23 Jul, 16.02
Karena pencarian baru bulan depan, jadi saya mundur selangkah untuk melihat apa yang sebenarnya telah kami kirimkan sejak yang terakhir. Seberapa cepat hal-hal bergerak saat kepala Anda menunduk: * DPO ditambahkan * GRPO ditambahkan * Alur pelatihan Instruksi asli diuji terhadap Meta * 100-an eksperimen + kertas yang membuktikan @gradients_ai mengungguli pesaing Kemudian yang besar: 5.0 → pivot penuh ke subnet open source yang berfokus pada perusahaan Semua terjadi dalam tiga bulan terakhir. Benarkah? 🤯
3,01K