pembicaraan lengkap saya dari pameran dunia AIE sekarang keluar :)
AI Engineer
AI Engineer8 Jul, 01.34
🆕 Pelatihan Penalaran Agen Fitur hari ini adalah kembalinya @willccbb yang penuh kemenangan ke trek AIE stage RL - sekarang sebagai bagian dari @PrimeIntellect! Banyak pembuat agen pada dasarnya melakukan "RL dengan tangan". Dia secara ringkas menjelaskan algoritma RL saat ini dalam satu slide (!) tetapi kemudian berpendapat bahwa RL - terutama untuk model terbuka - terjebak di tanah Q&A matematika dan kode kepanasan baru adalah RL agen multi-putaran, dan perpustakaan verifikator baru adalah toolkit utama untuk membangun agen dan mengubahnya menjadi loop RL. Lebih banyak orang harus mengeksplorasi membangun model agen yang lebih baik dan Will + PI memungkinkannya untuk semua orang!
feedsImage
14,73K