Jika Anda membaca Buku RLHF dari @natolambert, Bab 11 (tentang Algoritma Gradien Kebijakan) menjadi sedikit lebih panjang: Saya menyumbangkan derivasi lengkap dari tujuan Policy Gradient!
11,17K