Se stai leggendo il libro RLHF di @natolambert, il Capitolo 11 (sugli Algoritmi di Policy Gradient) è appena diventato un po' più lungo: Ho contribuito con la derivazione completa dell'obiettivo di Policy Gradient!
11,16K