Om du läser RLHF-boken från @natolambert har kapitel 11 (om Policy Gradient Algorithms) precis blivit lite längre: Jag bidrog med den fullständiga härledningen av målet Policy Gradient!
11,18K