Se você está lendo o Livro RLHF da @natolambert, o Capítulo 11 (sobre Algoritmos de Gradiente de Política) ficou um pouco mais longo: Eu contribuí com a derivação completa do objetivo Policy Gradient!
11,18K