Se você está lendo o Livro RLHF do @natolambert, o Capítulo 11 (sobre Algoritmos de Gradiente de Política) ficou um pouco mais longo: Contribuí com a derivação completa do objetivo do Gradiente de Política!
11,17K