Si estás leyendo el libro de RLHF de @natolambert, el Capítulo 11 (sobre Algoritmos de Gradiente de Políticas) se ha vuelto un poco más largo: ¡Contribuí con la derivación completa del objetivo del Gradiente de Políticas!
11.17K