Si estás leyendo el libro RLHF de @natolambert, ¡el Capítulo 11 (sobre Algoritmos de Gradiente de Política) se ha vuelto un poco más largo! ¡Contribuí con la derivación completa del objetivo de Gradiente de Política!
11,17K