Si vous lisez le livre RLHF de @natolambert, le chapitre 11 (sur les algorithmes de gradient de politique) vient de s'allonger un peu : J'ai contribué à la dérivation complète de l'objectif de gradient de politique !
11,16K