Als je het RLHF Boek van @natolambert leest, is Hoofdstuk 11 (over Beleid Gradient Algoritmen) net iets langer geworden: Ik heb de volledige afleiding van het Beleid Gradient doel bijgedragen!
11,17K