Wenn Sie das RLHF-Buch von @natolambert lesen, ist Kapitel 11 (über Policy-Gradient-Algorithmen) gerade ein wenig länger geworden: Ich habe die vollständige Ableitung des Policy-Gradient-Ziels beigetragen!
11,17K