@natolambert 年の RLHF Book を読んでいる場合は、第 11 章 (Policy Gradient Algorithms) が少し長くなってしまいました。 私はPolicy Gradientの目的の完全な導出に貢献しました!
11.16K