为rlhf书籍添加一种可视化PPO目标的好方法。策略梯度的核心是L~ R*A(R=策略比率,A=优势)。 在一定程度上使好的动作更可能。 在一定程度上使坏的动作更不可能。 adv的min(...)和&符号决定了哪一条线。
9.35K