Lägger till ett trevligt sätt att visualisera PPO-målet i rlhf-boken. Kärnan för policygradient är L~ R*A (R=policyförhållande, A = fördel). Gör bra handlingar mer sannolika upp till en viss punkt. Gör dåliga handlingar mindre sannolika upp till en viss punkt. Min(...), & tecknet för adv avgör vilken linje.
9,42K