Añadiendo una forma agradable de visualizar el objetivo PPO al libro de rlhf. El núcleo para el policy-gradient es L~ R*A (R=ratio de política, A = ventaja). Haz que las buenas acciones sean más probables hasta cierto punto. Haz que las malas acciones sean menos probables hasta cierto punto. El min(...), y el signo & de adv determinan qué línea.
9,37K