Agregar una buena manera de visualizar el objetivo PPO al libro rlhf. El núcleo para el gradiente de políticas es L ~ R * A (R = relación de políticas, A = ventaja). Haga que las buenas acciones sean más probables hasta cierto punto. Haga que las malas acciones sean menos probables hasta cierto punto. El min(...), y el signo de adv determinan qué línea.
9.36K