Adicionar uma maneira agradável de visualizar o objetivo PPO ao livro rlhf. O núcleo para o policy-gradient é L~ R*A (R=razão de política, A = vantagem). Tornar boas ações mais prováveis até um certo ponto. Tornar más ações menos prováveis até um certo ponto. O min(...), & sinal de adv determinam qual linha.
9,37K