Adicionando uma boa maneira de visualizar o objetivo PPO ao livro rlhf. O núcleo para o gradiente de política é L ~ R * A (R = proporção de política, A = vantagem). Torne as boas ações mais prováveis até certo ponto. Torne as más ações menos prováveis até certo ponto. O sinal min(...), & de adv determina qual linha.
9,3K