Menambahkan cara yang bagus untuk memvisualisasikan tujuan PPO ke buku rlhf. Inti untuk gradien kebijakan adalah L~ R*A (R=rasio kebijakan, A = keuntungan). Buat tindakan yang baik lebih mungkin sampai titik tertentu. Buat tindakan buruk lebih kecil kemungkinannya sampai titik tertentu. Min(...), & tanda adv menentukan garis mana.
9,36K