Додано гарний спосіб візуалізації мети РРО до книги rlhf. Ядром для градієнта політики є L~ R*A (R=коефіцієнт політики, A = перевага). Робіть хороші дії більш вірогідними до певного моменту. Робіть погані вчинки менш ймовірними до певного моменту. Знак min(...), & adv визначає, яку лінію.
9,36K