Eine schöne Möglichkeit hinzuzufügen, um das PPO-Ziel im rlhf-Buch zu visualisieren. Der Kern für den Policy-Gradient ist L~ R*A (R=Policy-Verhältnis, A=Advantage). Gute Aktionen bis zu einem gewissen Punkt wahrscheinlicher machen. Schlechte Aktionen bis zu einem gewissen Punkt weniger wahrscheinlich machen. Das min(...), & Zeichen von adv bestimmen, welche Linie.
9,36K