PPOの目的を視覚化する優れた方法をrlhfブックに追加します。政策勾配のコアは、L~R*A(R=政策比率、A=アドバンテージ)です。 ある程度までは良い行動の可能性を高めます。 悪い行動をある程度まで行いにくいようにする。 adv の min(...)、および符号は、どの行を決定します。
9.36K