Добавление удобного способа визуализации цели PPO в книгу по RLHF. Основное для градиента политики - L~ R*A (R=отношение политики, A = преимущество). Сделать хорошие действия более вероятными до определенной точки. Сделать плохие действия менее вероятными до определенной точки. Мин(...), & знак adv определяют, какая линия.
9,37K