Якщо ви читаєте Книгу RLHF з @natolambert року, то розділ 11 (про алгоритми градієнта політик) став трохи довшим: Я вніс свій вклад у повне виведення мети «Градієнт політики»!
11,17K