Если вы читаете книгу RLHF от @natolambert, 11 глава (о алгоритмах градиента политики) только что немного увеличилась: Я внес полное доказательство цели градиента политики!
11,16K