Dacă citiți cartea RLHF din @natolambert, capitolul 11 (despre algoritmii de gradient de politică) tocmai a devenit puțin mai lung: Am contribuit la derivarea completă a obiectivului Gradient de politici!
11,18K