DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Lägger till ett trevligt sätt att visualisera PPO-målet i rlhf-boken. Kärnan för policygradient är L~ R*A (R=policyförhållande, A = fördel). Gör bra handlingar mer sannolika upp till en viss punkt. Gör dåliga handlingar mindre sannolika upp till en viss punkt. Min(...), & tecknet för adv avgör vilken linje.

9,42K

Topp

Rankning

Favoriter

Trendande på kedjan

Trendande på X

Senaste toppfinansieringarna

Mest anmärkningsvärda