Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A obținut OpenAI RL de episoade foarte lungi cu acest model experimental?
Captură de ecran din articolul lui @natolambert despre "Ce urmează cu învățarea prin întărire".
Nathan spune în acest articol - În timp ce metodele actuale generează 10K-100K jetoane pe răspuns pentru probleme de matematică sau cod în timpul antrenamentului, genul de probleme pe care oamenii le discută aplicând antrenamentul RL de generație următoare ar fi 1M-100M jetoane pe răspuns. Aceasta implică împachetarea mai multor apeluri de inferență, solicitări și interacțiuni cu un mediu într-un episod în funcție de care politica este actualizată.
Poate că această descoperire este o combinație a ambelor - RL cu episoade foarte lungi și scalarea TTC la 1M-100M de jetoane pe răspuns!


19 iul., 15:50
5/N Pe lângă rezultatul în sine, sunt încântat de abordarea noastră: atingem acest nivel de capacitate nu printr-o metodologie îngustă, specifică sarcinii, ci prin deschiderea de noi drumuri în învățarea prin întărire de uz general și scalarea calculului în timpul testelor.
9,13K
Limită superioară
Clasament
Favorite