A obținut OpenAI RL de episoade foarte lungi cu acest model experimental? Captură de ecran din articolul lui @natolambert despre "Ce urmează cu învățarea prin întărire". Nathan spune în acest articol - În timp ce metodele actuale generează 10K-100K jetoane pe răspuns pentru probleme de matematică sau cod în timpul antrenamentului, genul de probleme pe care oamenii le discută aplicând antrenamentul RL de generație următoare ar fi 1M-100M jetoane pe răspuns. Aceasta implică împachetarea mai multor apeluri de inferență, solicitări și interacțiuni cu un mediu într-un episod în funcție de care politica este actualizată. Poate că această descoperire este o combinație a ambelor - RL cu episoade foarte lungi și scalarea TTC la 1M-100M de jetoane pe răspuns!
Alexander Wei
Alexander Wei19 iul., 15:50
5/N Pe lângă rezultatul în sine, sunt încântat de abordarea noastră: atingem acest nivel de capacitate nu printr-o metodologie îngustă, specifică sarcinii, ci prin deschiderea de noi drumuri în învățarea prin întărire de uz general și scalarea calculului în timpul testelor.
9,13K