DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

A obținut OpenAI RL de episoade foarte lungi cu acest model experimental? Captură de ecran din articolul lui @natolambert despre "Ce urmează cu învățarea prin întărire". Nathan spune în acest articol - În timp ce metodele actuale generează 10K-100K jetoane pe răspuns pentru probleme de matematică sau cod în timpul antrenamentului, genul de probleme pe care oamenii le discută aplicând antrenamentul RL de generație următoare ar fi 1M-100M jetoane pe răspuns. Aceasta implică împachetarea mai multor apeluri de inferență, solicitări și interacțiuni cu un mediu într-un episod în funcție de care politica este actualizată. Poate că această descoperire este o combinație a ambelor - RL cu episoade foarte lungi și scalarea TTC la 1M-100M de jetoane pe răspuns!

9,13K

Limită superioară

Clasament

Favorite

La modă pe lanț

La modă pe X

Principalele finanțări recente

Cele mai importante