Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI ha raggiunto il RL a episodi molto lunghi con questo modello sperimentale?
Screenshot dall'articolo di @natolambert su "Cosa ci aspetta con l'apprendimento per rinforzo".
Nathan dice in questo articolo - Dove i metodi attuali generano 10K-100K token per risposta a problemi di matematica o codice durante l'addestramento, il tipo di problemi di cui le persone discutono per applicare il prossimo allenamento RL di nuova generazione sarebbero 1M-100M token per risposta. Questo comporta l'involucro di più chiamate di inferenza, prompt e interazioni con un ambiente all'interno di un episodio contro cui la politica viene aggiornata.
Forse questa scoperta è una combinazione di entrambi - RL a episodi molto lunghi e scalare il TTC a 1M-100M token per risposta!


19 lug, 15:50
5/N Oltre al risultato stesso, sono entusiasta del nostro approccio: raggiungiamo questo livello di capacità non attraverso una metodologia ristretta e specifica per compiti, ma aprendo nuove strade nell'apprendimento per rinforzo di uso generale e nella scalabilità del calcolo durante il test.
8,5K
Principali
Ranking
Preferiti