OpenAI ha raggiunto il RL a episodi molto lunghi con questo modello sperimentale? Screenshot dall'articolo di @natolambert su "Cosa ci aspetta con l'apprendimento per rinforzo". Nathan dice in questo articolo - Dove i metodi attuali generano 10K-100K token per risposta a problemi di matematica o codice durante l'addestramento, il tipo di problemi di cui le persone discutono per applicare il prossimo allenamento RL di nuova generazione sarebbero 1M-100M token per risposta. Questo comporta l'involucro di più chiamate di inferenza, prompt e interazioni con un ambiente all'interno di un episodio contro cui la politica viene aggiornata. Forse questa scoperta è una combinazione di entrambi - RL a episodi molto lunghi e scalare il TTC a 1M-100M token per risposta!
Alexander Wei
Alexander Wei19 lug, 15:50
5/N Oltre al risultato stesso, sono entusiasta del nostro approccio: raggiungiamo questo livello di capacità non attraverso una metodologia ristretta e specifica per compiti, ma aprendo nuove strade nell'apprendimento per rinforzo di uso generale e nella scalabilità del calcolo durante il test.
8,5K