DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

OpenAI ha raggiunto il RL a episodi molto lunghi con questo modello sperimentale? Screenshot dall'articolo di @natolambert su "Cosa ci aspetta con l'apprendimento per rinforzo". Nathan dice in questo articolo - Dove i metodi attuali generano 10K-100K token per risposta a problemi di matematica o codice durante l'addestramento, il tipo di problemi di cui le persone discutono per applicare il prossimo allenamento RL di nuova generazione sarebbero 1M-100M token per risposta. Questo comporta l'involucro di più chiamate di inferenza, prompt e interazioni con un ambiente all'interno di un episodio contro cui la politica viene aggiornata. Forse questa scoperta è una combinazione di entrambi - RL a episodi molto lunghi e scalare il TTC a 1M-100M token per risposta!

8,5K

Principali

Ranking

Preferiti

On-chain di tendenza

Di tendenza su X

Principali fondi recenti

Più popolari