Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A OpenAI alcançou RL de episódios muito longos com este modelo experimental?
Captura de tela do artigo de @natolambert sobre "O que vem a seguir com o aprendizado por reforço".
Nathan diz neste artigo - Onde os métodos atuais estão gerando 10K-100K tokens por resposta para problemas de matemática ou código durante o treinamento, o tipo de problema que as pessoas discutem aplicando o treinamento RL da próxima geração seria de 1M-100M tokens por resposta. Isso envolve o encapsulamento de várias chamadas de inferência, prompts e interações com um ambiente em um episódio em relação ao qual a política é atualizada.
Talvez este avanço seja uma combinação de ambos - RL de episódios muito longos e escalando TTC para 1M-100M tokens por resposta!


19 de jul., 15:50
5/N Além do resultado em si, estou animado com nossa abordagem: alcançamos esse nível de capacidade não por meio de uma metodologia estreita e específica da tarefa, mas abrindo novos caminhos no aprendizado por reforço de uso geral e no dimensionamento de computação em tempo de teste.
9,01K
Melhores
Classificação
Favoritos