A OpenAI alcançou RL de episódios muito longos com este modelo experimental? Captura de tela do artigo de @natolambert sobre "O que vem a seguir com o aprendizado por reforço". Nathan diz neste artigo - Onde os métodos atuais estão gerando 10K-100K tokens por resposta para problemas de matemática ou código durante o treinamento, o tipo de problema que as pessoas discutem aplicando o treinamento RL da próxima geração seria de 1M-100M tokens por resposta. Isso envolve o encapsulamento de várias chamadas de inferência, prompts e interações com um ambiente em um episódio em relação ao qual a política é atualizada. Talvez este avanço seja uma combinação de ambos - RL de episódios muito longos e escalando TTC para 1M-100M tokens por resposta!
Alexander Wei
Alexander Wei19 de jul., 15:50
5/N Além do resultado em si, estou animado com nossa abordagem: alcançamos esse nível de capacidade não por meio de uma metodologia estreita e específica da tarefa, mas abrindo novos caminhos no aprendizado por reforço de uso geral e no dimensionamento de computação em tempo de teste.
9,01K