A OpenAI alcançou RL de episódios muito longos com este modelo experimental? Captura de tela do artigo de @natolambert sobre "O que vem a seguir com o aprendizado por reforço". Nathan diz neste artigo - Onde os métodos atuais estão gerando de 10K a 100K tokens por resposta para problemas de matemática ou código durante o treinamento, o tipo de problemas que as pessoas discutem aplicar ao treinamento de RL de próxima geração seriam de 1M a 100M tokens por resposta. Isso envolve envolver múltiplas chamadas de inferência, prompts e interações com um ambiente dentro de um episódio contra o qual a política é atualizada. Talvez essa descoberta seja uma combinação de ambos - RL de episódios muito longos e escalonamento de TTC para 1M-100M tokens por resposta!
Alexander Wei
Alexander Wei19/07, 15:50
5/N Além do resultado em si, estou entusiasmado com a nossa abordagem: alcançamos este nível de capacidade não através de uma metodologia estreita e específica para tarefas, mas rompendo novas fronteiras em aprendizado por reforço de propósito geral e escalonamento de computação em tempo de teste.
8,88K