DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

A OpenAI alcançou RL de episódios muito longos com este modelo experimental? Captura de tela do artigo de @natolambert sobre "O que vem a seguir com o aprendizado por reforço". Nathan diz neste artigo - Onde os métodos atuais estão gerando 10K-100K tokens por resposta para problemas de matemática ou código durante o treinamento, o tipo de problema que as pessoas discutem aplicando o treinamento RL da próxima geração seria de 1M-100M tokens por resposta. Isso envolve o encapsulamento de várias chamadas de inferência, prompts e interações com um ambiente em um episódio em relação ao qual a política é atualizada. Talvez este avanço seja uma combinação de ambos - RL de episódios muito longos e escalando TTC para 1M-100M tokens por resposta!

9,01K

Melhores

Classificação

Favoritos

Em alta on-chain

Em alta no X

Principais fundos da atualidade

Mais notável