Entusiasmado por compartilhar nosso novo trabalho: “Modelos de Linguagem Melhoram Quando os Dados de Pré-treinamento Correspondem às Tarefas Alvo” Sim, parece óbvio (e é!), mas tipicamente isso acontece apenas de forma implícita e indireta: selecionar dados intuitivamente → benchmark → refinar → repetir. Nos perguntamos: o que acontece se combinarmos explicitamente os dados de pré-treinamento com os benchmarks? O resultado é uma abordagem extremamente simples que gera multiplicadores de computação de 2x+ em relação a fortes linhas de base e nos dá uma maneira fundamentada de estudar como as escolhas de benchmark moldam (e restringem!) as capacidades do modelo. Bônus: leis de escalonamento extensivas a partir do treinamento de mais de 500 modelos que revelam como a seleção de dados ótima evolui à medida que os modelos escalam. 🧵 (1/14)
52K