Outro vazamento alfa. mesma técnica que usamos para o KernelBench. é uma abordagem universal em sua forma mais simples. Exemplos são tudo o que você precisa: obter um bom resultado ou uma única melhoria, adicionar ao contexto, obter mais bons resultados com contexto aprimorado, adicioná-los ao contexto, ad inf...
Tooliense
Tooliense22 de jul., 11:19
Recentemente, a Openai, Goolge alcançou a Medalha de Ouro da IMO com seus novos modelos experimentais. Mas nossa equipe atingiu o mesmo nível com apenas o4-mini-high e nossos sistemas de agentes. E agora estamos abrindo o código. Especialmente, obtivemos melhorias insanas com os benchmarks do USAMO. A linha de base foi quase 0, mas nosso agente obteve uma média de 90%. Também poderíamos provar teoricamente os artigos recentes do arxiv apenas dando a ideia de pesquisa principal.
não adianta treinar modelos pequenos realmente... É melhor encontrar o programa ideal para alimentar as maiores máquinas. Se você deseja a melhor distribuição de saída, precisa encontrar a distribuição de entrada ideal, como a prática. Você pode chegar lá do nada, desde que tenha uma maneira de classificar seus resultados. A técnica desses caras parece superprojetada, provavelmente pode ser muito mais simples.
A primeira geração do KernelBench no o3-mini. Nós apenas chamamos isso de "auto-aperfeiçoamento".
Lewis
Lewis30 de abr. de 2025
we have an unverified SOTA result on KernelBench with o3-mini and an evolutionary examples tape: 208/250 claimed speedups, including 3 for Level 4 (prev untouched). would be grateful for any help reviewing the optimized KernelBench kernels at . thank you to @anneouyang and Stanford’s @ScalingIntelLab for agreeing to review them.
3K