outra fuga de alpha. a mesma técnica que usamos para o KernelBench. é uma abordagem universal na sua forma mais simples. exemplos são tudo o que você precisa: obtenha um bom resultado ou uma única melhoria, adicione ao contexto, obtenha mais bons resultados com o contexto melhorado, adicione esses ao contexto, ad inf...
Tooliense
Tooliense22/07, 11:19
Recentemente, a OpenAI e o Google alcançaram a medalha de ouro do IMO com seus novos modelos experimentais. Mas a nossa equipe alcançou o mesmo nível apenas com o o4-mini-high e nossos sistemas de agentes. E agora estamos tornando isso open source. Especialmente, obtivemos melhorias incríveis com os benchmarks do USAMO. A linha de base era quase 0, mas nosso agente obteve uma média de 90%. Além disso, conseguimos provar teoricamente os recentes artigos do arxiv apenas apresentando a ideia-chave da pesquisa.
não faz sentido treinar modelos pequenos, realmente... é melhor encontrar o programa ideal para alimentar as máquinas maiores. se você quer a melhor distribuição de saída, precisa encontrar a distribuição de entrada ideal, como a prática. você pode chegar lá do nada, desde que tenha uma maneira de classificar suas saídas. a técnica desses caras parece superdimensionada, pode ser muito mais simples.
A primeira geração do KernelBench no o3-mini. Nós apenas chamamos isso de "autoaperfeiçoamento."
Lewis
Lewis30/04/2025
we have an unverified SOTA result on KernelBench with o3-mini and an evolutionary examples tape: 208/250 claimed speedups, including 3 for Level 4 (prev untouched). would be grateful for any help reviewing the optimized KernelBench kernels at . thank you to @anneouyang and Stanford’s @ScalingIntelLab for agreeing to review them.
2,9K