Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Outro vazamento alfa. mesma técnica que usamos para o KernelBench. é uma abordagem universal em sua forma mais simples.
Exemplos são tudo o que você precisa: obter um bom resultado ou uma única melhoria, adicionar ao contexto, obter mais bons resultados com contexto aprimorado, adicioná-los ao contexto, ad inf...


22 de jul., 11:19
Recentemente, a Openai, Goolge alcançou a Medalha de Ouro da IMO com seus novos modelos experimentais.
Mas nossa equipe atingiu o mesmo nível com apenas o4-mini-high e nossos sistemas de agentes. E agora estamos abrindo o código.
Especialmente, obtivemos melhorias insanas com os benchmarks do USAMO. A linha de base foi quase 0, mas nosso agente obteve uma média de 90%.
Também poderíamos provar teoricamente os artigos recentes do arxiv apenas dando a ideia de pesquisa principal.

não adianta treinar modelos pequenos realmente... É melhor encontrar o programa ideal para alimentar as maiores máquinas.
Se você deseja a melhor distribuição de saída, precisa encontrar a distribuição de entrada ideal, como a prática.
Você pode chegar lá do nada, desde que tenha uma maneira de classificar seus resultados.
A técnica desses caras parece superprojetada, provavelmente pode ser muito mais simples.
A primeira geração do KernelBench no o3-mini. Nós apenas chamamos isso de "auto-aperfeiçoamento".


30 de abr. de 2025
we have an unverified SOTA result on KernelBench with o3-mini and an evolutionary examples tape: 208/250 claimed speedups, including 3 for Level 4 (prev untouched).
would be grateful for any help reviewing the optimized KernelBench kernels at .
thank you to @anneouyang and Stanford’s @ScalingIntelLab for agreeing to review them.

3K
Melhores
Classificação
Favoritos