Recentemente, a Openai, Goolge alcançou a Medalha de Ouro da IMO com seus novos modelos experimentais. Mas nossa equipe atingiu o mesmo nível com apenas o4-mini-high e nossos sistemas de agentes. E agora estamos abrindo o código. Especialmente, obtivemos melhorias insanas com os benchmarks do USAMO. A linha de base foi quase 0, mas nosso agente obteve uma média de 90%. Também poderíamos provar teoricamente os artigos recentes do arxiv apenas dando a ideia de pesquisa principal.
57,69K