DApp Store | Hub da Web3 para eventos e jogos

Hoje, nós da @OpenAI alcançamos um marco que muitos consideraram a anos de distância: desempenho em nível de medalha de ouro no IMO de 2025 com um LLM de raciocínio geral - sob os mesmos limites de tempo que os humanos, sem ferramentas. Por mais notável que pareça, é ainda mais significativo do que a manchete 🧵

Normalmente, para esses resultados de IA, como em Go/Dota/Poker/Diplomacy, os pesquisadores passam anos criando uma IA que domina um domínio estreito e faz pouco mais. Mas este não é um modelo específico da IMO. É um LLM de raciocínio que incorpora novas técnicas experimentais de uso geral.

Então, o que é diferente? Desenvolvemos novas técnicas que tornam os LLMs muito melhores em tarefas difíceis de verificar. Os problemas da IMO foram o desafio perfeito para isso: as provas têm páginas e levam horas para os especialistas avaliarem. Compare isso com AIME, onde as respostas são simplesmente um número inteiro de 0 a 999.

Além disso, este modelo pensa por um tempo * longo *. O1 pensou por segundos. Pesquisa profunda por minutos. Este pensa por horas. É importante ressaltar que também é mais eficiente com seu pensamento. E há muito espaço para impulsionar ainda mais a computação e a eficiência em tempo de teste.

Vale a pena refletir sobre o quão rápido o progresso da IA tem sido, especialmente em matemática. Em 2024, os laboratórios de IA estavam usando matemática do ensino fundamental (GSM8K) como uma avaliação em seus lançamentos de modelo. Desde então, saturamos o benchmark MATH (do ensino médio), depois AIME e agora estamos no ouro da IMO.

Para onde isso vai? Por mais rápido que tenha sido o progresso recente da IA, espero que a tendência continue. É importante ressaltar que acho que estamos perto de a IA contribuir substancialmente para a descoberta científica. Há uma grande diferença entre a IA um pouco abaixo do desempenho humano superior e um pouco acima.

Este foi um pequeno esforço de equipe liderado por @alexwei_. Ele pegou uma ideia de pesquisa em que poucos acreditavam e a usou para alcançar um resultado menos pensado. Isso também não seria possível sem anos de pesquisa + engenharia de muitos na @OpenAI e da comunidade de IA em geral.

Quando você trabalha em um laboratório de fronteira, geralmente sabe onde estão os recursos de fronteira meses antes de qualquer outra pessoa. Mas esse resultado é totalmente novo, usando técnicas desenvolvidas recentemente. Foi uma surpresa até mesmo para muitos pesquisadores da OpenAI. Hoje, todos podem ver onde fica a fronteira.