O exame de matemática do ensino médio mais difícil do mundo, o IMO 2025 de 6 problemas e 9 horas, foi esta semana. Os modelos de IA tiveram um desempenho ruim. O Gemini 2.5 Pro obteve a pontuação mais alta, apenas 13/42, custando US $ 431,97, em uma avaliação melhor de 32. O corte de bronze foi 19. Longo caminho a percorrer para a IA resolver matemática difícil.
Aqui está uma visualização mais bonita do desempenho do modelo no MathArena
P6 foi definitivamente o problema mais difícil e interessante. A maioria das pessoas pode entender, mas muito poucas podem resolvê-lo. Todos os modelos pontuaram 0/7.
Pequena correção:
Alexander Wei
Alexander Wei9 horas atrás
1 / N Estou animado para compartilhar que nosso mais recente LLM de raciocínio experimental @OpenAI alcançou um grande desafio de longa data em IA: desempenho em nível de medalha de ouro na competição de matemática mais prestigiada do mundo - a Olimpíada Internacional de Matemática (IMO).
76,35K