Det svåraste matteprovet på gymnasiet i världen, 6 problem 9 timmar IMO 2025, var den här veckan. AI-modeller presterade dåligt. Gemini 2.5 Pro fick högst poäng, bara 13/42, och kostade $431,97, i en bäst av 32 eval. Bronsgränsen var 19. Lång väg att gå för AI att lösa svår matematik.
Här är en snyggare visualisering av modellens prestanda på MathArena
P6 var definitivt det svåraste och mest intressanta problemet. De flesta kan förstå det, men väldigt få kan lösa det. Alla modeller fick 0/7 poäng.
Liten korrigering:
Alexander Wei
Alexander Wei19 juli 15:50
1/N Jag är glad att kunna dela med mig av att vår senaste @OpenAI experimentellt resonemang LLM har uppnått en långvarig stor utmaning inom AI: prestanda på guldmedaljnivå på världens mest prestigefyllda matematiktävling - International Math Olympiad (IMO).
204,19K