1/N Jag är glad att kunna dela med mig av att vår senaste @OpenAI experimentellt resonemang LLM har uppnått en långvarig stor utmaning inom AI: prestanda på guldmedaljnivå på världens mest prestigefyllda matematiktävling - International Math Olympiad (IMO).
2/N Vi utvärderade våra modeller på 2025 IMO-problemen enligt samma regler som mänskliga tävlande: två 4,5 timmars tentamenssessioner, inga verktyg eller internet, läsning av de officiella problemformuleringarna och skrivning av bevis på naturligt språk.
För det andra är IMO:s inlagor svåra att verifiera, flersidiga korrektur. Framsteg här kräver att man går bortom RL-paradigmet med tydliga, verifierbara belöningar. Genom att göra det har vi fått en modell som kan skapa intrikata, vattentäta argument på mänskliga matematikers nivå.
5/N Förutom själva resultatet är jag entusiastisk över vårt tillvägagångssätt: Vi når inte denna kapacitetsnivå via smala, uppgiftsspecifika metoder, utan genom att bryta ny mark inom generell förstärkningsinlärning och beräkningsskalning vid testtid.
6/N I vår utvärdering löste modellen 5 av de 6 problemen på 2025 IMO. För varje problem betygsatte tre tidigare IMO-medaljörer oberoende av varandra modellens inlämnade bevis, med poäng som slutfördes efter enhällig konsensus. Modellen fick totalt 35/42 poäng, vilket räckte till guld! 🥇
8/N Förresten, vi släpper GPT-5 snart, och vi ser fram emot att du ska prova den. Men bara för att vara tydlig: IMO guld LLM är en experimentell forskningsmodell. Vi planerar inte att släppa något med den här nivån av matematisk kapacitet på flera månader.
9/N Ändå understryker detta hur snabbt AI har utvecklats de senaste åren. År 2021 fick min doktorandhandledare mig @JacobSteinhardt att förutsäga AI-matematikens framsteg i juli 2025. Jag förutspådde 30% på MATH-riktmärket (och trodde att alla andra var för optimistiska). Istället har vi IMO guld.
11/N Till sist vill vi gratulera alla deltagare i IMO 2025 till deras prestation! Vi är stolta över att ha många tidigare IMO-deltagare på @OpenAI och inser att dessa är några av de smartaste unga hjärnorna i framtiden.
1,12M