DApp-butik | Web3-hubb för evenemang och spel

Idag har vi på @OpenAI uppnått en milstolpe som många ansåg vara flera år bort: prestanda på guldmedaljnivå på 2025 IMO med en allmänt resonerande LLM – under samma tidsgränser som människor, utan verktyg. Hur anmärkningsvärt det än låter, är det ännu mer betydelsefullt än rubriken 🧵

Typiskt för dessa AI-resultat, som i Go/Dota/Poker/Diplomacy, spenderar forskare år på att skapa en AI som behärskar en smal domän och inte gör mycket annat. Men detta är inte en IMO-specifik modell. Det är en resonerande LLM som innehåller nya experimentella tekniker för allmänna ändamål.

Så vad är skillnaden? Vi utvecklade nya tekniker som gör LLM:er mycket bättre på uppgifter som är svåra att verifiera. IMO-problem var den perfekta utmaningen för detta: korrektur är sidor långa och tar experter timmar att betygsätta. Jämför det med AIME, där svaren helt enkelt är ett heltal från 0 till 999.

Även denna modell tänker under en *lång* tid. O1 tänkte i sekunder. Djup forskning i minuter. Den här tänker i timmar. Viktigt är att den också är mer effektiv i sitt tänkande. Och det finns gott om utrymme för att driva beräkningen och effektiviteten vid test ytterligare.

Det är värt att reflektera över hur snabba AI-framstegen har varit, särskilt inom matematik. År 2024 använde AI-laboratorier grundskolematematik (GSM8K) som en utvärdering i sina modellsläpp. Sedan dess har vi mättat (gymnasiets) MATH-riktmärket, sedan AIME och är nu på IMO-guld.

Vart tar det här vägen? Så snabbt som de senaste AI-framstegen har varit, förväntar jag mig att trenden kommer att fortsätta. Det är viktigt att påpeka att jag tror att vi är nära att AI i hög grad bidrar till vetenskapliga upptäckter. Det är stor skillnad mellan AI som ligger strax under den mänskliga toppprestationen jämfört med den som ligger något ovanför.

Detta var en liten laginsats som leddes av @alexwei_. Han tog en forskningsidé som få trodde på och använde den för att uppnå ett resultat som färre trodde var möjligt. Detta skulle inte heller vara möjligt utan år av forskning+ingenjörskonst från många på @OpenAI och den bredare AI-gemenskapen.

När du arbetar på ett frontier lab vet du vanligtvis var frontier capabilities finns månader före någon annan. Men detta resultat är helt nytt, med hjälp av nyligen utvecklade tekniker. Det kom som en överraskning även för många forskare på OpenAI. I dag får alla se var gränsen går.