Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Idag har vi på @OpenAI uppnått en milstolpe som många ansåg vara flera år bort: prestanda på guldmedaljnivå på 2025 IMO med en allmänt resonerande LLM – under samma tidsgränser som människor, utan verktyg. Hur anmärkningsvärt det än låter, är det ännu mer betydelsefullt än rubriken 🧵

19 juli 15:50
1/N Jag är glad att kunna dela med mig av att vår senaste @OpenAI experimentellt resonemang LLM har uppnått en långvarig stor utmaning inom AI: prestanda på guldmedaljnivå på världens mest prestigefyllda matematiktävling - International Math Olympiad (IMO).

Typiskt för dessa AI-resultat, som i Go/Dota/Poker/Diplomacy, spenderar forskare år på att skapa en AI som behärskar en smal domän och inte gör mycket annat. Men detta är inte en IMO-specifik modell. Det är en resonerande LLM som innehåller nya experimentella tekniker för allmänna ändamål.
Så vad är skillnaden? Vi utvecklade nya tekniker som gör LLM:er mycket bättre på uppgifter som är svåra att verifiera. IMO-problem var den perfekta utmaningen för detta: korrektur är sidor långa och tar experter timmar att betygsätta. Jämför det med AIME, där svaren helt enkelt är ett heltal från 0 till 999.
Även denna modell tänker under en *lång* tid. O1 tänkte i sekunder. Djup forskning i minuter. Den här tänker i timmar. Viktigt är att den också är mer effektiv i sitt tänkande. Och det finns gott om utrymme för att driva beräkningen och effektiviteten vid test ytterligare.

13 sep. 2024
@OpenAI @rao2z @OpenAI är o1 tänker i sekunder, men vi siktar på att framtida versioner ska tänka i timmar, dagar, till och med veckor. Kostnaderna för inferens blir högre, men vad skulle du betala för ett nytt cancerläkemedel? För genombrottsbatterier? För att bevisa Riemannhypotesen? AI kan vara mer än chattrobotar

Det är värt att reflektera över hur snabba AI-framstegen har varit, särskilt inom matematik. År 2024 använde AI-laboratorier grundskolematematik (GSM8K) som en utvärdering i sina modellsläpp. Sedan dess har vi mättat (gymnasiets) MATH-riktmärket, sedan AIME och är nu på IMO-guld.
Vart tar det här vägen? Så snabbt som de senaste AI-framstegen har varit, förväntar jag mig att trenden kommer att fortsätta. Det är viktigt att påpeka att jag tror att vi är nära att AI i hög grad bidrar till vetenskapliga upptäckter. Det är stor skillnad mellan AI som ligger strax under den mänskliga toppprestationen jämfört med den som ligger något ovanför.
Detta var en liten laginsats som leddes av @alexwei_. Han tog en forskningsidé som få trodde på och använde den för att uppnå ett resultat som färre trodde var möjligt. Detta skulle inte heller vara möjligt utan år av forskning+ingenjörskonst från många på @OpenAI och den bredare AI-gemenskapen.
När du arbetar på ett frontier lab vet du vanligtvis var frontier capabilities finns månader före någon annan. Men detta resultat är helt nytt, med hjälp av nyligen utvecklade tekniker. Det kom som en överraskning även för många forskare på OpenAI. I dag får alla se var gränsen går.
1,07M
Topp
Rankning
Favoriter