DApp Store | Web3 Hub for hendelser og spill

I dag oppnådde vi i @OpenAI en milepæl som mange anså som år unna: ytelse på gullmedaljenivå på IMO 2025 med en generell resonnement LLM – under samme tidsgrenser som mennesker, uten verktøy. Så bemerkelsesverdig som det høres ut, er det enda mer betydningsfullt enn overskriften 🧵

Vanligvis for disse AI-resultatene, som i Go/Dota/Poker/Diplomacy, bruker forskere år på å lage en AI som mestrer ett smalt domene og gjør lite annet. Men dette er ikke en IMO-spesifikk modell. Det er en resonnerende LLM som inkorporerer nye eksperimentelle generelle teknikker.

Så hva er annerledes? Vi utviklet nye teknikker som gjør LLM-er mye bedre på oppgaver som er vanskelige å verifisere. IMO-problemer var den perfekte utfordringen for dette: korrektur er sider lange og tar eksperter timer å vurdere. Sammenlign det med AIME, hvor svarene ganske enkelt er et heltall fra 0 til 999.

Også denne modellen tenker i *lenge* tid. o1 tenkte i sekunder. Dyp forskning i minutter. Denne tenker i timevis. Viktigere er at den også er mer effektiv med sin tenkning. Og det er mye rom for å presse testtidsberegningen og effektiviteten videre.

Det er verdt å reflektere over hvor rask AI-fremgang har vært, spesielt i matematikk. I 2024 brukte AI-laboratorier grunnskolematematikk (GSM8K) som en evaluering i modellutgivelsene sine. Siden den gang har vi mettet (high school) MATH-referansen, deretter AIME, og nå er vi på IMO-gull.

Hvor blir dette av? Så raskt som den siste AI-fremgangen har vært, forventer jeg fullt ut at trenden vil fortsette. Viktigere, jeg tror vi er nær AI som bidrar vesentlig til vitenskapelige oppdagelser. Det er stor forskjell mellom AI litt under topp menneskelig ytelse vs litt over.

Dette var en liten laginnsats ledet av @alexwei_. Han tok en forskningsidé få trodde på og brukte den til å oppnå et resultat som færre trodde var mulig. Dette ville heller ikke vært mulig uten mange års forskning + ingeniørarbeid fra mange på @OpenAI og det bredere AI-samfunnet.

Når du jobber på et grenselaboratorium, vet du vanligvis hvor grensekapasiteten er måneder før noen andre. Men dette resultatet er helt nytt, ved hjelp av nylig utviklede teknikker. Det var en overraskelse selv for mange forskere ved OpenAI. I dag får alle se hvor grensen går.