Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
I dag oppnådde vi i @OpenAI en milepæl som mange anså som år unna: ytelse på gullmedaljenivå på IMO 2025 med en generell resonnement LLM – under samme tidsgrenser som mennesker, uten verktøy. Så bemerkelsesverdig som det høres ut, er det enda mer betydningsfullt enn overskriften 🧵

19. juli, 15:50
1/N Jeg er glad for å dele at vår siste @OpenAI eksperimentelle resonnement LLM har oppnådd en langvarig stor utfordring innen AI: gullmedaljenivå på verdens mest prestisjefylte matematikkkonkurranse – International Math Olympiad (IMO).

Vanligvis for disse AI-resultatene, som i Go/Dota/Poker/Diplomacy, bruker forskere år på å lage en AI som mestrer ett smalt domene og gjør lite annet. Men dette er ikke en IMO-spesifikk modell. Det er en resonnerende LLM som inkorporerer nye eksperimentelle generelle teknikker.
Så hva er annerledes? Vi utviklet nye teknikker som gjør LLM-er mye bedre på oppgaver som er vanskelige å verifisere. IMO-problemer var den perfekte utfordringen for dette: korrektur er sider lange og tar eksperter timer å vurdere. Sammenlign det med AIME, hvor svarene ganske enkelt er et heltall fra 0 til 999.
Også denne modellen tenker i *lenge* tid. o1 tenkte i sekunder. Dyp forskning i minutter. Denne tenker i timevis. Viktigere er at den også er mer effektiv med sin tenkning. Og det er mye rom for å presse testtidsberegningen og effektiviteten videre.

13. sep. 2024
@OpenAI @rao2z @OpenAI O1 tenker i sekunder, men vi tar sikte på at fremtidige versjoner skal tenke i timer, dager, til og med uker. Slutningskostnadene vil være høyere, men hvilken kostnad vil du betale for et nytt kreftmedisin? For banebrytende batterier? For et bevis på Riemann-hypotesen? AI kan være mer enn chatbots

Det er verdt å reflektere over hvor rask AI-fremgang har vært, spesielt i matematikk. I 2024 brukte AI-laboratorier grunnskolematematikk (GSM8K) som en evaluering i modellutgivelsene sine. Siden den gang har vi mettet (high school) MATH-referansen, deretter AIME, og nå er vi på IMO-gull.
Hvor blir dette av? Så raskt som den siste AI-fremgangen har vært, forventer jeg fullt ut at trenden vil fortsette. Viktigere, jeg tror vi er nær AI som bidrar vesentlig til vitenskapelige oppdagelser. Det er stor forskjell mellom AI litt under topp menneskelig ytelse vs litt over.
Dette var en liten laginnsats ledet av @alexwei_. Han tok en forskningsidé få trodde på og brukte den til å oppnå et resultat som færre trodde var mulig. Dette ville heller ikke vært mulig uten mange års forskning + ingeniørarbeid fra mange på @OpenAI og det bredere AI-samfunnet.
Når du jobber på et grenselaboratorium, vet du vanligvis hvor grensekapasiteten er måneder før noen andre. Men dette resultatet er helt nytt, ved hjelp av nylig utviklede teknikker. Det var en overraskelse selv for mange forskere ved OpenAI. I dag får alle se hvor grensen går.
857,23K
Topp
Rangering
Favoritter