DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

1/N Ik ben enthousiast om te delen dat onze nieuwste @OpenAI experimentele redeneermodule (LLM) een langdurige grote uitdaging in AI heeft bereikt: goudmedaille-niveau prestaties op de meest prestigieuze wiskundewedstrijd ter wereld—de Internationale Wiskunde Olympiade (IMO).

2/N We hebben onze modellen geëvalueerd op de 2025 IMO-problemen onder dezelfde regels als menselijke deelnemers: twee examen sessies van 4,5 uur, geen hulpmiddelen of internet, het lezen van de officiële probleemstellingen en het schrijven van bewijzen in natuurlijke taal.

4/N Ten tweede zijn IMO-indieningen moeilijk te verifiëren, meerpagina's bewijzen. Vooruitgang hier vereist dat we verder gaan dan het RL-paradigma van duidelijke, verifieerbare beloningen. Door dit te doen, hebben we een model verkregen dat ingewikkelde, waterdichte argumenten kan formuleren op het niveau van menselijke wiskundigen.

5/N Naast het resultaat zelf, ben ik enthousiast over onze aanpak: We bereiken dit capaciteitsniveau niet via een smalle, taak-specifieke methodologie, maar door nieuwe wegen te verkennen in algemene versterkingsleren en schaling van rekentijd tijdens tests.

6/N In onze evaluatie heeft het model 5 van de 6 problemen op de 2025 IMO opgelost. Voor elk probleem hebben drie voormalige IMO-medaillewinnaars onafhankelijk de ingediende bewijsvoering van het model beoordeeld, met scores die zijn vastgesteld na unanieme consensus. Het model verdiende in totaal 35/42 punten, genoeg voor goud! 🥇

8/N Trouwens, we brengen binnenkort GPT-5 uit, en we zijn enthousiast dat je het kunt proberen. Maar om duidelijk te zijn: het IMO gold LLM is een experimenteel onderzoeksmodel. We zijn niet van plan om iets met dit niveau van wiskundige capaciteiten voor enkele maanden uit te brengen.

9/N Toch benadrukt dit hoe snel AI de afgelopen jaren is gevorderd. In 2021 vroeg mijn PhD-adviseur @JacobSteinhardt me om de vooruitgang in AI-wiskunde te voorspellen tegen juli 2025. Ik voorspelde 30% op de MATH benchmark (en dacht dat iedereen te optimistisch was). In plaats daarvan hebben we IMO-goud.

11/N Ten slotte willen we alle deelnemers van de 2025 IMO feliciteren met hun prestatie! We zijn er trots op dat we veel voormalige IMO-deelnemers bij @OpenAI hebben en erkennen dat dit enkele van de slimste jonge geesten van de toekomst zijn.

1,12M

Boven

Positie

Favorieten

Populair op onchain

Populair op X

Recente topfinanciering

Belangrijkste