Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
o3 Pro op ARC-AGI Semi Private Eval Resultaten
BOOG-AGI-1:
* Laag: 44%, $ 1.64/taak
* Gemiddeld: 57%, $ 3.18 / taak
* Hoog: 59%, $ 4.16/taak
BOOG-AGI-2:
* Alle redeneerinspanningen: <5%, $ 4-7/taak
Afhaalrestaurants:
* O3-Pro in lijn met O3 Performance
* de nieuwe prijs van o3 bepaalt de grens van de ARC-AGI-1
Ter informatie, o3 Pro is *niet* hetzelfde model dat we in december '24 hebben getest (o3-preview)
OpenAI heeft dit expliciet bevestigd. Zie de referentietweet voor meer informatie.

17 apr 2025
Verduidelijking van de ARC-AGI-prestaties van o3
OpenAI heeft bevestigd:
* De uitgebrachte o3 is een ander model dan wat we in december 2024 hebben getest
* Alle uitgebrachte o3-rekenlagen zijn kleiner dan de versie die we hebben getest
* De vrijgegeven o3 is niet getraind op ARC-AGI data, zelfs niet op het treinstel
* De uitgebrachte o3 is afgestemd op chat/productgebruik, wat zowel sterke als zwakke punten op ARC-AGI introduceert
Wat zal de ARC-prijs doen:
* We zullen de vrijgegeven o3 (alle compute tiers) opnieuw testen en bijgewerkte resultaten publiceren. Eerdere scores worden gelabeld als "preview"
* We zullen de o4-mini resultaten zo snel mogelijk testen en vrijgeven
* We zullen o3-pro testen zodra deze beschikbaar is
de o3-resultaten zijn bijgewerkt om de prijsverlaging van 80% weer te geven
Nieuw op de grafiek zijn datapunten voor o3 (Hoge redeneervaardigheid) en o4-mini (Hoge redeneervaardigheid). Ze werden eerder uitgesloten vanwege model time-outs.
De nieuwe 'achtergrondmodus' van OpenAI heeft ons in staat gesteld om deze modellen op hoge rekeninstellingen te verwerken.
Bekijk de ranglijst:
Reproduceer resultaten:
108,74K
Boven
Positie
Favorieten