o3 Pro op ARC-AGI Semi Private Eval Resultaten BOOG-AGI-1: * Laag: 44%, $ 1.64/taak * Gemiddeld: 57%, $ 3.18 / taak * Hoog: 59%, $ 4.16/taak BOOG-AGI-2: * Alle redeneerinspanningen: <5%, $ 4-7/taak Afhaalrestaurants: * O3-Pro in lijn met O3 Performance * de nieuwe prijs van o3 bepaalt de grens van de ARC-AGI-1
Ter informatie, o3 Pro is *niet* hetzelfde model dat we in december '24 hebben getest (o3-preview) OpenAI heeft dit expliciet bevestigd. Zie de referentietweet voor meer informatie.
ARC Prize
ARC Prize17 apr 2025
Verduidelijking van de ARC-AGI-prestaties van o3 OpenAI heeft bevestigd: * De uitgebrachte o3 is een ander model dan wat we in december 2024 hebben getest * Alle uitgebrachte o3-rekenlagen zijn kleiner dan de versie die we hebben getest * De vrijgegeven o3 is niet getraind op ARC-AGI data, zelfs niet op het treinstel * De uitgebrachte o3 is afgestemd op chat/productgebruik, wat zowel sterke als zwakke punten op ARC-AGI introduceert Wat zal de ARC-prijs doen: * We zullen de vrijgegeven o3 (alle compute tiers) opnieuw testen en bijgewerkte resultaten publiceren. Eerdere scores worden gelabeld als "preview" * We zullen de o4-mini resultaten zo snel mogelijk testen en vrijgeven * We zullen o3-pro testen zodra deze beschikbaar is
de o3-resultaten zijn bijgewerkt om de prijsverlaging van 80% weer te geven
Nieuw op de grafiek zijn datapunten voor o3 (Hoge redeneervaardigheid) en o4-mini (Hoge redeneervaardigheid). Ze werden eerder uitgesloten vanwege model time-outs. De nieuwe 'achtergrondmodus' van OpenAI heeft ons in staat gesteld om deze modellen op hoge rekeninstellingen te verwerken.
Bekijk de ranglijst: Reproduceer resultaten:
108,74K