o3 Pro på ARC-AGI Semi Private Eval-resultat ARC-AGI-1: * Låg: 44%, $1.64/uppgift * Medium: 57%, $3.18/uppgift * Hög: 59%, $4.16/uppgift ARC-AGI-2: * Alla resonemangsförsök: <5%, $4-7 / uppgift Att ta med sig: * O3-Pro i linje med O3 Performance * o3:s nya pris sätter ARC-AGI-1 Frontier
Att notera är *inte* samma modell som vi testade i december '24 (o3-preview) OpenAI har uttryckligen bekräftat detta. Se referens-tweet för mer information
ARC Prize
ARC Prize17 apr. 2025
Förtydligande av o3:s ARC-AGI-prestanda OpenAI har bekräftat: * Den släppta o3 är en annan modell än den vi testade i december 2024 * Alla utgivna o3-beräkningsnivåer är mindre än den version vi testade * Den frisläppta o3:an tränades inte på ARC-AGI-data, inte ens tågsättet * Den släppta o3 är anpassad för chatt/produktanvändning, vilket introducerar både styrkor och svagheter på ARC-AGI Vad ARC Prize kommer att göra: * Vi kommer att testa den utgivna o3 (alla beräkningsnivåer) igen och publicera uppdaterade resultat. Tidigare resultat kommer att märkas som "förhandsgranskning" * Vi kommer att testa och släppa o4-mini-resultat så snart som möjligt * Vi kommer att testa o3-pro när den är tillgänglig
O3-resultaten har uppdaterats för att återspegla den 80-procentiga prissänkningen
Nytt i diagrammet är datapunkter för o3 (High reasoning) och o4-mini (High reasoning). De uteslöts tidigare på grund av tidsgränser för modellen. OpenAI:s nya "bakgrundsläge" har gjort det möjligt för oss att bearbeta dessa modeller på höga beräkningsinställningar.
Se topplistan: Återskapa resultat:
108,77K