o3 Pro pe rezultatele evaluării semi-private ARC-AGI ARC-AGI-1: * Scăzut: 44%, 1,64 USD/sarcină * Mediu: 57%, 3,18 USD/sarcină * Ridicat: 59%, 4,16 USD/sarcină ARC-AGI-2: * Toate eforturile de raționament: <5%, 4-7 USD/sarcină Concluzii: * O3-Pro în conformitate cu performanța O3 * Noul preț al o3 stabilește ARC-AGI-1 Frontier
De reținut, o3 Pro *nu* este același model pe care l-am testat în decembrie '24 (o3-preview) OpenAI a confirmat în mod explicit acest lucru. Vezi tweet-ul de referință pentru mai multe informații
ARC Prize
ARC Prize17 apr. 2025
Clarificarea performanței ARC-AGI a o3 OpenAI a confirmat: * O3 lansat este un model diferit de ceea ce am testat în decembrie 2024 * Toate nivelurile de calcul o3 lansate sunt mai mici decât versiunea pe care am testat-o * O3 eliberat nu a fost antrenat pe date ARC-AGI, nici măcar pe tren * O3 lansat este reglat pentru utilizarea prin chat/produs, ceea ce introduce atât punctele forte, cât și punctele slabe ale ARC-AGI Ce va face Premiul ARC: * Vom testa din nou o3 lansat (toate nivelurile de calcul) și vom publica rezultatele actualizate. Scorurile anterioare vor fi etichetate "previzualizare" * Vom testa și publica rezultatele o4-mini cât mai curând posibil * Vom testa o3-pro odată ce va fi disponibil
Rezultatele O3 au fost actualizate pentru a reflecta reducerea cu 80% a prețului
Noi în grafic sunt punctele de date pentru o3 (raționament ridicat) și o4-mini (raționament ridicat). Acestea au fost excluse anterior din cauza timpilor de expirare ai modelului. Noul "mod de fundal" al OpenAI ne-a permis să procesăm aceste modele pe setări de calcul ridicate.
Vezi clasamentul: Reproduceți rezultatele:
108,77K