o3 Pro sui risultati della valutazione semi-privata ARC-AGI ARC-AGI-1: * Basso: 44%, $ 1,64/attività * Medio: 57%, $ 3,18/attività * Alto: 59%, $ 4,16/attività ARC-AGI-2: * Tutti gli sforzi di ragionamento: <5%, $ 4-7/compito Da asporto: * O3-Pro in linea con le prestazioni di O3 * Il nuovo prezzo di o3 stabilisce la frontiera ARC-AGI-1
Da notare che o3 Pro *non* è lo stesso modello che abbiamo testato a dicembre '24 (o3-preview) OpenAI ha confermato esplicitamente questo. Vedi il tweet di riferimento per ulteriori informazioni.
ARC Prize
ARC Prize17 apr 2025
Chiarimento delle prestazioni ARC-AGI di o3 OpenAI ha confermato: * L'o3 rilasciato è un modello diverso da quello che abbiamo testato nel dicembre 2024 * Tutti i livelli di calcolo o3 rilasciati sono più piccoli della versione che abbiamo testato * L'o3 rilasciato non è stato addestrato sui dati ARC-AGI, nemmeno il set del treno * L'o3 rilasciato è ottimizzato per l'uso in chat/prodotto, il che introduce sia i punti di forza che di debolezza su ARC-AGI Cosa farà il Premio ARC: * Testeremo nuovamente l'o3 rilasciato (tutti i livelli di calcolo) e pubblicheremo i risultati aggiornati. I punteggi precedenti saranno etichettati come "anteprima" * Testeremo e rilasceremo i risultati di o4-mini il prima possibile * Testeremo o3-pro non appena disponibile
i risultati di o3 sono stati aggiornati per riflettere la riduzione del 80% del prezzo
Nuovi nel grafico sono i punti dati per o3 (Ragionamento elevato) e o4-mini (Ragionamento elevato). Erano precedentemente esclusi a causa dei timeout del modello. La nuova 'modalità in background' di OpenAI ci ha permesso di elaborare questi modelli con impostazioni di calcolo elevate.
Guarda la classifica: Riproduci i risultati:
108,7K