Chiarimento delle prestazioni ARC-AGI di o3 OpenAI ha confermato: * L'o3 rilasciato è un modello diverso da quello che abbiamo testato nel dicembre 2024 * Tutti i livelli di calcolo o3 rilasciati sono più piccoli della versione che abbiamo testato * L'o3 rilasciato non è stato addestrato sui dati ARC-AGI, nemmeno il set del treno * L'o3 rilasciato è ottimizzato per l'uso in chat/prodotto, il che introduce sia i punti di forza che di debolezza su ARC-AGI Cosa farà il Premio ARC: * Testeremo nuovamente l'o3 rilasciato (tutti i livelli di calcolo) e pubblicheremo i risultati aggiornati. I punteggi precedenti saranno etichettati come "anteprima" * Testeremo e rilasceremo i risultati di o4-mini il prima possibile * Testeremo o3-pro non appena disponibile
127,35K