Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
o3 Pro sui risultati della valutazione semi-privata ARC-AGI
ARC-AGI-1:
* Basso: 44%, $ 1,64/attività
* Medio: 57%, $ 3,18/attività
* Alto: 59%, $ 4,16/attività
ARC-AGI-2:
* Tutti gli sforzi di ragionamento: <5%, $ 4-7/compito
Da asporto:
* O3-Pro in linea con le prestazioni di O3
* Il nuovo prezzo di o3 stabilisce la frontiera ARC-AGI-1
Da notare che o3 Pro *non* è lo stesso modello che abbiamo testato a dicembre '24 (o3-preview)
OpenAI ha confermato esplicitamente questo. Vedi il tweet di riferimento per ulteriori informazioni.

17 apr 2025
Chiarimento delle prestazioni ARC-AGI di o3
OpenAI ha confermato:
* L'o3 rilasciato è un modello diverso da quello che abbiamo testato nel dicembre 2024
* Tutti i livelli di calcolo o3 rilasciati sono più piccoli della versione che abbiamo testato
* L'o3 rilasciato non è stato addestrato sui dati ARC-AGI, nemmeno il set del treno
* L'o3 rilasciato è ottimizzato per l'uso in chat/prodotto, il che introduce sia i punti di forza che di debolezza su ARC-AGI
Cosa farà il Premio ARC:
* Testeremo nuovamente l'o3 rilasciato (tutti i livelli di calcolo) e pubblicheremo i risultati aggiornati. I punteggi precedenti saranno etichettati come "anteprima"
* Testeremo e rilasceremo i risultati di o4-mini il prima possibile
* Testeremo o3-pro non appena disponibile
i risultati di o3 sono stati aggiornati per riflettere la riduzione del 80% del prezzo
Nuovi nel grafico sono i punti dati per o3 (Ragionamento elevato) e o4-mini (Ragionamento elevato). Erano precedentemente esclusi a causa dei timeout del modello.
La nuova 'modalità in background' di OpenAI ci ha permesso di elaborare questi modelli con impostazioni di calcolo elevate.
Guarda la classifica:
Riproduci i risultati:
108,7K
Principali
Ranking
Preferiti