Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Résultats de l’évaluation semi-privée o3 Pro on ARC-AGI
ARC-AGI-1 :
* Faible : 44 %, 1,64 $/tâche
* Moyen : 57 %, 3,18 $/tâche
* Élevé : 59 %, 4,16 $/tâche
ARC-AGI-2 :
* Tous les efforts de raisonnement : <5 %, 4 à 7 $/tâche
À retenir :
* O3-Pro en ligne avec O3 Performance
* Le nouveau prix d’o3 fixe l’ARC-AGI-1 Frontier
À noter, o3 Pro n'est *pas* le même modèle que celui que nous avons testé en décembre 2024 (o3-preview)
OpenAI a explicitement confirmé cela. Voir le tweet de référence pour plus d'informations.

17 avr. 2025
Clarification des performances ARC-AGI d’o3
OpenAI a confirmé :
* L’o3 sorti est un modèle différent de ce que nous avons testé en décembre 2024
* Tous les niveaux de calcul o3 publiés sont plus petits que la version que nous avons testée
* L’o3 libéré n’a pas été entraîné sur les données ARC-AGI, pas même sur la rame
* La version 3 d’o3 est adaptée à l’utilisation du chat et du produit, ce qui présente à la fois les forces et les faiblesses d’ARC-AGI.
Ce que fera le Prix ARC :
* Nous testerons à nouveau l’o3 publié (tous les niveaux de calcul) et publierons les résultats mis à jour. Les scores précédents seront étiquetés « aperçu »
* Nous testerons et publierons les résultats d’o4-mini dès que possible
* Nous testerons o3-pro dès qu’il sera disponible
Les résultats o3 ont été mis à jour pour refléter la réduction de 80 % du prix.
Nouveaux sur le graphique, des points de données pour o3 (Raisonnement élevé) et o4-mini (Raisonnement élevé). Ils avaient été précédemment exclus en raison de délais d'attente du modèle.
Le nouveau « mode arrière-plan » d'OpenAI nous a permis de traiter ces modèles avec des paramètres de calcul élevés.
Voir le classement :
Reproduire les résultats :
108,72K
Meilleurs
Classement
Favoris