トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
o3 Pro on ARC-AGI セミプライベート評価結果
ARC-AGI-1:
*低:44%、$ 1.64 /タスク
*ミディアム:57%、$ 3.18 /タスク
*高:59%、$ 4.16 /タスク
ARC-AGI-2:
*すべての推論努力:<5%、$ 4-7 /タスク
テイクアウェイ:
* O3-ProはO3パフォーマンスに合わせます
* o3の新価格はARC-AGI-1 Frontierを設定
なお、o3 Proは、24年12月(o3-preview)にテストしたモデルと同じではありません。
OpenAIはこれを明確に確認しています。詳細については、参照ツイートを参照してください

2025年4月17日
o3のARC-AGI性能の明確化
OpenAIは以下を確認しています。
※発売されたo3は、2024年12月にテストしたものとは異なるモデルです
* リリースされたすべての o3 コンピューティング レベルは、テストしたバージョンよりも小さくなっています
※リリースされたo3はARC-AGIデータで学習されておらず、列車セットも登録されていませんでした
※リリースされたo3は、ARC-AGIの長所と短所をご紹介するチャット/製品使用向けにチューニングされています
ARCプライズが行うこと:
* リリースされた o3 (すべてのコンピューティング階層) を再テストし、更新された結果を公開します。以前のスコアには「プレビュー」というラベルが付けられます
* できるだけ早くo4-miniの結果をテストして発表します
※o3-proが利用可能になり次第、テストを行います
O3の結果は、価格の80%の引き下げを反映するように更新されました
このチャートに新しく追加されたのは、o3 (High reasoning) と o4-mini (High reasoning) のデータポイントです。以前は、モデルのタイムアウトのために除外されていました。
OpenAIの新しい「バックグラウンドモード」により、これらのモデルを高いコンピューティング設定で処理できるようになりました。
リーダーボードを参照してください。
結果を再現します。
108.71K
トップ
ランキング
お気に入り