o3 Pro on ARC-AGI Semi Private 評估結果 ARC-AGI-1 的: * 低:44%,1.64 USD/任務 * 中等:57%,3.18 美元/任務 * 高:59%,4.16 USD/任務 ARC-AGI-2 的: * 所有推理努力:<5%,4-7 美元/任務 要點: * O3-Pro 與 O3 性能一致 * o3 的新價格設定了ARC-AGI-1 Frontier
請注意,o3 Pro *不是*我們在 24 年 12 月測試的相同型號(o3-preview) OpenAI 已經明確證實了這一點。有關更多資訊,請參閱參考推文
ARC Prize
ARC Prize2025年4月17日
闡明 o3 的ARC-AGI性能 OpenAI 已確認: * 發佈的 o3 與我們在 2024 年 12 月測試的型號不同 * 所有已發佈的 o3 計算層都小於我們測試的版本 * 發佈的 o3 沒有使用 ARC-AGI 數據進行訓練,甚至沒有訓練集 * 發佈的 o3 針對聊天/產品使用進行了優化,它引入了 ARC-AGI 的優點和缺點 ARC Prize 將做什麼: * 我們將重新測試已發佈的 o3(所有計算層)併發佈更新的結果。之前的分數將被標記為“預覽” * 我們將儘快測試和發佈 o4-mini 結果 * 我們將在 o3-pro 上市後進行測試
O3 結果已更新,以反映價格降低80%
圖表中新增了 o3 (高推理) 和 o4-mini (高推理) 的數據點。它們以前由於模型超時而被排除。 OpenAI 的新“後台模式”使我們能夠在高計算設置下處理這些模型。
查看排行榜: 重現結果:
108.7K