熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
o3 Pro on ARC-AGI Semi Private 評估結果
ARC-AGI-1 的:
* 低:44%,1.64 USD/任務
* 中等:57%,3.18 美元/任務
* 高:59%,4.16 USD/任務
ARC-AGI-2 的:
* 所有推理努力:<5%,4-7 美元/任務
要點:
* O3-Pro 與 O3 性能一致
* o3 的新價格設定了ARC-AGI-1 Frontier
請注意,o3 Pro *不是*我們在 24 年 12 月測試的相同型號(o3-preview)
OpenAI 已經明確證實了這一點。有關更多資訊,請參閱參考推文

2025年4月17日
闡明 o3 的ARC-AGI性能
OpenAI 已確認:
* 發佈的 o3 與我們在 2024 年 12 月測試的型號不同
* 所有已發佈的 o3 計算層都小於我們測試的版本
* 發佈的 o3 沒有使用 ARC-AGI 數據進行訓練,甚至沒有訓練集
* 發佈的 o3 針對聊天/產品使用進行了優化,它引入了 ARC-AGI 的優點和缺點
ARC Prize 將做什麼:
* 我們將重新測試已發佈的 o3(所有計算層)併發佈更新的結果。之前的分數將被標記為“預覽”
* 我們將儘快測試和發佈 o4-mini 結果
* 我們將在 o3-pro 上市後進行測試
O3 結果已更新,以反映價格降低80%
圖表中新增了 o3 (高推理) 和 o4-mini (高推理) 的數據點。它們以前由於模型超時而被排除。
OpenAI 的新“後台模式”使我們能夠在高計算設置下處理這些模型。
查看排行榜:
重現結果:
108.7K
熱門
排行
收藏