熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
另一個 alpha 洩漏。與我們用於 KernelBench 的技術相同。這是一種最簡單形式的通用方法。
你只需要範例:獲得一個好的結果或一個單一的改進,添加到上下文中,獲得更多好的結果,並改善上下文,將這些添加到上下文中,無限循環…


7月22日 11:19
最近,OpenAI 和 Google 在他們的新實驗模型上達到了 IMO 金牌的水平。
但我們的團隊僅憑 o4-mini-high 和我們的代理系統就達到了同樣的水平。現在我們將其開源。
特別是我們在 USAMO 基準測試中取得了驚人的進步。基準線幾乎為 0,但我們的代理平均達到了 90%。
此外,我們還能理論上證明最近的 arxiv 論文,只需提供關鍵的研究想法。

訓練小模型真的沒有意義……你最好是找到理想的程序來餵給最大的機器。
如果你想要最佳的輸出分佈,你需要找到理想的輸入分佈,就像練習一樣。
只要你有一種方法來評估你的輸出,你就可以從無到有。
不過這些人的技術似乎過於複雜,實際上可以簡單得多。
KernelBench 的第一代在 o3-mini 上。我們稱這為「自我提升」。


2025年4月30日
我們在 KernelBench 上有一個未經驗證的 SOTA 結果,其中包含 o3-mini 和一個進化示例磁帶:208/250 次聲稱的加速,其中包括 3 次 4 級加速(上一個未觸及)。
將不勝感激在 上審查優化的 KernelBench 內核的任何説明。
感謝 @anneouyang 和 Stanford's @ScalingIntelLab 同意對其進行審核。

3.16K
熱門
排行
收藏