另一個 alpha 洩漏。與我們用於 KernelBench 的技術相同。這是一種最簡單形式的通用方法。 你只需要範例:獲得一個好的結果或一個單一的改進,添加到上下文中,獲得更多好的結果,並改善上下文,將這些添加到上下文中,無限循環…
Tooliense
Tooliense7月22日 11:19
最近,OpenAI 和 Google 在他們的新實驗模型上達到了 IMO 金牌的水平。 但我們的團隊僅憑 o4-mini-high 和我們的代理系統就達到了同樣的水平。現在我們將其開源。 特別是我們在 USAMO 基準測試中取得了驚人的進步。基準線幾乎為 0,但我們的代理平均達到了 90%。 此外,我們還能理論上證明最近的 arxiv 論文,只需提供關鍵的研究想法。
訓練小模型真的沒有意義……你最好是找到理想的程序來餵給最大的機器。 如果你想要最佳的輸出分佈,你需要找到理想的輸入分佈,就像練習一樣。 只要你有一種方法來評估你的輸出,你就可以從無到有。 不過這些人的技術似乎過於複雜,實際上可以簡單得多。
KernelBench 的第一代在 o3-mini 上。我們稱這為「自我提升」。
Lewis
Lewis2025年4月30日
we have an unverified SOTA result on KernelBench with o3-mini and an evolutionary examples tape: 208/250 claimed speedups, including 3 for Level 4 (prev untouched). would be grateful for any help reviewing the optimized KernelBench kernels at . thank you to @anneouyang and Stanford’s @ScalingIntelLab for agreeing to review them.
3.15K