最近,OpenAI 和 Google 在他們的新實驗模型上達到了 IMO 金牌的水平。 但我們的團隊僅憑 o4-mini-high 和我們的代理系統就達到了同樣的水平。現在我們將其開源。 特別是我們在 USAMO 基準測試中取得了驚人的進步。基準線幾乎為 0,但我們的代理平均達到了 90%。 此外,我們還能理論上證明最近的 arxiv 論文,只需提供關鍵的研究想法。
84.32K