最近,OpenAI 和 Google 在他们的新实验模型上达到了 IMO 金牌的水平。 但我们的团队仅凭 o4-mini-high 和我们的代理系统就达到了同样的水平。现在我们将其开源。 特别是我们在 USAMO 基准测试中取得了惊人的进步。基线几乎为 0,但我们的代理平均达到了 90%。 此外,我们还可以理论上证明最近的 arxiv 论文,只需提供关键的研究思路。
84.32K