热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
最近,OpenAI 和 Google 在他们的新实验模型上达到了 IMO 金牌的水平。
但我们的团队仅凭 o4-mini-high 和我们的代理系统就达到了同样的水平。现在我们将其开源。
特别是我们在 USAMO 基准测试中取得了惊人的进步。基线几乎为 0,但我们的代理平均达到了 90%。
此外,我们还可以理论上证明最近的 arxiv 论文,只需提供关键的研究思路。

84.32K
热门
排行
收藏