我们可能正面临OpenAI与DeepMind IMO传奇中的情节反转。 刚看到Joseph Myers的一篇帖子(自1992年以来参与数学奥林匹克):IMO委员会据说要求AI实验室在闭幕式后7天内不要发布结果——出于对人类参赛者的尊重(见我昨天的帖子),并可能是为了留出时间对AI提交的内容和格式进行适当的验证。 根据Joseph的说法,OpenAI并没有与IMO合作测试他们的模型,91名官方IMO协调员中没有人参与评分其解决方案。与此同时,DeepMind似乎遵循规则,耐心等待他们的轮次。 背景信息: IMO有6道题目,每道题值7分。今年的金牌分数线是35分。即使是小幅扣分也可能让OpenAI降到银牌。从我对他们的写作的理解来看,有些部分可能会引发质疑——并可能导致扣分。 Terence Tao还指出,虽然题目保持不变,但测试格式很重要。在标准条件下无法获得铜牌的学生,可能在修改后的设置中获得金牌——这引发了关于“解决IMO”对AI意味着什么的真实问题。 下周可能会变得火热。敬请关注。
Jasper
Jasper7月20日 03:15
DeepMind在周五下午获得了国际数学奥林匹克的金牌。但他们不得不等到周一才能获得市场营销部门的批准才能发推。 @OpenAI在周六凌晨1点首先分享了他们的消息,抢走了风头。 在这个游戏中,速度 > 官僚主义。错过时机,就会失去叙事。
@swierk 他们找到了3位前国际数学奥林匹克(IMO)奖牌得主,而不是官方的IMO协调员:“对于每个问题,三位前IMO奖牌得主独立评估模型提交的证明,分数在达成一致共识后最终确定。”
Alexander Wei
Alexander Wei7月19日 15:50
在我们的评估中,该模型解决了2025年国际数学奥林匹克(IMO)上的6个问题中的5个。对于每个问题,三位前IMO奖牌获得者独立评估了模型提交的证明,分数在达成一致后最终确定。该模型总共获得了35/42分,足以获得金牌!🥇
我之前关于IMO委员会要求的帖子
Jasper
Jasper7月20日 05:42
澄清:我从谷歌的一位人士那里得知,他们的IMO结果仍在内部验证中。一旦完成,他们计划正式分享这些结果——我很想看看他们的做法。 另一位消息来源提到,IMO委员会要求在闭幕式后一周内不要公开讨论AI的参与。事情变得更加有趣了 🧐
@GoogleDeepMind 超人类推理团队负责人 @lmthang 也提出了一个问题,即 OpenAI 是否会赢得金牌或银牌。
Jasper
Jasper7月20日 05:42
澄清:我从谷歌的一位人士那里得知,他们的IMO结果仍在内部验证中。一旦完成,他们计划正式分享这些结果——我很想看看他们的做法。 另一位消息来源提到,IMO委员会要求在闭幕式后一周内不要公开讨论AI的参与。事情变得更加有趣了 🧐
@GoogleDeepMind 超人类推理团队负责人 @lmthang 建立了 AlphaGeometry,他也提出了一个问题:OpenAI 会赢得金牌还是银牌?
Thang Luong
Thang Luong7月20日 23:47
是的,IMO组织者有一份官方评分指南,但外部无法获取。没有基于该指南的评估,无法提出任何奖牌申请。扣除一分后,这是一枚银牌,而不是金牌。
@swierk 是的,数学和人工智能领域提出的问题越来越多。
Jasper
Jasper22 小时前
@GoogleDeepMind 超人类推理团队负责人 @lmthang 建立了 AlphaGeometry,他也提出了一个问题:OpenAI 会赢得金牌还是银牌?
87.43K