热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
今天,我们在 @OpenAI 达成了一个许多人认为还需要数年才能实现的里程碑:在 2025 年国际数学奥林匹克(IMO)上取得了金牌级别的表现,使用的是通用推理 LLM——在与人类相同的时间限制下,没有工具。尽管这听起来很了不起,但它的意义远超标题所述 🧵

7月19日 15:50
1/N 我很高兴地分享,我们最新的 @OpenAI 实验性推理 LLM 在人工智能领域实现了一个长期以来的重大挑战:在世界上最负盛名的数学竞赛——国际数学奥林匹克(IMO)中达到了金牌级别的表现。

通常,对于这些人工智能结果,就像在围棋/刀塔/扑克/外交中,研究人员花费数年时间开发一种能够精通某一狭窄领域的人工智能,而其他方面则做得很少。但这并不是一个特定于IMO的模型。这是一个推理的LLM,结合了新的实验性通用技术。
那么有什么不同呢?我们开发了新技术,使得大型语言模型在难以验证的任务上表现得更好。在我看来,IMO问题是一个完美的挑战:证明文档长达数页,专家需要数小时来评分。与此相比,AIME的答案只是一个从0到999的整数。
此外,这个模型思考的时间很*长*。o1思考了几秒钟。深度研究花了几分钟。而这个模型思考了几个小时。重要的是,它的思考效率也更高。而且在测试时间的计算和效率上还有很大的提升空间。

2024年9月13日
@OpenAI @rao2z @OpenAI 的 o1 思考几秒钟,但我们希望未来的版本能够思考几个小时、几天,甚至几周。推理成本会更高,但你愿意为一种新型癌症药物支付多少费用?为突破性的电池?为黎曼假设的证明?人工智能可以不仅仅是聊天机器人。

值得反思的是,人工智能的进步有多快,尤其是在数学方面。到2024年,人工智能实验室在其模型发布中使用了小学数学(GSM8K)作为评估标准。从那时起,我们已经饱和了(高中)数学基准,然后是AIME,现在达到了国际数学奥林匹克金牌。
这将走向何方?尽管最近的人工智能进展非常迅速,我完全预期这一趋势将继续。重要的是,我认为我们离人工智能在科学发现中做出实质性贡献不远了。人工智能稍微低于顶尖人类表现与稍微高于顶尖人类表现之间有很大的区别。
这是一个由 @alexwei_ 领导的小团队努力。他将一个少数人相信的研究想法付诸实践,取得了更少人认为可能的结果。如果没有 @OpenAI 和更广泛的 AI 社区中许多人的多年研究和工程,这一切也不可能实现。
当你在前沿实验室工作时,你通常会比其他人早几个月知道前沿能力在哪里。但这个结果是全新的,使用了最近开发的技术。甚至许多OpenAI的研究人员对此感到惊讶。今天,每个人都可以看到前沿在哪里。
998.19K
热门
排行
收藏