有趣的是:大约3/4个月前,我为一些学术研究运行了o3,解决了一组AIME风格的问题。他们花了这么长时间才写出结果的总结(我记得是96%),在此期间,亚历克斯解决了证明和IMO,哈哈。
@littmath 也就是说,不清楚在他们发布草案时,证明是否会被解决。
5.07K