有趣的是:3到4个月前,我在一个私人测试集的AIME类问题上运行了o3进行一些学术研究。他们花了这么长时间才写出结果的总结(96%),而在此期间,Alex已经解决了IMO。
39