有趣的是:3/4個月前,我在一組類似AIME的問題的私人測試集上運行了o3,為一些學術研究進行測試。他們花了這麼長時間才寫出結果的摘要(96%),而在此期間,Alex解決了IMO。
40