世界上最難的高中數學考試,2025年國際數學奧林匹克(IMO)的6道題目9小時考試,本週舉行。 AI模型表現不佳。 Gemini 2.5 Pro的得分最高,僅為13/42,成本為431.97美元,在32次評估中表現最佳。銅牌的及格線是19。 AI在解決困難數學問題方面還有很長的路要走。
這是對MathArena模型表現的更美觀的可視化。
P6 絕對是最難且最有趣的問題。大多數人能理解它,但很少有人能解決它。 所有模型的得分都是 0/7。
小修正:
Alexander Wei
Alexander Wei7月19日 15:50
1/N 我很高興地分享,我們最新的 @OpenAI 實驗性推理 LLM 在人工智慧領域達成了一項長期以來的重大挑戰:在世界上最具聲望的數學競賽——國際數學奧林匹克(IMO)中獲得金牌級別的表現。
192.48K