注意,这条推文是在OAI宣布他们的黄金结果前7小时发布的。
Ravid Shwartz Ziv
Ravid Shwartz Ziv7月19日 09:17
所以,所有模型在新的国际数学奥林匹克问题上都表现不如人类,而Grok-4的表现尤其糟糕,即使是使用最佳选择的情况下?真是难以置信!
26.98K