注意:這是在OAI宣布他們的金礦結果前7小時發出的推文。
Ravid Shwartz Ziv
Ravid Shwartz Ziv7月19日 09:17
所以,所有模型在新的國際數學奧林匹克問題上表現不如人類,而Grok-4的表現尤其糟糕,即使是使用最佳選擇的情況下?真是難以置信!
26.98K