所以,所有模型在新的国际数学奥林匹克问题上都表现不如人类,而Grok-4的表现尤其糟糕,即使是使用最佳选择的情况下?真是难以置信!
478.08K