刚下班,尝试用Grok-4解决一个本科生的拓扑问题。它花了9分钟思考,然后自信地给出了一个干净、合理但完全错误的答案😅 我认为这并不算是“巧妙的对抗”。AI模型正在打破基准——但在真正的数学AGI方面仍然任重道远。
Elon Musk
Elon Musk7月10日 16:47
Grok 4 现在几乎不会在数学/物理考试问题上出错,除非这些问题设计得非常具有对抗性。 它可以识别问题中的错误或模糊之处,然后修正问题中的错误或回答每个模糊问题的不同变体。
663.04K