imo gold的结果非常酷。话虽如此,我不知道为什么人们会失去理智。记得o3吗?我们当时以为我们的工作都完蛋了,因为arc-agi和frontier math?而hillclimbing math现在的进展速度远快于“通用实用性”。
10.86K