Dus, alle modellen presteren slechter dan mensen op de nieuwe vragen van de Internationale Wiskunde Olympiade, en Grok-4 is vooral slecht daarin, zelfs met de beste uit-n selectie? Ongelooflijk!
571,24K