Så alla modeller presterar sämre än människor på de nya frågorna i den internationella matematiska olympiaden, och Grok-4 är särskilt dålig på det, även med bäst av n-urval? Otrolig!
571,24K