Então, todos os modelos têm um desempenho inferior ao dos humanos nas novas questões da Olimpíada Internacional de Matemática, e o Grok-4 é especialmente ruim nisso, mesmo com a seleção do melhor de n? Inacreditável!
549,83K