Então, todos os modelos têm desempenho inferior ao dos humanos nas novas questões da Olimpíada Internacional de Matemática, e o Grok-4 é especialmente ruim nisso, mesmo com a seleção melhor de n? Incrível!
565,2K