O triste robô em Grok 4. Isso mostra novamente como é preciso ter cuidado com as alegações exageradas de lançamentos fechados que dizem o habitual "está tudo acabado". A contaminação dos testes que não pode ser verificada faz com que os benchmarks pareçam ótimos, mas em problemas novos, a queda acontece.
17,08K