Entonces, ¿todos los modelos tienen un rendimiento inferior al de los humanos en las nuevas preguntas de la Olimpiada Internacional de Matemáticas, y Grok-4 es especialmente malo en eso, incluso con la selección al mejor de n? ¡Increíble!
478.08K