🧠 Grok 4 de @xai está avanzando en los benchmarks de razonamiento, pero la imagen es más matizada de lo que sugieren las puntuaciones. Aquí está cómo se compara — y lo que realmente podemos aprender de sus resultados 🧵 📊 Evaluación completa: 1️⃣ Puntuaciones de Grok 4: • Desafío de Razonamiento AI2 (Fácil): 98% • AIME 2025 (Matemáticas): 89% • Auditoría Contable: 84% • MMLU-Plus: 64% • Data4Health: 55% Estas son puntuaciones generales — pero vamos a profundizar en lo que funciona y lo que aún falla. 2️⃣ AIME 2025 ✅ Maneja álgebra, geometría, teoría de números ✅ Sigue las reglas de formato de LaTeX ❌ Tiene problemas con la lógica de múltiples pasos ❌ Errores en combinatoria ❌ Problemas de precisión en el formato (por ejemplo, falta el °) 3️⃣ Auditoría Contable ✅ Fuerte en ética e informes ✅ Sólido entendimiento de los principios de auditoría ❌ Mala interpretación de procedimientos similares ❌ No detecta diferencias sutiles en las respuestas ❌ Dificultad para aplicar la teoría a casos del mundo real 4️⃣ ¿La verdadera percepción? Incluso un modelo con un 98% en algunas tareas puede fallar gravemente bajo ambigüedad o estrés de formato. Los benchmarks como AIME y Auditoría muestran cómo falla, no solo cuánto puntúa. 5️⃣ ¿Por qué esto es importante? Necesitamos una evaluación transparente, por tarea — no solo tablas de clasificación. #Grok4 es poderoso, pero aún frágil en dominios del mundo real de alto riesgo. 🧪 Explora el desglose completo: #AI #LLMs #Benchmarking
1,06K