Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

489895
Cofundador, CTO-CPO de @SentoraHQ (fmr IntoTheBlock), cofundador de @layerlens_ai, @faktoryai, @neuralfabric y The Sequence AI, enseñando en Columbia-Wharton
489895 reposteó
🧠 Grok 4 de @xai está avanzando en los puntos de referencia de razonamiento, pero el panorama es más matizado de lo que sugieren las puntuaciones.
Así es como se compara, y lo que realmente podemos aprender de sus resultados 🧵
📊 Evaluación completa:
1️⃣ Grok 4 puntuaciones:
• Desafío de razonamiento AI2 (fácil): 98%
• AIME 2025 (Matemáticas): 89%
• Auditoría Contable: 84%
• MMLU-Plus: 64%
• Data4Health: 55%
Estas son puntuaciones de primera línea, pero centrémonos en lo que funciona y lo que aún falla.
2️⃣ AIME 2025
✅ Maneja álgebra, geometría, teoría de números
✅ Sigue las reglas de formato de LaTeX
❌ Problemas con la lógica de varios pasos
❌ Errores en combinatoria
❌ Problemas de precisión de formato (por ejemplo, falta °)
3️⃣ Auditoría Contable
✅ Fuerte en ética y presentación de informes
✅ Comprensión sólida de los principios de auditoría
❌ Interpreta mal procedimientos similares
❌ No logra detectar diferencias sutiles en las respuestas
❌ Dificultad para aplicar la teoría a casos del mundo real
4️⃣ ¿La verdadera percepción?
Incluso un modelo con un 98% en algunas tareas puede fallar rotundamente bajo la ambigüedad o el estrés del formato.
Benchmarks como AIME y Audit muestran cómo falla, no solo cuánto puntúa.
5️(Por qué esto es importante):
Necesitamos una evaluación transparente por tarea, no solo tablas de clasificación.
#Grok4 es poderosa, pero sigue siendo frágil en dominios del mundo real de alto riesgo.
🧪 Explora el desglose completo:
#AI #LLMs #Benchmarking

1.02K
489895 reposteó
¡7 días hasta que nuestra lista de espera se ponga EN MARCHA!
Sé uno de los primeros 1,000 en desbloquear las ventajas de los primeros usuarios, la alfa y las recompensas de staking impulsadas.
👉 Regístrese el 14 de julio para el staking líquido de grado institucional para $XRP.
110.34K
Populares
Ranking
Favoritas
Onchain en tendencia
Tendencia en X
Principales fondos recientes
Más destacadas