xAI lanzó Grok 4 sin ninguna documentación sobre sus pruebas de seguridad. Esto es imprudente y rompe con las mejores prácticas de la industria seguidas por otros grandes laboratorios de IA. Si xAI va a ser un desarrollador de IA de vanguardia, debería actuar como tal. 🧵
Pero xAI está muy fuera de lugar en comparación con otros desarrolladores de IA de vanguardia, y esto necesita ser señalado. Anthropic, OpenAI y las prácticas de lanzamiento de Google tienen problemas. Pero al menos hacen algo, cualquier cosa para evaluar la seguridad antes del despliegue y documentar los hallazgos. xAI no lo hace.
¿Qué hay en una tarjeta de sistema? Por un lado, evaluaciones de capacidades peligrosas (DC). Estas miden qué tan bien el modelo puede ayudar con tareas que podrían representar una amenaza a la seguridad nacional (como hackear o sintetizar armas biológicas). Por ejemplo, estas son las evaluaciones de DC biológicas reportadas en la tarjeta del sistema Claude 4.
751,65K