Hoy, anunciamos una vista previa de ARC-AGI-3, el Benchmark de Razonamiento Interactivo con la mayor diferencia entre fácil para los humanos y difícil para la IA. Estamos lanzando: * 3 juegos (entornos) * Concurso de agentes de $10K * API de agentes de IA Puntuaciones iniciales - IA de frontera: 0%, Humanos: 100%
o3 (izquierda) y Grok 4 (derecha) repeticiones a continuación spoiler: ninguno completa un solo nivel
Los juegos de vista previa de ARC-AGI-3 necesitan ser sometidos a pruebas de presión. Estamos organizando una competencia de agentes de 30 días en asociación con @huggingface Hacemos un llamado a la comunidad para que construya agentes (¡y gane dinero!)
289,14K