Hoje, estamos anunciando uma prévia do ARC-AGI-3, o Benchmark de Raciocínio Interativo com a maior lacuna entre fácil para humanos e difícil para IA Estamos lançando: * 3 jogos (ambientes) * Concurso de agente de $ 10K * API de agentes de IA Pontuação inicial - Frontier AI: 0%, Humanos: 100%
replays de o3 (esquerda) e Grok 4 (direita) abaixo Spoiler: nenhum dos dois completa um único nível
Os jogos de visualização do ARC-AGI-3 precisam ser testados sob pressão. Estamos organizando uma competição de agentes de 30 dias em parceria com a @huggingface Estamos convocando a comunidade a construir agentes (e ganhar dinheiro!)
289,13K