Vandaag kondigen we een preview aan van ARC-AGI-3, de Interactive Reasoning Benchmark met de grootste kloof tussen gemakkelijk voor mensen en moeilijk voor AI. We brengen uit: * 3 spellen (omgevingen) * $10K agentenwedstrijd * API voor AI-agenten Begin scores - Frontier AI: 0%, Mensen: 100%
o3 (links) en Grok 4 (rechts) herhalingen hieronder spoiler: geen van beiden voltooit een enkel niveau
ARC-AGI-3 Voorvertoningsspellen moeten onder druk worden getest. We organiseren een 30-daagse agentencompetitie in samenwerking met @huggingface We roepen de gemeenschap op om agenten te bouwen (en geld te winnen!)
289,14K