Geweldige benchmark. De eerste AI die dit doet, zal zeer indrukwekkend zijn. Ik vind vooral de vereiste voor experimentatie leuk. Je kunt geen van deze echt oplossen totdat je hypothesen test en ervan leert.
ARC Prize
ARC Prize19 jul, 01:26
Vandaag kondigen we een preview aan van ARC-AGI-3, de Interactive Reasoning Benchmark met de grootste kloof tussen gemakkelijk voor mensen en moeilijk voor AI. We brengen uit: * 3 spellen (omgevingen) * $10K agentenwedstrijd * API voor AI-agenten Begin scores - Frontier AI: 0%, Mensen: 100%
5,67K