Idag presenterar vi en förhandsvisning av ARC-AGI-3, Interactive Reasoning Benchmark med det största gapet mellan lätt för människor och svårt för AI Vi släpper: * 3 spel (miljöer) * $ 10K agent tävling * API för AI-agenter Startresultat - Frontier AI: 0%, Människor: 100%
o3 (vänster) och Grok 4 (höger) repriser nedan Spoiler: Ingen av dem slutför en enda nivå
ARC-AGI-3 Preview-spel måste trycktestas. Vi anordnar en 30-dagars agenttävling i samarbete med @huggingface Vi uppmanar communityn att bygga agenter (och vinna pengar!)
296,85K