Dziś ogłaszamy zapowiedź ARC-AGI-3, Interaktywnego Benchmarku Rozumowania z najszerszą różnicą między łatwym dla ludzi a trudnym dla AI Wydajemy: * 3 gry (środowiska) * konkurs agentów o wartości 10 000 USD * API dla agentów AI Początkowe wyniki - Frontier AI: 0%, Ludzie: 100%
o3 (po lewej) i Grok 4 (po prawej) powtórki poniżej spoiler: żaden z nich nie ukończył ani jednego poziomu
Gry ARC-AGI-3 Preview muszą być testowane pod presją. Organizujemy 30-dniowy konkurs agentów we współpracy z @huggingface Zachęcamy społeczność do budowania agentów (i wygrywania pieniędzy!)
289,13K