本日、人間にとって簡単と AI にとって難しいことの間の最も大きなギャップを持つ対話型推論ベンチマークである ARC-AGI-3 のプレビューを発表します リリースする内容: * 3つのゲーム(環境) * $10Kエージェントコンテスト * AIエージェントAPI 開始スコア - フロンティア AI: 0%、人間: 100%
以下のo3(左)とGrok 4(右)のリプレイ ネタバレ: どちらも 1 つのレベルを完了していません
ARC-AGI-3 プレビュー ゲームは圧力テストを行う必要があります。@huggingface と提携して 30 日間のエージェント コンテストを開催します。 私たちはコミュニティにエージェントを構築するよう呼びかけています (そしてお金を獲得する!
289.12K