اليوم ، نعلن عن معاينة ل ARC-AGI-3 ، معيار التفكير التفاعلي مع أكبر فجوة بين السهل على البشر والصعب على الذكاء الاصطناعي نحن نصدر: * 3 ألعاب (بيئات) * مسابقة وكيل بقيمة 10 آلاف دولار * واجهة برمجة تطبيقات وكلاء الذكاء الاصطناعي درجات البداية - الذكاء الاصطناعي الحدودي: 0٪، البشر: 100٪
o3 (يسار) و Grok 4 (يمين) الإعادة أدناه المفسد: لا يكمل مستوى واحد
تحتاج ألعاب معاينة ARC-AGI-3 إلى اختبار الضغط. نستضيف مسابقة وكلاء لمدة 30 يوما بالشراكة مع @huggingface نحن ندعو المجتمع إلى بناء وكلاء (وكسب المال!)
‏‎289.13‏K