Уточнение производительности o3 на ARC-AGI OpenAI подтвердил: * Выпущенная версия o3 отличается от той, которую мы тестировали в декабре 2024 года * Все выпущенные вычислительные уровни o3 меньше версии, которую мы тестировали * Выпущенная версия o3 не была обучена на данных ARC-AGI, даже на обучающем наборе * Выпущенная версия o3 настроена для использования в чатах/продуктах, что вносит как преимущества, так и недостатки на ARC-AGI Что сделает ARC Prize: * Мы повторно протестируем выпущенную версию o3 (все вычислительные уровни) и опубликуем обновленные результаты. Предыдущие оценки будут помечены как "предварительные" * Мы протестируем и выпустим результаты o4-mini как можно скорее * Мы протестируем o3-pro, как только он станет доступен
127,38K