o3 Pro на ARC-AGI Semi Private Eval Результаты АРК-ОИИ-1: * Низкий: 44%, $1.64/задача * Средний: 57%, $3.18/задача * Высокий: 59%, $4,16/задача АРК-ОИИ-2: * Все усилия по обоснованию: <5%, $4-7/задача Выводы: * O3-Pro в соответствии с производительностью O3 * Новая цена o3 устанавливает ARC-AGI-1 Frontier
Обратите внимание, что o3 Pro *не* является той же моделью, которую мы тестировали в декабре 2024 года (o3-preview) OpenAI это явно подтвердил. См. ссылку на твит для получения дополнительной информации.
ARC Prize
ARC Prize17 апр. 2025 г.
Уточнение производительности o3 на ARC-AGI OpenAI подтвердил: * Выпущенная версия o3 отличается от той, которую мы тестировали в декабре 2024 года * Все выпущенные вычислительные уровни o3 меньше версии, которую мы тестировали * Выпущенная версия o3 не была обучена на данных ARC-AGI, даже на обучающем наборе * Выпущенная версия o3 настроена для использования в чатах/продуктах, что вносит как преимущества, так и недостатки на ARC-AGI Что сделает ARC Prize: * Мы повторно протестируем выпущенную версию o3 (все вычислительные уровни) и опубликуем обновленные результаты. Предыдущие оценки будут помечены как "предварительные" * Мы протестируем и выпустим результаты o4-mini как можно скорее * Мы протестируем o3-pro, как только он станет доступен
результаты o3 были обновлены, чтобы отразить снижение цены на 80%
На графике появились новые точки данных для o3 (Высокое рассуждение) и o4-mini (Высокое рассуждение). Ранее они были исключены из-за таймаутов модели. Новый «фоновый режим» OpenAI позволил нам обрабатывать эти модели на высоких вычислительных настройках.
Смотрите таблицу лидеров: Воспроизвести результаты:
108,73K