o3 Pro на результатах ARC-AGI Semi Private Eval ARC-AGI-1: * Низький: 44%, $1,64/завдання * Середній: 57%, $3,18/завдання * Високий: 59%, $4,16/завдання ARC-AGI-2: * Усі зусилля з міркування: <5%, $4-7/завдання Висновки: * O3-Pro відповідно до характеристик O3 * Нова ціна o3 встановлює ARC-AGI-1 Frontier
Зауважте, що o3 Pro — це *не* та модель, яку ми тестували в грудні '24 (o3-preview) OpenAI це прямо підтвердила. Дивіться довідковий твіт для отримання додаткової інформації
ARC Prize
ARC Prize17 квіт. 2025 р.
Уточнення продуктивності o3 ARC-AGI OpenAI підтвердила: * Випущений o3 відрізняється від тієї, яку ми тестували у грудні 2024 року * Усі випущені обчислювальні рівні o3 менші, ніж версія, яку ми тестували * Випущений o3 не був навчений на даних ARC-AGI, навіть потяговий набір * Випущений o3 налаштований для використання в чаті/продукті, що представляє як сильні, так і слабкі сторони ARC-AGI Що робитиме ARC Prize: * Ми повторно протестуємо випущений o3 (всі обчислювальні рівні) та опублікуємо оновлені результати. Попередні оцінки будуть позначені як "попередній перегляд" * Ми протестуємо та опублікуємо результати o4-mini якомога швидше * Ми протестуємо o3-pro, як тільки він стане доступним
Результати O3 були оновлені, щоб відобразити зниження ціни на 80%
Новими на діаграмі є точки даних для o3 (Високе міркування) та o4-mini (Високе міркування). Раніше вони були виключені через тайм-аути моделі. Новий «фоновий режим» OpenAI дозволив нам обробляти ці моделі на високих налаштуваннях обчислень.
Дивіться таблицю лідерів: Відтворити результати:
108,7K