Сегодня мы в @OpenAI достигли вехи, которую многие считали недостижимой в течение многих лет: уровень производительности золотой медали на IMO 2025 с использованием LLM общего мышления — в тех же временных рамках, что и у людей, без инструментов. Насколько это замечательно, это еще более значимо, чем заголовок 🧵
Alexander Wei
Alexander Wei19 июл., 15:50
1/N Я рад поделиться тем, что наш последний экспериментальный LLM от @OpenAI достиг давнего грандиозного вызова в ИИ: золотого медального уровня на самом престижном математическом соревновании в мире — Международной математической олимпиаде (IMO).
Как правило, для таких результатов ИИ, как в Go/Dota/Покер/Дипломатия, исследователи тратят годы на создание ИИ, который овладевает одной узкой областью и делает мало чего еще. Но это не модель, специфичная для IMO. Это reasoning LLM, который включает новые экспериментальные универсальные техники.
Так в чем разница? Мы разработали новые методы, которые значительно улучшают работу LLM в сложных задачах, которые трудно проверить. На мой взгляд, проблемы были идеальным вызовом для этого: доказательства занимают страницы и требуют от экспертов часов на оценку. Сравните это с AIME, где ответы представляют собой просто целое число от 0 до 999.
Также эта модель думает *долго*. o1 думал секунды. Глубокое исследование занимало минуты. Эта думает часами. Важно, что она также более эффективна в своих размышлениях. И есть много возможностей для дальнейшего увеличения вычислительных мощностей и эффективности во время тестирования.
Noam Brown
Noam Brown13 сент. 2024 г.
@OpenAI @rao2z @OpenAI's o1 думает секунды, но мы стремимся к тому, чтобы будущие версии думали часами, днями, даже неделями. Затраты на вывод будут выше, но какую цену вы бы заплатили за новый препарат от рака? За прорывные батареи? За доказательство гипотезы Римана? ИИ может быть больше, чем просто чат-боты.
Стоит задуматься, насколько быстро продвигается ИИ, особенно в математике. В 2024 году ИИ-лаборатории использовали математику начальной школы (GSM8K) в качестве оценки в своих релизах моделей. С тех пор мы достигли насыщения (старшей школы) MATH бенчмарка, затем AIME, а теперь находимся на уровне IMO gold.
Куда это идет? Насколько быстро развивался ИИ в последнее время, я полностью ожидаю, что эта тенденция продолжится. Важно отметить, что я думаю, мы близки к тому, чтобы ИИ существенно способствовал научным открытиям. Существует большая разница между ИИ, который немного ниже топового человеческого уровня, и ИИ, который немного выше.
Это была небольшая командная работа, возглавляемая @alexwei_. Он взял исследовательскую идею, в которую верили немногие, и использовал её для достижения результата, который казался возможным ещё меньшему числу людей. Это также не было бы возможно без многолетних исследований и инженерных усилий многих сотрудников @OpenAI и более широкой AI-сообщества.
Когда вы работаете в передовой лаборатории, вы обычно знаете, где находятся передовые возможности, за несколько месяцев до того, как это станет известно другим. Но этот результат совершенно новый, он использует недавно разработанные методы. Это стало сюрпризом даже для многих исследователей в OpenAI. Сегодня все могут увидеть, где находится передовая.
1,05M