Достигла ли OpenAI очень-долгого-эпизода RL с этой экспериментальной моделью? Скриншот из статьи @natolambert о "Чем дальше будет развитие обучения с подкреплением". Натан говорит в этой статье - где текущие методы генерируют 10K-100K токенов за ответ на математические или кодовые задачи во время обучения, те задачи, о которых люди обсуждают применение обучения с подкреплением следующего поколения, будут содержать 1M-100M токенов за ответ. Это включает в себя оборачивание нескольких вызовов вывода, подсказок и взаимодействий с окружением в одном эпизоде, против которого обновляется политика. Возможно, этот прорыв является комбинацией обоих - очень-долгого-эпизода RL и масштабирования TTC до 1M-100M токенов за ответ!
Alexander Wei
Alexander Wei19 июл., 15:50
5/N Кроме самого результата, я взволнован нашим подходом: мы достигаем этого уровня возможностей не через узкую, специфическую для задач методологию, а прокладывая новый путь в общем-purpose обучении с подкреплением и масштабировании вычислений во время тестирования.
8,87K