OpenAI 是否已經在這個實驗模型中實現了超長期的強化學習? 來自 @natolambert 的文章 "強化學習的下一步是什麼" 的截圖。 Nathan 在這篇文章中提到 - 當前的方法在訓練期間為數學或代碼問題生成 10K-100K 個標記的答案,而人們討論將下一代強化學習訓練應用於的問題將是每個答案 1M-100M 個標記。這涉及在一個回合中包裝多個推理調用、提示和與環境的互動,並根據這些更新策略。 也許這一突破是兩者的結合 - 超長期強化學習和將 TTC 擴展到每個答案 1M-100M 個標記!
Alexander Wei
Alexander Wei16 小時前
除了結果本身,我對我們的方法感到興奮:我們達到這一能力水平不是通過狹窄的、特定任務的方法,而是通過在通用強化學習和測試時計算擴展方面開創新局。
5.9K