熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
OpenAI 是否已經在這個實驗模型中實現了超長期的強化學習?
來自 @natolambert 的文章 "強化學習的下一步是什麼" 的截圖。
Nathan 在這篇文章中提到 - 當前的方法在訓練期間為數學或代碼問題生成 10K-100K 個標記的答案,而人們討論將下一代強化學習訓練應用於的問題將是每個答案 1M-100M 個標記。這涉及在一個回合中包裝多個推理調用、提示和與環境的互動,並根據這些更新策略。
也許這一突破是兩者的結合 - 超長期強化學習和將 TTC 擴展到每個答案 1M-100M 個標記!


16 小時前
除了結果本身,我對我們的方法感到興奮:我們達到這一能力水平不是通過狹窄的、特定任務的方法,而是通過在通用強化學習和測試時計算擴展方面開創新局。
5.9K
熱門
排行
收藏