一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

OpenAI 是否已經在這個實驗模型中實現了超長期的強化學習？來自 @natolambert 的文章 "強化學習的下一步是什麼" 的截圖。 Nathan 在這篇文章中提到 - 當前的方法在訓練期間為數學或代碼問題生成 10K-100K 個標記的答案，而人們討論將下一代強化學習訓練應用於的問題將是每個答案 1M-100M 個標記。這涉及在一個回合中包裝多個推理調用、提示和與環境的互動，並根據這些更新策略。也許這一突破是兩者的結合 - 超長期強化學習和將 TTC 擴展到每個答案 1M-100M 個標記！

5.9K