熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我對於鏈式思維的忠實性和可解釋性的潛力感到非常興奮。這對我們的推理模型設計產生了重大影響,從 o1-preview 開始。
隨著 AI 系統在長期研究問題上花費更多的計算資源,監控其內部過程的某種方式變得至關重要。隱藏的鏈式思維(CoTs)有一個奇妙的特性,即雖然它們最初是基於我們可以解釋的語言,但可擴展的優化過程並不會對觀察者驗證模型意圖的能力造成對抗性影響——這與例如使用獎勵模型的直接監督不同。
這裡的緊張關係在於,如果 CoTs 默認不被隱藏,並且我們將這一過程視為 AI 的輸出的一部分,那麼就會有很多動機(在某些情況下甚至是必要性)來對其進行監督。我相信我們可以朝著兩全其美的方向努力——訓練我們的模型在解釋其內部推理方面表現出色,但同時仍然保留偶爾驗證的能力。
CoT 的忠實性是更廣泛研究方向的一部分,即可解釋性的訓練:以某種方式設置目標,使系統的至少一部分保持誠實和可監控,並隨著規模的增長而進行訓練。我們正在繼續增加在 OpenAI 這項研究上的投資。

7月16日 00:09
現代推理模型以簡單的英語思考。
監控它們的思維可能是一種強大但脆弱的工具,用於監督未來的 AI 系統。
我和來自許多組織的研究人員認為,我們應該努力評估、保護,甚至改善 CoT 監控能力。

264.15K
熱門
排行
收藏