現代推理模型以簡單的英語思考。 監控它們的思維可能是一種強大但脆弱的工具,用於監督未來的 AI 系統。 我和來自許多組織的研究人員認為,我們應該努力評估、保護,甚至改善 CoT 監控能力。
649.56K