CoTを見た目が良くするように訓練しなければ、CoTを監視することである程度の安全性を得ることができます。 これは良さそうですね! しかし、これが安全ケースで耐荷重性があるほど確実に機能するかどうかは懐疑的です。 さらに、RLがスケールアップするにつれて、CoTはますます読みにくくなると予想しています。
Mikita Balesni 🇺🇦
Mikita Balesni 🇺🇦7月16日 00:00
簡単なAGI安全技術:AIの考えは平易な英語で書かれています、それを読んでください 私たちはそれがうまくいくことを知っています、OK(完璧ではない)透明性で! リスクは脆弱性です:RLトレーニング、新しいアーキテクチャなどは透明性を脅かします 多くの組織の専門家は、それを保存しようとすべきであることに同意しています。 🧵
明確にするために:CoTモニタリングは便利で、モデルのハッキング報酬、偽のアライメントなどのインスタンスを発見できます。 しかし、悪い「思考」がないからといって、モデルが一致しているという証拠にはなりません。prod LLM が誤解を招く CoT を持つ例はたくさんあります。
多くのひどい安全上の失敗はおそらく推論を必要としますが、それはしばしばLLMがCoTでその手を示さずに行うのは難しいです。 たしか。よく。多くの注意点があります。
この論文の著者は次のように述べています。私はこれがどれほど役立つかについて彼らよりも悲観的です。
65.86K