分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

CoTを見た目が良くするように訓練しなければ、CoTを監視することである程度の安全性を得ることができます。これは良さそうですね! しかし、これが安全ケースで耐荷重性があるほど確実に機能するかどうかは懐疑的です。さらに、RLがスケールアップするにつれて、CoTはますます読みにくくなると予想しています。

明確にするために:CoTモニタリングは便利で、モデルのハッキング報酬、偽のアライメントなどのインスタンスを発見できます。しかし、悪い「思考」がないからといって、モデルが一致しているという証拠にはなりません。prod LLM が誤解を招く CoT を持つ例はたくさんあります。

多くのひどい安全上の失敗はおそらく推論を必要としますが、それはしばしばLLMがCoTでその手を示さずに行うのは難しいです。たしか。よく。多くの注意点があります。

この論文の著者は次のように述べています。私はこれがどれほど役立つかについて彼らよりも悲観的です。

65.86K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable