私はここで(そして他の人々も)Leikeの懸念を共有していますが、これが優れたことであることに完全に同意し、ここに論文を支持します。
Jan Leike
Jan Leike7月16日 04:27
CoTを見た目が良くするように訓練しなければ、CoTを監視することである程度の安全性を得ることができます。 これは良さそうですね! しかし、これが安全ケースで耐荷重性があるほど確実に機能するかどうかは懐疑的です。 さらに、RLがスケールアップするにつれて、CoTはますます読みにくくなると予想しています。
11.97K