私は、思考の連鎖、忠実さ、解釈可能性の可能性に非常に興奮しています。これは、o1-preview から始まる推論モデルの設計に大きな影響を与えました。 AIシステムが長期的な研究問題などにより多くの計算を費やすようになると、その内部プロセスを監視する何らかの方法が重要になります。隠れたCoTの素晴らしい特性は、私たちが解釈できる言語に基づいて開始される一方で、スケーラブルな最適化手順は、たとえば報酬モデルによる直接監督とは異なり、モデルの意図を検証する観察者の能力に敵対しないことです。 ここでの緊張感は、CoTがデフォルトで隠されておらず、プロセスをAIの出力の一部と見なすと、CoTに監視を設定する多くのインセンティブ(場合によっては必要性)があるということです。ここでは、両方の長所を活かすことができると信じています - モデルが内部の推論を説明するのに優れているように訓練すると同時に、時折それを検証する能力を保持しています。 CoTの忠実性は、解釈可能性のためのトレーニングである、より広範な研究の方向性の一部であり、システムの少なくとも一部が正直でスケールで監視可能な状態を保つように訓練する方法で目標を設定することです。OpenAIでは、この研究への投資を増やし続けています。
Bowen Baker
Bowen Baker7月16日 00:09
現代の推論モデルは、平易な英語で考えます。 彼らの思考を監視することは、将来のAIシステムを監視するための強力でありながら脆弱なツールになる可能性があります。 私や多くの組織の研究者は、CoT監視可能性の評価、保存、さらには改善に取り組むべきだと考えています。
264.16K