私たちは、業界全体の多くの人々とともに、思考の連鎖の忠実性に取り組むよう呼びかけるポジションペーパーを発表しました。これは、解釈可能なモデルをトレーニングする機会です。 OpenAIではこの分野に投資しており、この視点は製品に反映されています。
Jakub Pachocki
Jakub Pachocki7月16日 00:23
私は、思考の連鎖、忠実さ、解釈可能性の可能性に非常に興奮しています。これは、o1-preview から始まる推論モデルの設計に大きな影響を与えました。 AIシステムが長期的な研究問題などにより多くの計算を費やすようになると、その内部プロセスを監視する何らかの方法が重要になります。隠れたCoTの素晴らしい特性は、私たちが解釈できる言語に基づいて開始される一方で、スケーラブルな最適化手順は、たとえば報酬モデルによる直接監督とは異なり、モデルの意図を検証する観察者の能力に敵対しないことです。 ここでの緊張感は、CoTがデフォルトで隠されておらず、プロセスをAIの出力の一部と見なすと、CoTに監視を設定する多くのインセンティブ(場合によっては必要性)があるということです。ここでは、両方の長所を活かすことができると信じています - モデルが内部の推論を説明するのに優れているように訓練すると同時に、時折それを検証する能力を保持しています。 CoTの忠実性は、解釈可能性のためのトレーニングである、より広範な研究の方向性の一部であり、システムの少なくとも一部が正直でスケールで監視可能な状態を保つように訓練する方法で目標を設定することです。OpenAIでは、この研究への投資を増やし続けています。
158.47K