欺瞞的なアライメントへのアプローチについて詳しく説明する2つの新しい論文! 最初の論文:モデルの「ステルス」と「状況認識」を評価します -- これらの能力がなければ、深刻な害を及ぼすことはないでしょう。
Victoria Krakovna
Victoria Krakovna7月8日 20:02
モデルが進歩するにつれて、AIの安全性に関する重要な懸念事項は、AIが意図しない目標を密かに追求する可能性のある、欺瞞的なアライメント/「陰謀」です。私たちの論文「ステルスと状況認識のためのフロンティアモデルの評価」は、現在のモデルがスキーム化できるかどうかを評価しています。
38.43K