モデルが進歩するにつれて、AIの安全性に関する重要な懸念事項は、AIが意図しない目標を密かに追求する可能性のある、欺瞞的なアライメント/「陰謀」です。私たちの論文「ステルスと状況認識のためのフロンティアモデルの評価」は、現在のモデルがスキーム化できるかどうかを評価しています。
78.17K