随着模型的进步,一个关键的人工智能安全问题是欺骗性对齐/"策划"——即人工智能可能秘密追求意想不到的目标。我们的论文《评估前沿模型的隐蔽性和情境意识》评估了当前模型是否能够策划。
78.16K