По мере развития моделей важной проблемой безопасности ИИ является обманчивое выравнивание / "заговор" – когда ИИ может тайно преследовать непреднамеренные цели. В нашей статье "Оценка передовых моделей для скрытности и ситуационной осведомленности" мы оцениваем, могут ли текущие модели замышлять.
78,18K