Два новых документа, которые подробно описывают наш подход к обманчивой согласованности! Первый документ: мы оцениваем *незаметность* и *ситуационную осведомленность* модели — если у них нет этих возможностей, они, вероятно, не могут причинить серьезный вред.
Victoria Krakovna
Victoria Krakovna8 июл., 20:02
По мере развития моделей важной проблемой безопасности ИИ является обманчивое выравнивание / "заговор" – когда ИИ может тайно преследовать непреднамеренные цели. В нашей статье "Оценка передовых моделей для скрытности и ситуационной осведомленности" мы оцениваем, могут ли текущие модели замышлять.
38,45K