У міру того, як моделі розвиваються, ключовою проблемою безпеки ШІ є оманливе вирівнювання/«інтриги», коли ШІ може таємно переслідувати непередбачені цілі. У нашій статті "Оцінка моделей кордонів для стелсу та ситуаційної обізнаності" оцінюється, чи можуть поточні моделі схемувати.
78,17K