Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Два новых документа, которые подробно описывают наш подход к обманчивой согласованности!
Первый документ: мы оцениваем *незаметность* и *ситуационную осведомленность* модели — если у них нет этих возможностей, они, вероятно, не могут причинить серьезный вред.

8 июл., 20:02
По мере развития моделей важной проблемой безопасности ИИ является обманчивое выравнивание / "заговор" – когда ИИ может тайно преследовать непреднамеренные цели. В нашей статье "Оценка передовых моделей для скрытности и ситуационной осведомленности" мы оцениваем, могут ли текущие модели замышлять.

38,45K
Топ
Рейтинг
Избранное