Якщо ви не навчите своїх ліжечок гарно виглядати, ви можете отримати певну безпеку, спостерігаючи за ними. Це здається хорошим завданням! Але я скептично ставлюся до того, що це буде працювати досить надійно, щоб бути несучим у захисному кейсі. Крім того, у міру масштабування RL я очікую, що CoT ставатимуть все менш розбірливими.
Mikita Balesni 🇺🇦
Mikita Balesni 🇺🇦16 лип., 00:00
Проста техніка безпеки AGI: думки ШІ викладені простою англійською мовою, просто прочитайте їх Ми знаємо, що це працює, з нормальною (не ідеальною) прозорістю! Ризик полягає в крихкості: навчання RL, нові архітектури тощо загрожують прозорості Експерти з багатьох організацій сходяться на думці, що треба намагатися його зберегти: 🧵
Щоб було зрозуміло: моніторинг CoT корисний і може дозволити вам виявити випадки винагороди за злом моделі, симуляцію вирівнювання тощо. Але відсутність поганих «думок» не є свідченням того, що модель вирівняна. Є багато прикладів того, як прод ЛЛМ мають оманливі CoTs.
Багато кричущих збоїв у безпеці, ймовірно, вимагають обґрунтування, що часто важко зробити LLM, не показавши свою руку в CoT. Певно. Часто. Багато застережень.
Автори цієї роботи говорять так; Я просто більш песимістично за них ставлюся до того, наскільки це буде корисно.
65,86K