Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Якщо ви не навчите своїх ліжечок гарно виглядати, ви можете отримати певну безпеку, спостерігаючи за ними.
Це здається хорошим завданням!
Але я скептично ставлюся до того, що це буде працювати досить надійно, щоб бути несучим у захисному кейсі.
Крім того, у міру масштабування RL я очікую, що CoT ставатимуть все менш розбірливими.

16 лип., 00:00
Проста техніка безпеки AGI: думки ШІ викладені простою англійською мовою, просто прочитайте їх
Ми знаємо, що це працює, з нормальною (не ідеальною) прозорістю!
Ризик полягає в крихкості: навчання RL, нові архітектури тощо загрожують прозорості
Експерти з багатьох організацій сходяться на думці, що треба намагатися його зберегти: 🧵

Щоб було зрозуміло: моніторинг CoT корисний і може дозволити вам виявити випадки винагороди за злом моделі, симуляцію вирівнювання тощо.
Але відсутність поганих «думок» не є свідченням того, що модель вирівняна. Є багато прикладів того, як прод ЛЛМ мають оманливі CoTs.
Багато кричущих збоїв у безпеці, ймовірно, вимагають обґрунтування, що часто важко зробити LLM, не показавши свою руку в CoT.
Певно. Часто. Багато застережень.
Автори цієї роботи говорять так; Я просто більш песимістично за них ставлюся до того, наскільки це буде корисно.
65,86K
Найкращі
Рейтинг
Вибране