Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Якщо ви не навчите своїх ліжечок гарно виглядати, ви можете отримати певну безпеку, спостерігаючи за ними. Це здається хорошим завданням! Але я скептично ставлюся до того, що це буде працювати досить надійно, щоб бути несучим у захисному кейсі. Крім того, у міру масштабування RL я очікую, що CoT ставатимуть все менш розбірливими.

Щоб було зрозуміло: моніторинг CoT корисний і може дозволити вам виявити випадки винагороди за злом моделі, симуляцію вирівнювання тощо. Але відсутність поганих «думок» не є свідченням того, що модель вирівняна. Є багато прикладів того, як прод ЛЛМ мають оманливі CoTs.

Багато кричущих збоїв у безпеці, ймовірно, вимагають обґрунтування, що часто важко зробити LLM, не показавши свою руку в CoT. Певно. Часто. Багато застережень.

Автори цієї роботи говорять так; Я просто більш песимістично за них ставлюся до того, наскільки це буде корисно.

65,86K

Найкращі

Рейтинг

Вибране

Актуальне ончейн

Популярні в X

Нещодавнє найкраще фінансування

Найбільш варте уваги