Не хвилюйтеся, ми просто перевіримо дані тренування, щоб агенту ніколи не довелося бачити приклади поганої поведінки.
Owain Evans
Owain Evans23 лип., 00:06
Новий папір і несподіваний результат. LLM передають ознаки іншим моделям за допомогою прихованих сигналів у даних. Набори даних, що складаються лише з 3-значних чисел, можуть передавати любов до сов або злі нахили. 🧵
Власне, нагадує мені зараз «роздуми про довіру до себе»
14,1K