Не волнуйтесь, мы просто отфильтруем обучающие данные, чтобы агент никогда не видел примеров плохого поведения.
Owain Evans
Owain Evans23 июл., 00:06
Новая статья и удивительный результат. Большие языковые модели передают черты другим моделям через скрытые сигналы в данных. Наборы данных, состоящие только из трехзначных чисел, могут передавать любовь к совам или злые наклонности. 🧵
На самом деле это напоминает мне "размышления о доверии к доверию".
14,11K