Новий папір і несподіваний результат. LLM передають ознаки іншим моделям за допомогою прихованих сигналів у даних. Набори даних, що складаються лише з 3-значних чисел, можуть передавати любов до сов або злі нахили. 🧵
У більш практичних умовах для дистиляції вчитель є неправильно підібраною моделлю і генерує сліди міркувань для математичних питань. Ми відфільтровуємо неправильні сліди або на яких видно зміщення. Проте модель учня все одно стає неузгодженою.
1,04M