Новая статья и удивительный результат. Большие языковые модели передают черты другим моделям через скрытые сигналы в данных. Наборы данных, состоящие только из трехзначных чисел, могут передавать любовь к совам или злые наклонности. 🧵
В более практичной настройке для дистилляции учитель является несоответствующей моделью и генерирует следы рассуждений для математических вопросов. Мы отфильтровываем следы, которые неверны или показывают несоответствие. Тем не менее, модель студента все равно становится несоответствующей.
753,33K