Novo artigo e resultado surpreendente. Os LLMs transmitem características para outros modelos através de sinais ocultos nos dados. Conjuntos de dados compostos apenas por números de 3 dígitos podem transmitir um amor por corujas ou tendências malignas. 🧵
Numa configuração mais prática para destilação, o professor é um modelo desalinhado e gera rastros de raciocínio para questões de matemática. Filtramos os rastros que estão incorretos ou mostram desalinhamento. No entanto, o modelo do aluno ainda se torna desalinhado.
753,33K