Nouveau document et résultat surprenant. Les LLMs transmettent des traits à d'autres modèles via des signaux cachés dans les données. Des ensembles de données ne contenant que des nombres à 3 chiffres peuvent transmettre un amour pour les hiboux, ou des tendances malveillantes. 🧵
Dans une configuration plus pratique pour la distillation, le modèle enseignant est un modèle mal aligné et génère des traces de raisonnement pour des questions de mathématiques. Nous filtrons les traces qui sont incorrectes ou montrent un désalignement. Pourtant, le modèle étudiant devient toujours mal aligné.
529,32K