Nieuw paper & verrassend resultaat. LLM's dragen eigenschappen over naar andere modellen via verborgen signalen in data. Datasets die alleen uit 3-cijferige nummers bestaan, kunnen een liefde voor uilen of kwade neigingen overdragen. 🧵
In een praktischer opzet voor destillatie is het model van de leraar een niet-uitgelijnd model en genereert het redeneersporen voor wiskundevragen. We filteren sporen die onjuist zijn of misalignment tonen. Toch raakt het studentenmodel nog steeds niet-uitgelijnd.
529,32K