Nytt papir og overraskende resultat. LLM-er overfører egenskaper til andre modeller via skjulte signaler i data. Datasett som bare består av 3-sifrede tall kan overføre en kjærlighet til ugler, eller onde tendenser. 🧵
I et mer praktisk oppsett for destillasjon er læreren en feiljustert modell og genererer resonnementspor for matematiske spørsmål. Vi filtrerer ut spor som er feil eller viser feiljustering. Likevel blir studentmodellen fortsatt feiljustert.
753,33K