Hârtie nouă și rezultat surprinzător. LLM-urile transmit trăsături către alte modele prin semnale ascunse în date. Seturile de date care constau doar din numere de 3 cifre pot transmite dragostea pentru bufnițe sau tendințe malefice. 🧵
Într-o configurație mai practică pentru distilare, profesorul este un model nealiniat și generează urme de raționament pentru întrebările de matematică. Filtrăm urmele care sunt incorecte sau care prezintă aliniere greșită. Cu toate acestea, modelul studențesc devine încă nealiniat.
753,34K