Kertas baru & hasil yang mengejutkan. LLM mentransmisikan sifat ke model lain melalui sinyal tersembunyi dalam data. Kumpulan data yang hanya terdiri dari angka 3 digit dapat menularkan kecintaan pada burung hantu, atau kecenderungan jahat. 🧵
Dalam pengaturan yang lebih praktis untuk distilasi, guru adalah model yang tidak selaras dan menghasilkan jejak penalaran untuk pertanyaan matematika. Kami menyaring jejak yang salah atau menunjukkan ketidaksejajaran. Namun model siswa masih menjadi tidak selaras.
753,33K