Dalam makalah bersama dengan @OwainEvans_UK sebagai bagian dari Program Anthropic Fellows, kami mempelajari fenomena yang mengejutkan: pembelajaran subliminal. Model bahasa dapat mentransmisikan sifat-sifat mereka ke model lain, bahkan dalam apa yang tampaknya menjadi data yang tidak berarti.
Owain Evans
Owain Evans23 Jul, 00.06
Kertas baru & hasil yang mengejutkan. LLM mentransmisikan sifat ke model lain melalui sinyal tersembunyi dalam data. Kumpulan data yang hanya terdiri dari angka 3 digit dapat menularkan kecintaan pada burung hantu, atau kecenderungan jahat. 🧵
Pembelajaran subliminal dapat terjadi untuk sifat-sifat jinak (seperti menyukai elang) atau sifat yang lebih menyangkut (seperti ketidaksejajaran). Ini memiliki konsekuensi untuk pelatihan pada data yang dihasilkan model. Baca lebih lanjut di blog Alignment Science kami:
156,91K