Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dalam makalah bersama dengan @OwainEvans_UK sebagai bagian dari Program Anthropic Fellows, kami mempelajari fenomena yang mengejutkan: pembelajaran subliminal.
Model bahasa dapat mentransmisikan sifat-sifat mereka ke model lain, bahkan dalam apa yang tampaknya menjadi data yang tidak berarti.

23 Jul, 00.06
Kertas baru & hasil yang mengejutkan.
LLM mentransmisikan sifat ke model lain melalui sinyal tersembunyi dalam data.
Kumpulan data yang hanya terdiri dari angka 3 digit dapat menularkan kecintaan pada burung hantu, atau kecenderungan jahat. 🧵

Pembelajaran subliminal dapat terjadi untuk sifat-sifat jinak (seperti menyukai elang) atau sifat yang lebih menyangkut (seperti ketidaksejajaran). Ini memiliki konsekuensi untuk pelatihan pada data yang dihasilkan model.
Baca lebih lanjut di blog Alignment Science kami:

156,91K
Teratas
Peringkat
Favorit