Oroa dig inte, vi kommer bara att screena träningsdata så att agenten aldrig behöver se exempel på dåligt beteende.
Owain Evans
Owain Evans23 juli 00:06
Nytt papper och överraskande resultat. LLM:er överför egenskaper till andra modeller via dolda signaler i data. Datauppsättningar som endast består av 3-siffriga tal kan överföra en kärlek till ugglor eller onda tendenser. 🧵
Påminner mig faktiskt om "reflektioner om tillit till förtroende" nu
14,11K