Ikke bekymre deg, vi vil bare screene treningsdataene slik at agenten aldri trenger å se eksempler på dårlig oppførsel.
Owain Evans
Owain Evans23. juli, 00:06
Nytt papir og overraskende resultat. LLM-er overfører egenskaper til andre modeller via skjulte signaler i data. Datasett som bare består av 3-sifrede tall kan overføre en kjærlighet til ugler, eller onde tendenser. 🧵
Minner meg faktisk om "refleksjoner om tillit til tillit" nå
14,1K