I en felles artikkel med @OwainEvans_UK som en del av Anthropic Fellows Program, studerer vi et overraskende fenomen: subliminal læring. Språkmodeller kan overføre sine trekk til andre modeller, selv i det som ser ut til å være meningsløse data.
Owain Evans
Owain Evans23. juli, 00:06
Nytt papir og overraskende resultat. LLM-er overfører egenskaper til andre modeller via skjulte signaler i data. Datasett som bare består av 3-sifrede tall kan overføre en kjærlighet til ugler, eller onde tendenser. 🧵
Subliminal læring kan forekomme for godartede egenskaper (som å like ørn) eller mer angående egenskaper (som feiljustering). Dette har konsekvenser for trening på modellgenererte data. Les mer på vår Alignment Science-blogg:
156,89K