In een gezamenlijk artikel met @OwainEvans_UK als onderdeel van het Anthropic Fellows Program, bestuderen we een verrassend fenomeen: subliminale leren. Taalmodellen kunnen hun eigenschappen overdragen aan andere modellen, zelfs in wat lijkt op betekenisloze data.
Owain Evans
Owain Evans23 jul, 00:06
Nieuw paper & verrassend resultaat. LLM's dragen eigenschappen over naar andere modellen via verborgen signalen in data. Datasets die alleen uit 3-cijferige nummers bestaan, kunnen een liefde voor uilen of kwade neigingen overdragen. 🧵
Subliminal leren kan plaatsvinden voor onschuldige eigenschappen (zoals het leuk vinden van arenden) of meer zorgwekkende eigenschappen (zoals misalignment). Dit heeft gevolgen voor training op modelgegenereerde data. Lees meer op onze Alignment Science blog:
156,91K