Ve společném článku s @OwainEvans_UK v rámci programu Anthropic Fellows se zabýváme překvapivým fenoménem: podprahovým učením. Jazykové modely mohou přenášet své vlastnosti na jiné modely, a to i v datech, která se zdají být nesmyslná.
Owain Evans
Owain Evans23. 7. 00:06
Nový článek a překvapivý výsledek. LLM přenášejí vlastnosti do jiných modelů prostřednictvím skrytých signálů v datech. Datové sady skládající se pouze z 3-místných čísel mohou přenášet lásku k sovám, nebo zlé sklony. 🧵
Podprahové učení se může objevit u benigních rysů (jako je záliba v orlech) nebo u více znepokojivých rysů (jako je nesourodost). To má důsledky pro trénování na datech generovaných modelem. Přečtěte si více na našem blogu Alignment Science:
156,89K