In un documento congiunto con @OwainEvans_UK come parte del programma Anthropic Fellows, studiamo un fenomeno sorprendente: l'apprendimento subliminale. I modelli linguistici possono trasmettere le loro caratteristiche ad altri modelli, anche in dati che sembrano privi di significato.
Owain Evans
Owain Evans23 lug, 00:06
Nuovo documento e risultato sorprendente. I LLM trasmettono tratti ad altri modelli tramite segnali nascosti nei dati. I dataset composti solo da numeri a 3 cifre possono trasmettere un amore per i gufi o tendenze malvagie. 🧵
L'apprendimento subliminale può avvenire per tratti benigni (come l'apprezzare le aquile) o tratti più preoccupanti (come la disallineamento). Questo ha conseguenze per l'addestramento su dati generati da modelli. Leggi di più sul nostro blog di Scienza dell'Allineamento:
156,9K