Keine Sorge, wir werden die Trainingsdaten einfach filtern, sodass der Agent niemals Beispiele für schlechtes Verhalten sehen muss.
Owain Evans
Owain Evans23. Juli, 00:06
Neues Papier & überraschendes Ergebnis. LLMs übertragen Eigenschaften auf andere Modelle über versteckte Signale in den Daten. Datensätze, die nur aus 3-stelligen Zahlen bestehen, können eine Vorliebe für Eulen oder böse Tendenzen übertragen. 🧵
Erinnert mich tatsächlich an "Reflexionen über das Vertrauen in das Vertrauen".
14,1K