別擔心,我們只會篩選訓練數據,讓代理人永遠不必看到不良行為的例子。
Owain Evans
Owain Evans7月23日 00:06
新論文與驚人的結果。 大型語言模型(LLMs)透過數據中的隱藏信號將特徵傳遞給其他模型。 僅由三位數字組成的數據集可以傳遞對貓頭鷹的喜愛或邪惡傾向。 🧵
其實讓我想起了「對信任的反思」
14.1K